প্রত্যেকে 3 বা 4 বা 10 বনাম একটি সেট দিয়ে বিগ ডেটা সংজ্ঞায়িত করে৷ এই Vগুলি কি আসলেই আমাদের বিগ ডেটা ধারণার সংজ্ঞা দিচ্ছে নাকি অন্য কিছু যা তারা আমাদের বলার চেষ্টা করছে? এই ভি-ভিত্তিক বৈশিষ্ট্য ব্যবহার করার প্রধান কারণ হল এই বিগ ডেটার সাথে প্যাক করা চ্যালেঞ্জগুলিকে হাইলাইট করা। চ্যালেঞ্জ যেমন – ক্যাপচারিং, ক্লিনিং, কিউরেশন, ইন্টিগ্রেশন, স্টোরেজ, প্রসেসিং এবং আরও অনেক কিছু।
এই V'গুলি সম্ভাব্য চ্যালেঞ্জগুলির জন্য নিজেকে প্রস্তুত করার নির্দেশনা দিচ্ছে৷ আপনি যখন আপনার বিগ ডেটা পরিচালনা করতে শুরু করবেন তখন আপনার পথে আসতে পারে এমন চ্যালেঞ্জগুলি যা:
৷
- ৷
- বড় পরিমাণে বৃদ্ধি পায়
- বড় বেগে বেড়ে ওঠে
- বড় জাত তৈরি করে
- বড় পরিবর্তনশীলতার সাথে পরিবর্তন
- বড় সত্যতা বজায় রাখার জন্য প্রক্রিয়া প্রয়োজন
- পরিবর্তন করলে বড় ভিজ্যুয়ালাইজেশন পাওয়া যায়
- বড় লুকানো মান আছে
এই Vগুলি বিগ ডেটার গুরুত্বপূর্ণ দিকগুলি এবং একটি বিগ ডেটা কৌশল ব্যাখ্যা করে যা সংস্থা উপেক্ষা করতে পারে না৷ আসুন বিগ ডেটার বিভিন্ন বৈশিষ্ট্যে সমস্ত V-এর অবদান দেখি:
1. ভলিউম:
100 টেরাবাইট ডেটা প্রতিদিন ফেসবুকে আপলোড করা হয়; আকামাই অনলাইন বিজ্ঞাপন লক্ষ্য করার জন্য প্রতিদিন 75 মিলিয়ন ইভেন্ট বিশ্লেষণ করে; ওয়ালমার্ট প্রতি ঘণ্টায় 1 মিলিয়ন গ্রাহকের লেনদেন পরিচালনা করে। এখন পর্যন্ত তৈরি করা সমস্ত ডেটার 90% গত 2 বছরে তৈরি হয়েছে৷
৷উপরের পরিসংখ্যানগুলি সত্যিই চিত্রিত করে যখন আমরা ডেটার বড় ভলিউম বলি তখন এর অর্থ কী৷ এটি ডেটার প্রথম বৈশিষ্ট্য যা এটিকে একটি বড় ডেটা করে তোলে। পরিবর্তিতভাবে ডেটার এই নিছক পরিমাণ এই ডেটা সংরক্ষণ করা আমাদের জন্য একটি চ্যালেঞ্জ তৈরি করে৷
2. বেগ:
1n 1999, প্রতিদিনের প্রতি মিনিটে, আমরা YouTube-এ 100 ঘণ্টার ভিডিও আপলোড করি, 200 মিলিয়নেরও বেশি ইমেল প্রেরণ করি এবং 300,000 টুইট পাঠাই৷
ভলিউম সংখ্যার অন্তর্নিহিত একটি আরও বড় প্রবণতা, যা হল যে বিদ্যমান ডেটার 90% শুধুমাত্র গত দুই বছরে তৈরি করা হয়েছে৷ এটি বেগ বা গতি চিত্রিত করে যেখানে ডেটা তৈরি, সংরক্ষণ, বিশ্লেষণ এবং ভিজ্যুয়ালাইজ করা হচ্ছে।
প্রতিষ্ঠানের চ্যালেঞ্জটি হল রিয়েল-টাইমে ডেটা তৈরি এবং ব্যবহার করা বিপুল গতির সাথে মোকাবিলা করা৷
3. বৈচিত্র্য
অতীতে, সমস্ত ডেটা তৈরি করা হয়েছিল স্ট্রাকচার্ড ডেটা, এটি সুন্দরভাবে কলাম এবং সারিতে লাগানো ছিল কিন্তু সেই দিনগুলি শেষ। আজ উত্পন্ন 90% ডেটা অসংগঠিত, সমস্ত আকার এবং আকারে আসে - ভূ-স্থানিক ডেটা থেকে টুইট যা বিষয়বস্তু এবং অনুভূতির জন্য বিশ্লেষণ করা যেতে পারে, ছবি এবং ভিডিও হিসাবে ভিজ্যুয়াল ডেটা পর্যন্ত৷
বৈচিত্র্য বিগ ডেটার সবচেয়ে বড় চ্যালেঞ্জগুলির একটি বর্ণনা করে৷ এটি অসংগঠিত হতে পারে এবং এতে XML থেকে ভিডিও থেকে SMS পর্যন্ত বিভিন্ন ধরণের ডেটা অন্তর্ভুক্ত থাকতে পারে। অর্থপূর্ণ উপায়ে ডেটা সংগঠিত করা কোনও সহজ কাজ নয়, বিশেষ করে যখন ডেটা নিজেই দ্রুত পরিবর্তন হয়।
4. পরিবর্তনশীলতা
পরিবর্তনশীলতা প্রায়শই বিভিন্নতার সাথে বিভ্রান্ত হয়৷ এটিকে আলাদা করার জন্য একটি সহজ উদাহরণ হল:স্টারবাকসের কথা চিন্তা করুন - কোল্ড কফিতে এটির অনেক স্বাদ রয়েছে। এটি বৈচিত্র্য। ধরুন আপনি প্রতিদিন ক্যাফে মোচা কিনছেন এবং এর স্বাদ এবং গন্ধ আগের দিনের থেকে একটু আলাদা। এটি পরিবর্তনশীলতা।
বিগ ডেটার প্রসঙ্গে পরিবর্তনশীলতা কয়েকটি ভিন্ন জিনিসকে বোঝায়। একটি হল তথ্যের অসঙ্গতির সংখ্যা। কোনো অর্থপূর্ণ বিশ্লেষণ ঘটতে এগুলিকে অসঙ্গতি এবং বহিরাগত সনাক্তকরণ পদ্ধতি দ্বারা খুঁজে পাওয়া দরকার। বিগ ডেটাও পরিবর্তনশীল কারণ একাধিক অসমান ডেটা টাইপ এবং উত্সের ফলে প্রচুর ডেটা মাত্রা রয়েছে। পরিবর্তনশীলতা সেই অসামঞ্জস্যপূর্ণ গতিকেও উল্লেখ করতে পারে যেখানে আপনার ডাটাবেসে বড় ডেটা লোড হয়।
5. সত্যতা
বিগ ডেটা বোঝার জন্য যা গুরুত্বপূর্ণ তা হল অগোছালো, কোলাহলপূর্ণ প্রকৃতি এবং বিশ্লেষণ শুরু করার আগে একটি সঠিক ডেটাসেট তৈরি করতে যে পরিমাণ কাজ করা হয়। বিশ্লেষণ করা ডেটা ভুল বা অসম্পূর্ণ হলে এটি অকেজো৷
এই পরিস্থিতির উদ্ভব হয় যখন ডেটা স্ট্রীমগুলি বিভিন্ন উত্স থেকে উদ্ভূত হয় যা বিভিন্ন সংকেত-থেকে-শব্দ অনুপাত সহ বিভিন্ন বিন্যাস উপস্থাপন করে৷ বিগ ডেটা অ্যানালিটিক্সের কাছে পৌঁছানোর সময় এই জমে থাকা ত্রুটিগুলি নিয়ে ছড়িয়ে পড়তে পারে৷
সত্যতা হল ডেটা সঠিক কিনা তা নিশ্চিত করা, যার জন্য আপনার সিস্টেমে খারাপ ডেটা জমতে না দেওয়ার জন্য প্রক্রিয়াগুলির প্রয়োজন৷ সবচেয়ে সহজ উদাহরণ হল এমন পরিচিতি যা আপনার মার্কেটিং অটোমেশন সিস্টেমে মিথ্যা নাম এবং ভুল যোগাযোগের তথ্য দিয়ে প্রবেশ করে। আপনার ডাটাবেসে আপনি কতবার মিকি মাউস দেখেছেন? এটি ক্লাসিক "আবর্জনা ভিতরে, আবর্জনা আউট" চ্যালেঞ্জ৷
৷6. ভিজ্যুয়ালাইজেশন
এটি বিগ ডেটার কঠিন অংশ, এতে ব্যর্থ হওয়া এই বিপুল পরিমাণ ডেটা অকেজো করে দেয়৷ যেকোন বিগ ডেটা প্রসেসিং সিস্টেমের একটি মূল কাজ হল এর বিশাল স্কেলকে সহজে বোধগম্য এবং কার্যকরী কিছুতে রূপান্তর করা। মানুষের ব্যবহারের জন্য, এর জন্য সেরা পদ্ধতিগুলির মধ্যে একটি হল এটিকে গ্রাফিকাল ফর্ম্যাটে রূপান্তর করা৷
মেমরি প্রযুক্তির সীমাবদ্ধতা এবং দুর্বল স্কেলেবিলিটি, কার্যকারিতা এবং প্রতিক্রিয়া সময়ের কারণে বর্তমান বড় ডেটা ভিজ্যুয়ালাইজেশন টুলগুলি প্রযুক্তিগত চ্যালেঞ্জের সম্মুখীন হয়৷ প্রথাগত গ্রাফগুলি এক বিলিয়ন ডেটা পয়েন্ট প্লট করার প্রয়োজনীয়তা পূরণ করতে পারে না, তাই আপনার ডেটা উপস্থাপনের বিভিন্ন উপায়ের প্রয়োজন যেমন ডেটা ক্লাস্টারিং বা গাছের মানচিত্র, সানবার্স্ট, সমান্তরাল স্থানাঙ্ক, বৃত্তাকার নেটওয়ার্ক ডায়াগ্রাম বা শঙ্কু গাছ ব্যবহার করে৷
7. মান
মূল্য হল শেষ খেলা৷ বিগ ডেটার সম্ভাব্য মান বিশাল। ভলিউম, বেগ, বৈচিত্র্য, পরিবর্তনশীলতা, সত্যতা এবং ভিজ্যুয়ালাইজেশনের যত্ন নেওয়ার পরে - যা অনেক সময় এবং প্রচেষ্টা নেয় - এটি নিশ্চিত হওয়া গুরুত্বপূর্ণ যে আপনার সংস্থা ডেটা থেকে মূল্য পাচ্ছে৷
অবশ্যই, ডেটা নিজেই মূল্যবান নয়৷ মূল্য সেই ডেটাতে করা বিশ্লেষণে এবং কীভাবে ডেটা তথ্যে পরিণত হয় এবং অবশেষে এটিকে জ্ঞানে পরিণত করা হয়৷
উপরের 7 V আপনাকে বিগ ডেটার 3টি গুরুত্বপূর্ণ দিক যেমন সংজ্ঞা, বৈশিষ্ট্য এবং চ্যালেঞ্জ সম্পর্কে বলে। কিন্তু যখন লোকেরা আগে মোকাবেলা করার পদ্ধতি উদ্ভাবনের জন্য বিগ ডেটা নিয়ে গবেষণা করতে শুরু করে তখন তারা 7 V-এর চ্যালেঞ্জের মুখোমুখি হয়েছিল। যদিও তারা বিগ ডেটাতে সেই গুরুত্বপূর্ণ ভূমিকা পালন করে না কিন্তু বৈশিষ্ট্য এবং চ্যালেঞ্জের তালিকা সম্পূর্ণ করে।
8. বৈধতা
সত্যতার অনুরূপ, বৈধতা বলতে বোঝায় ডেটা কতটা নির্ভুল এবং সঠিক ব্যবহারের জন্য। বিগ ডেটার সত্যতা বৈধতার একটি বিষয়, যার অর্থ হল ডেটা সঠিক এবং সঠিক ব্যবহারের জন্য। স্পষ্টতই বৈধ তথ্য সঠিক সিদ্ধান্ত নেওয়ার মূল চাবিকাঠি। ডেটার বৈধতা এমন একটি যা ডেটার অসংলগ্ন সংক্রমণকে প্রত্যয়িত করে৷
৷9. কার্যক্ষমতা
শুধু নীচের বিবৃতিগুলির উপর একটি চিন্তা করুন:
৷- ৷
- দিন বা সপ্তাহের দিনের সময় কেনার আচরণের উপর কী প্রভাব ফেলে?
- টুইটার বা ফেসবুকে বাড়তে বাড়তে কি ক্রয় বৃদ্ধি বা হ্রাসের কথা উল্লেখ আছে?
- কিভাবে ভৌগলিক অবস্থান, পণ্যের প্রাপ্যতা, দিনের সময়, ক্রয়ের ইতিহাস, বয়স, পরিবারের আকার, ক্রেডিট সীমা এবং গাড়ির ধরন সবকিছুই একজন ভোক্তার কেনার প্রবণতার পূর্বাভাস দিতে একত্রিত হয়?
আমাদের প্রথম কাজ হল সেই ডেটার কার্যকারিতা মূল্যায়ন করা কারণ, একটি কার্যকর ভবিষ্যদ্বাণীমূলক মডেল তৈরি করার জন্য অনেক ধরণের ডেটা এবং ভেরিয়েবল বিবেচনা করার জন্য, আমরা দ্রুত এবং খরচ করতে চাই- একটি সম্পূর্ণ বৈশিষ্ট্যযুক্ত মডেল তৈরিতে বিনিয়োগ করার আগে কার্যকরভাবে একটি নির্দিষ্ট ভেরিয়েবলের প্রাসঙ্গিকতা পরীক্ষা এবং নিশ্চিত করুন। অন্য কথায়, আমরা পরবর্তী পদক্ষেপ নেওয়ার আগে সেই হাইপোথিসিসটিকে যাচাই করতে চাই এবং একটি ভেরিয়েবলের কার্যকারিতা নির্ধারণের প্রক্রিয়ায়, অন্য ভেরিয়েবলগুলি - যেগুলি আমাদের প্রাথমিক অনুমানের অংশ ছিল না - আছে কিনা তা নির্ধারণ করতে আমরা আমাদের দৃষ্টিভঙ্গি প্রসারিত করতে পারি আমাদের কাঙ্ক্ষিত বা পর্যবেক্ষিত ফলাফলের উপর একটি অর্থপূর্ণ প্রভাব।
10. অস্থিরতা
অপ্রাসঙ্গিক, ঐতিহাসিক বা আর উপযোগী নয় বলে বিবেচিত হওয়ার আগে আপনার ডেটার বয়স কত হতে হবে? কতক্ষণ ডেটা রাখতে হবে?
যখন আমরা বিগ ডেটার অস্থিরতা সম্পর্কে কথা বলি, তখন আমরা আমাদের ব্যবসায় প্রতিদিন প্রয়োগ করি এমন স্ট্রাকচার্ড ডেটার ধারণ নীতি সহজেই স্মরণ করতে পারি। একবার ধরে রাখার মেয়াদ শেষ হয়ে গেলে, আমরা সহজেই এটি ধ্বংস করতে পারি।
বিগ ডেটার বেগ এবং ভলিউমের কারণে, যাইহোক, এর অস্থিরতা সাবধানে বিবেচনা করা প্রয়োজন৷ আপনাকে এখন ডেটা কারেন্সি এবং প্রাপ্যতার জন্য নিয়ম প্রতিষ্ঠা করতে হবে এবং সেইসাথে প্রয়োজনে তথ্য দ্রুত পুনরুদ্ধার নিশ্চিত করতে হবে।
11. দুর্বলতা
আপনি কি 2015 সালে অ্যাশলে ম্যাডিসন হ্যাকের কথা মনে রেখেছেন? অথবা আপনার কি মনে আছে 2016 সালের মে মাসে CRN রিপোর্ট করেছিল "পিস নামক একটি হ্যাকার ডার্ক ওয়েবে বিক্রি করার জন্য ডেটা পোস্ট করেছে, যেটিতে 167 মিলিয়ন লিঙ্কডইন অ্যাকাউন্ট এবং মাইস্পেস ব্যবহারকারীদের জন্য 360 মিলিয়ন ইমেল এবং পাসওয়ার্ডের তথ্য অন্তর্ভুক্ত রয়েছে৷
বিগ ডেটা এর সাথে নতুন নিরাপত্তা উদ্বেগ নিয়ে আসে৷ বিশেষ করে এই বৈশিষ্ট্যগুলির সাথে বিগ ডেটার জন্য একটি সুরক্ষা প্রোগ্রাম তৈরি করা একটি চ্যালেঞ্জ হয়ে দাঁড়ায়। সর্বোপরি, একটি ডেটা লঙ্ঘন একটি বড় লঙ্ঘন।
তাহলে এই সমস্ত কিছুই আমাদের বিগ ডেটার প্রকৃতি সম্পর্কে কী বলে? ঠিক আছে, এটি ব্যাপক এবং দ্রুত-বিস্তৃত, তবে এটি শোরগোল, অগোছালো, ক্রমাগত-পরিবর্তনশীল, শত শত বিন্যাসে এবং বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশন ছাড়া কার্যত মূল্যহীন।
ভলিউম, বেগ এবং বৈচিত্র্য শুধুমাত্র বিগ ডেটার মূল প্যারামিটার নয়, কিন্তু এগুলোই বিগ ডেটার ধারণার জন্ম দেওয়ার কারণ এবং এর মধ্যে মূল বিভাজনকারী বৈশিষ্ট্যগুলি সাধারণ তথ্য এবং বিগ ডেটা। যদিও এগুলি বিগ ডেটার অন্তর্নিহিত, তবে অন্যান্য V-এর পরিবর্তনশীলতা, সত্যতা, ভিজ্যুয়ালাইজেশন এবং মান হল গুরুত্বপূর্ণ বৈশিষ্ট্য যা বিশাল জটিলতাকে প্রতিফলিত করে যা বিগ ডেটা তাদের কাছে উপস্থাপন করে যারা এটি প্রক্রিয়া, বিশ্লেষণ এবং উপকৃত হবে৷
নিঃসন্দেহে, বিগ ডেটা হল একটি মূল প্রবণতা যা কর্পোরেট আইটি-কে অবশ্যই যথাযথ কম্পিউটিং পরিকাঠামোর সাথে মানিয়ে নিতে হবে৷ কিন্তু উচ্চ-পারফরম্যান্স অ্যানালিটিক্স এবং ডেটা সায়েন্টিস্টদের ব্যতীত এই সমস্ত কিছু বোঝার জন্য, আপনি ব্যবসায়িক সুবিধাতে অনুবাদ করে এমন মান তৈরি না করেই কেবল বড় খরচ তৈরি করার ঝুঁকি চালান৷