কম্পিউটার

ডেটা লেক কী এবং কেন আপনার যত্ন নেওয়া উচিত

সাম্প্রতিক বছরগুলিতে, ডেটা লেকগুলি প্রযুক্তির বুনডক থেকে ডেটা বিজ্ঞানের প্রাইম বিচফ্রন্ট রিয়েল এস্টেটে চলে গেছে। কেন এটি ঘটছে, এবং কেন তারা গুরুত্বপূর্ণ? সংক্ষিপ্ত উত্তর … সেখানে মূল্য আছে।

ডেটার মান আছে

ক্রমবর্ধমানভাবে, এটি স্পষ্ট যে একটি কোম্পানির ডেটা বিপুল সম্ভাব্য মান ধারণ করে। গুগল, ফেসবুক এবং অন্যান্যদের মতো অনেক ইন্টারনেট জায়ান্ট, তাদের মূল্য তাদের ডেটা থেকে প্রাপ্ত হয়। কিন্তু আপনার ডেটা থেকে আপনাকে ইন্টারনেট জায়ান্ট হতে হবে না। মেশিনের ব্যর্থতার পূর্বাভাস দেওয়ার জন্য শিল্প সংস্থাগুলি দ্বারা ডেটা ব্যবহার করা হয়, আর্থিক প্রতিষ্ঠানগুলি দ্বারা ঝুঁকিগুলিকে আরও ভালভাবে পরিচালনা করার জন্য, অনলাইন খুচরা বিক্রেতাদের দ্বারা গ্রাহক ধরে রাখার জন্য এবং অগণিত অন্যান্য প্রতিষ্ঠানগুলি নতুন অন্তর্দৃষ্টি আবিষ্কার করতে ব্যবহার করে৷ এটি একটি মোটামুটি সহজ সূত্রের মত মনে হচ্ছে:ফিড ডেটা টু বিজনেস অ্যানালিটিক্স টুল বা মেশিন লার্নিং (এমএল) সিস্টেম এবং অর্ন্তদৃষ্টি অর্জন করুন। বাস্তবতা, এটি এত সহজ নয়। বিশ্লেষণ সমস্যা মোকাবেলা করার আগে আমাদের অবশ্যই একটি অপরিহার্য পূর্বশর্ত পূরণ করতে হবে। আমাদের অবশ্যই এমন ডেটা থাকতে হবে যাতে অন্তর্দৃষ্টি রয়েছে৷

এটি কি শুধু আরেকটি ডেটা গুদাম সমাধান নয়?

আপনি হয়তো ভাবছেন, "এটি কি ডেটা গুদামগুলির সমস্যার সমাধান নয়?" প্রকৃতপক্ষে নয়। ডেটা গুদামগুলি ব্যবসায়িক সমস্যার একটি সংজ্ঞায়িত সেট সমাধান করার জন্য তৈরি করা হয়। ডেটাওয়্যারহাউস ডেটা ইনজেশন একটি এক্সট্রাক্ট, ট্রান্সফর্ম, লোড (ETL) ওয়ার্কফ্লো ব্যবহার করে। সোর্স সিস্টেম থেকে ডেটা বের করা হয়, ডেটা গুদামের কাঠামোতে রূপান্তরিত হয় এবং তারপরে ডেটা গুদামে লোড করা হয়। এই সময়ের মধ্যে, সংজ্ঞায়িত ব্যবসায়িক সমস্যা সেটের সাথে প্রাসঙ্গিক নয় এমন ডেটা বাদ দেওয়ার জন্য ডেটা ইতিমধ্যেই কাঠামোগত, ফিল্টার করা হয়েছে এবং অন্যথায় ম্যানিপুলেট করা হয়েছে। ETL প্রক্রিয়ায়, আমরা, হয় অস্পষ্টভাবে বা স্পষ্টভাবে, কিছু ডেটা মান রেখেছি এবং অন্যকে বাতিল করেছি, ডেটা বৃদ্ধি করেছি, ডেটা আইটেমগুলির মধ্যে সম্পর্ক তৈরি করেছি এবং অন্যদের উপেক্ষা করেছি। যদি একটি নতুন ব্যবসায়িক সমস্যা আবিষ্কৃত হয় যার জন্য বাতিল করা তথ্যের প্রয়োজন হয়?ব্যবসায়িক পরিবেশ সর্বদা পরিবর্তিত হয়, এবং ভবিষ্যতের সমস্যার ভবিষ্যদ্বাণী করা যায় না। বর্তমান ব্যবসায়িক সমস্যা সেটের জন্য ইটিএল প্রক্রিয়া যতই সঠিক হোক না কেন, ভবিষ্যতের সম্ভাব্য মূল্যের একটি বিশাল পরিমাণ হচ্ছে ডেটা গুদাম তৈরি করার সময় এই সিদ্ধান্ত নেওয়ার মাধ্যমে হারিয়ে যায়।

ডেটা লেক লিখুন

যতটা সম্ভব সম্ভাব্য মান ধরে রাখার জন্য, আমরা তাত্ত্বিক ডেটা বাতিল করতে পারি না। কেন আমরা সমস্ত ডেটা তার কাঁচা বিন্যাসে রাখি না এবং পরে কীভাবে এটি ব্যবহার করব তা নির্ধারণ করি না? আমরা কেবল নদীর মতো ডেটাকে একটি কেন্দ্রীয় ভাণ্ডারে প্রবাহিত করতে দিতে পারি, যা "ডেটা" এর একটি "লেক" গঠন করে। :) অন্য উপায় রাখুন, ডেটা বের করুন এবং সঞ্চয় করুন, তারপর প্রয়োজন অনুসারে রূপান্তর করুন এবং লোড করুন (প্রায়শই Extract, Load, and Transform, ELT বলা হয় - ETL-এ 'T' এবং 'L' স্থানান্তর করা)।

ঐতিহাসিকভাবে, ভবিষ্যতের কোনো তারিখে স্টোরেজ এবং অর্থপূর্ণ কাঠামো নিষ্কাশনের খরচ এতে থাকতে পারে এমন তথ্যের সম্ভাব্য মূল্যকে ছাড়িয়ে গেছে। যাইহোক, বিশৃঙ্খলতার বাইরে সংরক্ষণের খরচ এবং উপকারী কাঠামো পাতানোর খরচ কমে গেছে, এটি আরও বেশির জন্য অর্থনৈতিকভাবে সাশ্রয়ী করে তুলেছে। আরো কোম্পানী এটা করতে.

কাঁচা ডেটার যেকোনো সংগ্রহই একটি ডেটা লেক, তাই না?

ঠিক আছে, যথেষ্ট সহজ। শুধু একটি একক অবস্থানে সমস্ত কাঁচা তথ্য ডাম্প, এবং কাজ শেষ, তাই না? এটা থেকে দূরে! ভবিষ্যতে ডেটাসায়েন্টিস্ট এবং বিশ্লেষকদের কাছে উপলভ্য করার সময় গ্রাহক, কোম্পানি এবং ডেটা সুরক্ষার জন্য ডেটা ইনজেশন অবশ্যই সঠিকভাবে করা উচিত। এটি করার জন্য, আমাদের অবশ্যই অনেক গুরুত্বপূর্ণ বিষয় বিবেচনা করতে হবে।

  • ভবিষ্যতের ডেটা বিজ্ঞানী এবং বিশ্লেষকরা তারা যা খুঁজছেন তা কীভাবে খুঁজে পাবেন?কাঁচা ডেটা অবশ্যই সূচিত করা উচিত।

  • কিভাবে একটি দক্ষ উপায়ে তথ্য নিষ্কাশন করা যেতে পারে? ডাটা অবশ্যই একটি দক্ষ ফাইল ফরম্যাটে সংরক্ষণ করতে হবে, যেমন একটি কলামার ফর্ম্যাট৷

  • ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য (PII), সুরক্ষিত স্বাস্থ্য তথ্য (PHI), কার্ডধারী ডেটা (CD) এবং অন্যান্য সংবেদনশীল ডেটা সম্পর্কে কী বলা যায়? ডেটাঅফসকেশন প্রয়োজন।

  • আপনি কীভাবে ডেটা গোপনীয়তা (যেমন, জিডিপিআর), ডেটা সার্বভৌমত্ব এবং নিয়ন্ত্রণ অ্যাক্সেস পরিচালনা করবেন যাতে আপনি অন্য ডেটা লঙ্ঘনের জন্য শিরোনামে না থাকেন? উপযুক্ত অনুমতি এবং অ্যাক্সেস নিয়ন্ত্রণ প্রয়োগ করার জন্য পরিচয় এবং অ্যাক্সেস ম্যানেজমেন্ট প্রয়োগ করতে হবে।

ডিডপ্লিকেশন বা ম্যাচিং রেকর্ড সম্পর্কে কী যা কিছু সনাক্তকারী কী ভাগ করে না? 123 Main St, Some Town, USA 123 মেইন স্ট্রিট, সাম টাউন, ইউএসএ এর মতো একই অবস্থান ? রবার্ট স্মিথ সম্পর্কে কি এবং বব স্মিথ ? আপনি কল্পনা করতে পারেন, এই সহজ দৃশ্যকল্প. বাস্তব ডেটা সেটে আরও অনেক জটিল পরিস্থিতি বিদ্যমান।

একবার ডেটা ডাটা লেকে গেলে এবং সঠিক সূচীকরণ এবং নিয়ন্ত্রণের জায়গায় থাকলে, এটি ব্যবহার করার আগে এটিকে একটি কাঠামোগত বিন্যাসে রূপান্তরিত করতে হবে৷ সাধারণত, এর অর্থ হল ঠিক-ইন-টাইম স্কিমাটি পড়ার সাথে সাথে প্রয়োগ করা৷ বিভিন্ন কাঁচা সোর্স ফরম্যাটগুলিকে একটি পরিচিত কাঠামোতে প্রজেক্ট করা হয় যাতে সেগুলি ML, গুদামজাতকরণ, বা বিজনেস ইন্টেলিজেন্স (BI) সিস্টেম দ্বারা ব্যবহার করা যেতে পারে। (আমি এই প্রক্রিয়াটিকে EtS-TL, এক্সট্র্যাক্ট ট্রান্সফর্ম স্টোর - ট্রান্সফর্ম এবং লোড করতে পছন্দ করি, কারণ ডেটা লেকে প্রবেশ করার সাথে সাথে কিছুহীন ডেটা ট্রান্সফরমেশন সঞ্চালিত হয়। কিন্তু নামকরণের আলোচনা অন্য সময়ের জন্য একটি বিষয়।)

ডেটা ব্যবহার করা

তথ্য এখন হ্রদে আছে কিন্তু বর্তমান আকারে ব্যবহার করা যাবে না। ডেটা ট্রান্সফরমেশনের সিদ্ধান্তগুলি যেগুলি বিলম্বিত হয়েছিল সেগুলি এখনই সিদ্ধান্ত নিতে হবে। একবার একটি স্কিমার সিদ্ধান্ত নেওয়া হলে এবং ডেটা বের করা হলে, এটি অবশ্যই একটি স্কিমা-নির্দিষ্ট উপায়ে পরিষ্কার করতে হবে। একটি স্কিমা/বিশ্লেষণের জন্য অবৈধ ডেটা অন্যটির জন্য পুরোপুরি বৈধ হতে পারে৷ উদাহরণস্বরূপ, একটি জমির মালিকানা ডেটাসেট বিবেচনা করুন যাতে মালিকের নাম, সম্পত্তির ঠিকানা, সম্পত্তির মান, অর্থপ্রদানের অপরাধ, জমির ব্যবহার (যেমন, আবাসিক, অফিস ভবন, বা শিল্প), এবং সম্পত্তি ট্যাক্স অ্যাকাউন্ট নম্বর। জমি ব্যবহার এবং অর্থ প্রদানের অপরাধের মধ্যে সম্পর্ক আছে কিনা তা নির্ধারণের জন্য মালিকের নাম প্রয়োজন হয় না। একই সময়ে, সম্পত্তির মান এবং ভূমি ব্যবহারের মধ্যে পারস্পরিক সম্পর্ক খুঁজতে অপরাধমূলক তথ্যের প্রয়োজন হয় না। যদি ডেটা আইটেমটি একটি ডেটা স্লাইসে একটি সারি থেকে অনুপস্থিত থাকে তবে এটি অন্য ডেটা স্লাইসের জন্য একই সারিটিকে অবৈধ করে না। ডেটা লেক আপনাকে আপনার ডেটা বিশ্লেষণ বিকল্পগুলিকে খোলা রাখতে দেয়, তবে সেগুলি তাদের নিজস্ব জটিলতা এবং খরচ নিয়ে আসে৷

একবার এই সমস্ত পদক্ষেপগুলি সম্পন্ন হলে, আমরা এমন এক পর্যায়ে আছি যেখানে আমাদের ডেটা বিশ্লেষণ টুল, BI সিস্টেম বা ML মডেলগুলি তাদের কাজ শুরু করতে পারে। যাইহোক, অ্যাডাটা লেকের ব্যবহার করে, আমরা অসাবধানতাবশত ডেটাতে পাওয়া সম্ভাব্য ভবিষ্যতের মানকে ধ্বংস করিনি। ভবিষ্যতের ব্যবসায়িক প্রশ্ন আমাদের ভবিষ্যত জানার প্রয়োজন ছাড়াই অন্বেষণ করা যেতে পারে।

সারাংশ

যদিও ডেটা গুদামগুলি ফিল্টার করা, প্রস্তুত করা এবং ব্যবহারের জন্য প্রস্তুত, ডেটা লেকগুলি হল জলাধার, যা তাদের কাঁচা আকারে খাওয়ার উদ্দেশ্যে নয়৷ পরিবর্তে, সেগুলির মধ্যে থাকা ডেটা অবশ্যই ব্যবহার করার আগে প্রস্তুত করতে হবে। যেকোনো জলাধারের মতো, ভবিষ্যতের ব্যবহারের জন্য তাদের উপলব্ধ রাখতে সঠিকভাবে পরিচালনা করতে হবে। এটি ইনফ্লো (স্টোরেজ ফাইল ফরম্যাট এবং ডেটা অস্পষ্টকরণ), বিষয়বস্তু বোঝা (সূচীকরণ এবং অনুলিপিকরণ), অপব্যবহার (পরিচয় এবং অ্যাক্সেস ম্যানেজমেন্ট) থেকে সুরক্ষিত এবং পরিশোধন সুবিধা (ডেটা নিষ্কাশন, স্কিমার প্রয়োগ এবং ডেটা পরিষ্কার) পরিচালনার মাধ্যমে সম্পন্ন করা হয়।

The Tip of the Iceberg

সৌভাগ্যক্রমে, ক্লাউড যুগে, ডেটা লেক বাস্তবায়নের জন্য আমাদের নিজস্ব সরঞ্জাম এবং প্রযুক্তিগুলি রোল করার দরকার নেই। উদাহরণস্বরূপ, এডব্লিউএস লেক ফর্মেশন সরাসরি ডেটা লেকের সাথে সম্পর্কিত সরঞ্জাম এবং প্রযুক্তি সংক্রান্ত সমস্যাগুলির সমাধান করে। যাইহোক, অনেক কঠিন প্রশ্ন বাকি আছে। আপনি কি সঠিকভাবে এই টুল ব্যবহার করতে জানেন? আপনার ডেটা ব্যবহারের অনুমতি দেওয়ার জন্য সঠিক নেটওয়ার্ক সংযোগ স্থাপন করার জন্য আপনার কি দক্ষতা আছে? একটি ভিপিএন কি যথেষ্ট, নাকি আপনার একটি ডেডিকেটেড সার্কিট (ডাইরেক্ট কানেক্ট) দরকার? আপনি ক্লাউডে কোম্পানির ডেটার একটি সোনার খনি রাখছেন৷ আপনি কি নিশ্চিত যে আপনি অননুমোদিত অ্যাক্সেস রোধ করার জন্য এটি সঠিকভাবে সুরক্ষিত করেছেন? আপনি কি সাশ্রয়ী উপায়ে ডেটা অ্যাক্সেস করছেন? মনে রাখবেন, স্থানান্তর করা বিনামূল্যে নয়।

Rackspace-এ, আমাদের কাছে ক্লাউড আর্কিটেক্ট এবং দক্ষতা রয়েছে যা আপনাকে আপনার ডেটা লেককে দ্রুত, নিরাপদে এবং দক্ষতার সাথে চালু করতে সাহায্য করবে। আরও তথ্যের জন্য Rackspace Managed AWS-এ আমাদের সাথে যোগাযোগ করুন।

কোনো মন্তব্য করতে বা প্রশ্ন জিজ্ঞাসা করতে প্রতিক্রিয়া ট্যাবটি ব্যবহার করুন৷


  1. ফ্লটার কী এবং কেন আপনার এটি 2020 সালে শিখতে হবে

  2. ফ্লটার কী এবং কেন আপনার এটি 2020 সালে শিখতে হবে

  3. অস্পষ্ট সার্ভারগুলি কী এবং কেন আপনার এটি প্রয়োজন?

  4. আইফোন ওয়াই-ফাই অ্যাসিস্ট কী এবং কেন আপনার এটি নিষ্ক্রিয় করা উচিত