কম্পিউটার টিউটোরিয়াল

ডেটা ইন্টিগ্রেশন কি?


ডেটা ইন্টিগ্রেশন হল বিভিন্ন অসম উৎস থেকে ডেটা একত্রিত করার পর্যায়। ডেটা ইন্টিগ্রেশন বাস্তবায়ন করার সময়, এটি ডেটা রিডানডেন্সি, অসঙ্গতি, ডুপ্লিসিটি ইত্যাদির উপর কাজ করা উচিত৷ ডেটা মাইনিং-এ, ডেটা ইন্টিগ্রেশন হল একটি ডেটা প্রাক-প্রক্রিয়াকরণ কৌশল যা একটি সমন্বিত দৃষ্টিভঙ্গি ধরে রাখতে এবং সমর্থন করার জন্য বহু ভিন্ন ভিন্ন ডেটা উত্স থেকে ডেটা একত্রিত করে। তথ্যের।

এটি বিভিন্ন উত্স থেকে ডেটা গুদামজাতকরণ সহ একটি সুসংগত ডেটা স্টোরে একত্রিত করে। এই উত্সগুলিতে একাধিক ডেটাবেস, ডেটা কিউব, বা ফ্ল্যাট ফাইল ইত্যাদি জড়িত থাকতে পারে৷ ডেটা ইন্টিগ্রেশনের সময় বিবেচনা করার জন্য একাধিক সমস্যা রয়েছে৷

  • স্কিমা ইন্টিগ্রেশন এবং অবজেক্ট ম্যাচিং জটিল হতে পারে। উদাহরণস্বরূপ, সত্তা শনাক্তকরণের সাথে মিলে যাওয়া (একটি ডাটাবেসে emp_id এবং অন্য ডাটাবেসে emp_no), এই ধরনের সমস্যাগুলি মেটাডেটা ব্যবহার করে প্রতিরোধ করা যেতে পারে।

  • অপ্রয়োজনীয়তা আরেকটি সমস্যা। উদাহরণস্বরূপ, বার্ষিক রাজস্ব সহ একটি বৈশিষ্ট্য অপ্রয়োজনীয় হতে পারে যদি এটি অন্য বৈশিষ্ট্য বা বৈশিষ্ট্যগুলির সেট থেকে প্রাপ্ত করা যায়। বৈশিষ্ট্য বা মাত্রার নামকরণের অসঙ্গতিগুলি উপস্থিত ডেটা সেটেও অপ্রয়োজনীয়তা তৈরি করতে পারে৷

  • পারস্পরিক সম্পর্ক বিশ্লেষণের মাধ্যমে কিছু অপ্রয়োজনীয়তা খুঁজে পাওয়া যায়। দুটি বৈশিষ্ট্য প্রদত্ত, এই ধরনের বিশ্লেষণ উপলব্ধ ডেটার উপর ভিত্তি করে একটি বৈশিষ্ট্য অন্যটিকে কতটা জোরালোভাবে বোঝায় তা গণনা করতে পারে। সাংখ্যিক বৈশিষ্ট্যের জন্য, এটি পারস্পরিক সম্পর্ক সহগ (পিয়ারসনের পণ্য-মুহূর্ত সহগ নামেও পরিচিত, এটির উদ্ভাবক, কার্ল পিয়ারসনের নামে নামকরণ করা) গণনা করে দুটি বৈশিষ্ট্য, A এবং B-এর মধ্যে পারস্পরিক সম্পর্ককে মূল্যায়ন করতে পারে। এটি হল

$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N \sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}} {N\sigma _{A}\sigma _{B}}$$

যেখানে N টিপলের সংখ্যা, ai এবং bi টিপল i, A -এ A এবং B এর স্বতন্ত্র মান এবং B A এবং B, σA এর নিজ নিজ গড় মান এবং σB A এবং B এবং Σ(ai এর স্বতন্ত্র প্রমিত বিচ্যুতি bi ) হল AB ক্রস-প্রোডাক্টের যোগফল যা, প্রতিটি টিপলের জন্য, A-এর মান সেই টিপলের B-এর মানের দ্বারা গুণ করা হয়।

পারস্পরিক সম্পর্ক কার্যকারণ বোঝায় না। অর্থাৎ, যদি A এবং B পারস্পরিক সম্পর্কযুক্ত হয় তবে এটি অগত্যা বোঝায় না যে A দ্বারা B বা B এর কারণ A ঘটায়। উদাহরণস্বরূপ, একটি জনসংখ্যাগত ডাটাবেস বিশ্লেষণ করার সময়, এটি একাধিক হাসপাতাল এবং একাধিক গাড়ি চুরিকে সংজ্ঞায়িত করার বৈশিষ্ট্যগুলি খুঁজে পেতে পারে। অঞ্চল পারস্পরিক সম্পর্কযুক্ত। এটি সংজ্ঞায়িত করে না যে একটি অন্যটির কারণ। উভয়ই সাধারণত তৃতীয় বৈশিষ্ট্যের সাথে সংযুক্ত থাকে, যেমন জনসংখ্যা।

ডেটা ইন্টিগ্রেশনের তৃতীয় গুরুত্বপূর্ণ সমস্যা হল ডেটা মান দ্বন্দ্বের সনাক্তকরণ এবং সমাধান। উদাহরণস্বরূপ, একই বাস্তব-জগতের সত্তার জন্য, একাধিক উত্স থেকে বৈশিষ্ট্যের মান আলাদা হতে পারে। এটি উপস্থাপনা, স্কেলিং বা এনকোডিংয়ের পার্থক্যের কারণে হতে পারে।


  1. ডেটা সেন্টার কি?

  2. স্ট্রিম কি?

  3. ডেটা প্রিপ্রসেসিং এর কাজগুলি কি কি?

  4. সিরিয়ালাইজেশন কি?