কম্পিউটার

ডেটা ইন্টিগ্রেশন কি?


ডেটা ইন্টিগ্রেশন হল বিভিন্ন অসম উৎস থেকে ডেটা একত্রিত করার পর্যায়। ডেটা ইন্টিগ্রেশন বাস্তবায়ন করার সময়, এটি ডেটা রিডানডেন্সি, অসঙ্গতি, ডুপ্লিসিটি ইত্যাদির উপর কাজ করা উচিত৷ ডেটা মাইনিং-এ, ডেটা ইন্টিগ্রেশন হল একটি ডেটা প্রাক-প্রক্রিয়াকরণ কৌশল যা একটি সমন্বিত দৃষ্টিভঙ্গি ধরে রাখতে এবং সমর্থন করার জন্য বহু ভিন্ন ভিন্ন ডেটা উত্স থেকে ডেটা একত্রিত করে। তথ্যের।

এটি বিভিন্ন উত্স থেকে ডেটা গুদামজাতকরণ সহ একটি সুসংগত ডেটা স্টোরে একত্রিত করে। এই উত্সগুলিতে একাধিক ডেটাবেস, ডেটা কিউব, বা ফ্ল্যাট ফাইল ইত্যাদি জড়িত থাকতে পারে৷ ডেটা ইন্টিগ্রেশনের সময় বিবেচনা করার জন্য একাধিক সমস্যা রয়েছে৷

  • স্কিমা ইন্টিগ্রেশন এবং অবজেক্ট ম্যাচিং জটিল হতে পারে। উদাহরণস্বরূপ, সত্তা শনাক্তকরণের সাথে মিলে যাওয়া (একটি ডাটাবেসে emp_id এবং অন্য ডাটাবেসে emp_no), এই ধরনের সমস্যাগুলি মেটাডেটা ব্যবহার করে প্রতিরোধ করা যেতে পারে।

  • অপ্রয়োজনীয়তা আরেকটি সমস্যা। উদাহরণস্বরূপ, বার্ষিক রাজস্ব সহ একটি বৈশিষ্ট্য অপ্রয়োজনীয় হতে পারে যদি এটি অন্য বৈশিষ্ট্য বা বৈশিষ্ট্যগুলির সেট থেকে প্রাপ্ত করা যায়। বৈশিষ্ট্য বা মাত্রার নামকরণের অসঙ্গতিগুলি উপস্থিত ডেটা সেটেও অপ্রয়োজনীয়তা তৈরি করতে পারে৷

  • পারস্পরিক সম্পর্ক বিশ্লেষণের মাধ্যমে কিছু অপ্রয়োজনীয়তা খুঁজে পাওয়া যায়। দুটি বৈশিষ্ট্য প্রদত্ত, এই ধরনের বিশ্লেষণ উপলব্ধ ডেটার উপর ভিত্তি করে একটি বৈশিষ্ট্য অন্যটিকে কতটা জোরালোভাবে বোঝায় তা গণনা করতে পারে। সাংখ্যিক বৈশিষ্ট্যের জন্য, এটি পারস্পরিক সম্পর্ক সহগ (পিয়ারসনের পণ্য-মুহূর্ত সহগ নামেও পরিচিত, এটির উদ্ভাবক, কার্ল পিয়ারসনের নামে নামকরণ করা) গণনা করে দুটি বৈশিষ্ট্য, A এবং B-এর মধ্যে পারস্পরিক সম্পর্ককে মূল্যায়ন করতে পারে। এটি হল

$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N \sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}} {N\sigma _{A}\sigma _{B}}$$

যেখানে N টিপলের সংখ্যা, ai এবং bi টিপল i, A -এ A এবং B এর স্বতন্ত্র মান এবং B A এবং B, σA এর নিজ নিজ গড় মান এবং σB A এবং B এবং Σ(ai এর স্বতন্ত্র প্রমিত বিচ্যুতি bi ) হল AB ক্রস-প্রোডাক্টের যোগফল যা, প্রতিটি টিপলের জন্য, A-এর মান সেই টিপলের B-এর মানের দ্বারা গুণ করা হয়।

পারস্পরিক সম্পর্ক কার্যকারণ বোঝায় না। অর্থাৎ, যদি A এবং B পারস্পরিক সম্পর্কযুক্ত হয় তবে এটি অগত্যা বোঝায় না যে A দ্বারা B বা B এর কারণ A ঘটায়। উদাহরণস্বরূপ, একটি জনসংখ্যাগত ডাটাবেস বিশ্লেষণ করার সময়, এটি একাধিক হাসপাতাল এবং একাধিক গাড়ি চুরিকে সংজ্ঞায়িত করার বৈশিষ্ট্যগুলি খুঁজে পেতে পারে। অঞ্চল পারস্পরিক সম্পর্কযুক্ত। এটি সংজ্ঞায়িত করে না যে একটি অন্যটির কারণ। উভয়ই সাধারণত তৃতীয় বৈশিষ্ট্যের সাথে সংযুক্ত থাকে, যেমন জনসংখ্যা।

ডেটা ইন্টিগ্রেশনের তৃতীয় গুরুত্বপূর্ণ সমস্যা হল ডেটা মান দ্বন্দ্বের সনাক্তকরণ এবং সমাধান। উদাহরণস্বরূপ, একই বাস্তব-জগতের সত্তার জন্য, একাধিক উত্স থেকে বৈশিষ্ট্যের মান আলাদা হতে পারে। এটি উপস্থাপনা, স্কেলিং বা এনকোডিংয়ের পার্থক্যের কারণে হতে পারে।


  1. ডেটা সেন্টার কি?

  2. স্ট্রিম কি?

  3. ডেটা প্রিপ্রসেসিং এর কাজগুলি কি কি?

  4. সিরিয়ালাইজেশন কি?