কম্পিউটার

ডেটা ক্লিনিং কি?


ডেটা ক্লিনিং অনুপস্থিত মানগুলি পূরণ করে, কোলাহলপূর্ণ ডেটা মসৃণ করে, বিশ্লেষণ করে এবং বহিরাগতদের অপসারণ করে এবং ডেটাতে অসঙ্গতিগুলি সরিয়ে ডেটা পরিষ্কার করার সংজ্ঞায়িত করে। কখনও কখনও বিশদ স্তরের একাধিক ডেটা প্রয়োজনের থেকে আলাদা হতে পারে, উদাহরণস্বরূপ, এটির বয়স 20-30, 30-40, 40-50 এবং আমদানি করা ডেটাতে জন্ম তারিখ অন্তর্ভুক্ত থাকতে পারে৷ ডেটাকে যথাযথ প্রকারে ভাগ করে ডেটা পরিষ্কার করা যেতে পারে।

ডেটা পরিষ্কারের প্রকারগুলি

বিভিন্ন ধরনের ডেটা ক্লিনিং আছে যা নিম্নরূপ -

  • অনুপস্থিত মান − অনুপস্থিত মান যথাযথ মান দিয়ে পূর্ণ। মান পূরণ করার জন্য নিম্নলিখিত পদ্ধতি রয়েছে।

    • টিপল উপেক্ষা করা হয় যখন এতে অনুপস্থিত মান সহ বেশ কয়েকটি বৈশিষ্ট্য অন্তর্ভুক্ত থাকে।

    • অনুপস্থিত মানগুলির জন্য মানগুলি ম্যানুয়ালি পূরণ করা হয়৷

    • একই বিশ্বব্যাপী ধ্রুবক মান পূরণ করতে পারে।

    • বৈশিষ্ট্যের গড় অনুপস্থিত মান পূরণ করতে পারে।

    • সবচেয়ে সম্ভাব্য মান অনুপস্থিত মান পূরণ করতে পারে।

  • কোলাহলপূর্ণ ডেটা - গোলমাল হল একটি পরিমাপিত ভেরিয়েবলের এলোমেলো ত্রুটি বা বৈচিত্র। শব্দ পরিচালনা করার জন্য নিম্নলিখিত মসৃণ পদ্ধতি রয়েছে যা নিম্নরূপ -

    • বিনিং − এই পদ্ধতিগুলি তার "প্রতিবেশী" বিশেষ করে, কোলাহলপূর্ণ তথ্যের চারপাশের মানগুলির সাথে পরামর্শ করে একটি সাজানো ডেটা মানকে মসৃণ করে৷ সাজানো মান একাধিক বালতি বা বিন মধ্যে বিতরণ করা হয়. যেহেতু বিনিং পদ্ধতিগুলি মানগুলির আশেপাশের সাথে পরামর্শ করে, তারা স্থানীয় মসৃণতা প্রয়োগ করে৷

    • রিগ্রেশন - রিগ্রেশন সহ একটি ফাংশনে তথ্য ফিট করে ডেটা মসৃণ করা যেতে পারে। লিনিয়ার রিগ্রেশনে দুটি বৈশিষ্ট্য (বা ভেরিয়েবল) ফিট করার জন্য "সেরা" লাইন খুঁজে পাওয়া যায় যাতে একটি বৈশিষ্ট্য অন্যটির পূর্বাভাস দিতে ব্যবহার করা যায়। মাল্টিপল লিনিয়ার রিগ্রেশন হল লিনিয়ার রিগ্রেশনের একটি বিকাশ, যেখানে দুটির বেশি অ্যাট্রিবিউট থাকে এবং ডাটা একটি বহুমাত্রিক এলাকায় ফিট থাকে।

    • ক্লাস্টারিং - ক্লাস্টারিং বহিরাগতদের সনাক্ত করতে সহায়তা করে। একই মানগুলি ক্লাস্টারে সংগঠিত হয় এবং যে মানগুলি ক্লাস্টারের বাইরে পড়ে সেগুলি আউটলিয়ার হিসাবে পরিচিত৷

    • সম্মিলিত কম্পিউটার এবং মানব পরিদর্শন − কম্পিউটার এবং মানব পরিদর্শনের সহায়তায়ও বহিরাগতদের সনাক্ত করা যেতে পারে। আউটলার প্যাটার্ন বর্ণনামূলক বা আবর্জনা হতে পারে। বিস্ময়কর মান থাকা প্যাটার্নগুলি একটি তালিকায় আউটপুট হতে পারে৷

  • অসংগতি ডেটা - অসঙ্গতি বিভিন্ন লেনদেনে রেকর্ড করা যেতে পারে, ডেটা এন্ট্রির সময়, বা একাধিক ডাটাবেস থেকে তথ্য একত্রিত করার ফলে উদ্ভূত হয়। কিছু অপ্রয়োজনীয়তা পারস্পরিক সম্পর্ক বিশ্লেষণ দ্বারা স্বীকৃত হতে পারে। বিভিন্ন উত্স থেকে ডেটার সঠিক এবং সঠিক একীকরণ হ্রাস করতে পারে এবং অপ্রয়োজনীয়তা এড়াতে পারে৷


  1. ডেটা সেন্টার কি?

  2. OLAP কি?

  3. স্ট্রিম কি?

  4. সিরিয়ালাইজেশন কি?