ডেটা ক্লিনিং অনুপস্থিত মানগুলি পূরণ করে, কোলাহলপূর্ণ ডেটা মসৃণ করে, বিশ্লেষণ করে এবং বহিরাগতদের অপসারণ করে এবং ডেটাতে অসঙ্গতিগুলি সরিয়ে ডেটা পরিষ্কার করার সংজ্ঞায়িত করে। কখনও কখনও বিশদ স্তরের একাধিক ডেটা প্রয়োজনের থেকে আলাদা হতে পারে, উদাহরণস্বরূপ, এটির বয়স 20-30, 30-40, 40-50 এবং আমদানি করা ডেটাতে জন্ম তারিখ অন্তর্ভুক্ত থাকতে পারে৷ ডেটাকে যথাযথ প্রকারে ভাগ করে ডেটা পরিষ্কার করা যেতে পারে।
ডেটা পরিষ্কারের প্রকারগুলি
বিভিন্ন ধরনের ডেটা ক্লিনিং আছে যা নিম্নরূপ -
-
অনুপস্থিত মান − অনুপস্থিত মান যথাযথ মান দিয়ে পূর্ণ। মান পূরণ করার জন্য নিম্নলিখিত পদ্ধতি রয়েছে।
-
টিপল উপেক্ষা করা হয় যখন এতে অনুপস্থিত মান সহ বেশ কয়েকটি বৈশিষ্ট্য অন্তর্ভুক্ত থাকে।
-
অনুপস্থিত মানগুলির জন্য মানগুলি ম্যানুয়ালি পূরণ করা হয়৷
-
একই বিশ্বব্যাপী ধ্রুবক মান পূরণ করতে পারে।
-
বৈশিষ্ট্যের গড় অনুপস্থিত মান পূরণ করতে পারে।
-
সবচেয়ে সম্ভাব্য মান অনুপস্থিত মান পূরণ করতে পারে।
-
-
কোলাহলপূর্ণ ডেটা - গোলমাল হল একটি পরিমাপিত ভেরিয়েবলের এলোমেলো ত্রুটি বা বৈচিত্র। শব্দ পরিচালনা করার জন্য নিম্নলিখিত মসৃণ পদ্ধতি রয়েছে যা নিম্নরূপ -
-
বিনিং − এই পদ্ধতিগুলি তার "প্রতিবেশী" বিশেষ করে, কোলাহলপূর্ণ তথ্যের চারপাশের মানগুলির সাথে পরামর্শ করে একটি সাজানো ডেটা মানকে মসৃণ করে৷ সাজানো মান একাধিক বালতি বা বিন মধ্যে বিতরণ করা হয়. যেহেতু বিনিং পদ্ধতিগুলি মানগুলির আশেপাশের সাথে পরামর্শ করে, তারা স্থানীয় মসৃণতা প্রয়োগ করে৷
-
রিগ্রেশন - রিগ্রেশন সহ একটি ফাংশনে তথ্য ফিট করে ডেটা মসৃণ করা যেতে পারে। লিনিয়ার রিগ্রেশনে দুটি বৈশিষ্ট্য (বা ভেরিয়েবল) ফিট করার জন্য "সেরা" লাইন খুঁজে পাওয়া যায় যাতে একটি বৈশিষ্ট্য অন্যটির পূর্বাভাস দিতে ব্যবহার করা যায়। মাল্টিপল লিনিয়ার রিগ্রেশন হল লিনিয়ার রিগ্রেশনের একটি বিকাশ, যেখানে দুটির বেশি অ্যাট্রিবিউট থাকে এবং ডাটা একটি বহুমাত্রিক এলাকায় ফিট থাকে।
-
ক্লাস্টারিং - ক্লাস্টারিং বহিরাগতদের সনাক্ত করতে সহায়তা করে। একই মানগুলি ক্লাস্টারে সংগঠিত হয় এবং যে মানগুলি ক্লাস্টারের বাইরে পড়ে সেগুলি আউটলিয়ার হিসাবে পরিচিত৷
-
সম্মিলিত কম্পিউটার এবং মানব পরিদর্শন − কম্পিউটার এবং মানব পরিদর্শনের সহায়তায়ও বহিরাগতদের সনাক্ত করা যেতে পারে। আউটলার প্যাটার্ন বর্ণনামূলক বা আবর্জনা হতে পারে। বিস্ময়কর মান থাকা প্যাটার্নগুলি একটি তালিকায় আউটপুট হতে পারে৷
-
-
অসংগতি ডেটা - অসঙ্গতি বিভিন্ন লেনদেনে রেকর্ড করা যেতে পারে, ডেটা এন্ট্রির সময়, বা একাধিক ডাটাবেস থেকে তথ্য একত্রিত করার ফলে উদ্ভূত হয়। কিছু অপ্রয়োজনীয়তা পারস্পরিক সম্পর্ক বিশ্লেষণ দ্বারা স্বীকৃত হতে পারে। বিভিন্ন উত্স থেকে ডেটার সঠিক এবং সঠিক একীকরণ হ্রাস করতে পারে এবং অপ্রয়োজনীয়তা এড়াতে পারে৷