শ্রেণীবিভাগ একটি ডেটা মাইনিং পদ্ধতি যা ডেটা দৃষ্টান্তের জন্য দলের সদস্যতার পূর্বাভাস দিতে ব্যবহৃত হয়। এটি একটি দ্বি-পদক্ষেপ পদ্ধতি। প্রথম ধাপে, ডেটা ক্লাস বা পদ্ধতির একটি পূর্বনির্ধারিত সেট সংজ্ঞায়িত করে একটি মডেল তৈরি করা হয়। বৈশিষ্ট্য দ্বারা সংজ্ঞায়িত ডাটাবেস টিপল বিবেচনা করে মডেলটি তৈরি করা হয়েছে।
প্রতিটি টিপল একটি পূর্বনির্ধারিত শ্রেণীর অন্তর্গত বলে বিবেচিত হয়, যেমন একটি বৈশিষ্ট্য দ্বারা নির্ধারিত হয়, যা ক্লাস লেবেল বৈশিষ্ট্য হিসাবে পরিচিত। শ্রেণীবিভাগের কাঠামোতে, ডেটা টিপলগুলিকে নমুনা, উদাহরণ বা বস্তু হিসাবেও সংজ্ঞায়িত করা হয়। মডেলটি বিকাশের জন্য বিশ্লেষণ করা ডেটা টিপল যৌথভাবে প্রশিক্ষণ ডেটা সেট তৈরি করে। প্রশিক্ষণ সেট তৈরি করা একক টিপলগুলিকে প্রশিক্ষণের নমুনা হিসাবে সংজ্ঞায়িত করা হয় এবং নমুনা জনসংখ্যা থেকে আকস্মিকভাবে বেছে নেওয়া হয়।
যেহেতু প্রতিটি প্রশিক্ষণ নমুনার ক্লাস লেবেল সমর্থিত, এই পদ্ধতিটিকে তত্ত্বাবধানে শিক্ষা হিসাবেও উল্লেখ করা হয়। তত্ত্বাবধানহীন শিক্ষায়, যেখানে প্রশিক্ষণের নমুনাগুলির ক্লাস লেবেল বেনামী এবং একাধিক ক্লাস শিখতে হবে তা আগে থেকে জানা নাও হতে পারে৷
শেখা মডেলটি শ্রেণিবিন্যাসের নিয়ম, সিদ্ধান্ত গাছ, বা সংখ্যাসূচক সূত্রের কাঠামোতে বর্ণিত হয়েছে। উদাহরণস্বরূপ, ব্যবহারকারীর ক্রেডিট ডেটার একটি ডাটাবেস দেওয়া হলে, শ্রেণীবিভাগের নিয়মগুলি ব্যবহারকারীদেরকে সেরা বা ন্যায্য ক্রেডিট রেটিং হিসাবে চিহ্নিত করতে শেখা যেতে পারে। নিয়মগুলি ভবিষ্যতের ডেটা নমুনাগুলিকে শ্রেণীবদ্ধ করতে এবং ডাটাবেসের বিষয়বস্তুগুলির একটি ভাল বোঝার সমর্থন করতে ব্যবহার করা যেতে পারে৷
হোল্ডআউট পদ্ধতি হল একটি সাধারণ কৌশল যা ক্লাস-লেবেলযুক্ত নমুনার একটি পরীক্ষা সেট প্রয়োগ করে। এই নমুনাগুলি এলোমেলোভাবে বেছে নেওয়া হয়েছে এবং প্রশিক্ষণের নমুনাগুলির স্বায়ত্তশাসিত৷ একটি প্রদত্ত পরীক্ষার সেটে একটি মডেলের দক্ষতা হল পরীক্ষার সেট নমুনার শতাংশ যা মডেল দ্বারা সঠিকভাবে সীমাবদ্ধ। প্রতিটি পরীক্ষার নমুনার জন্য, বিখ্যাত ক্লাস লেবেলটি সেই নমুনার জন্য শেখা মডেলের ক্লাস পূর্বাভাসের সাথে আলাদা করা হয়।
যদি মডেলটির কার্যকারিতা অনুমান করা হয় তা প্রশিক্ষণের ডেটা সেটের উপর নির্ভর করে, এই অনুমানটি আশাবাদী হতে পারে কারণ শেখা মডেল তথ্যকে অতিরিক্ত ফিট করার জন্য প্রভাব ফেলে (যেমন, এটি প্রশিক্ষণের তথ্যের কিছু নির্দিষ্ট অসামঞ্জস্যতা অন্তর্ভুক্ত করতে পারে যা সম্পূর্ণরূপে উপস্থিত নয়। নমুনা জনসংখ্যা)। তাই, একটি পরীক্ষা সেট ব্যবহার করা হয়।
-
শিক্ষা − প্রশিক্ষণের তথ্য একটি শ্রেণিবিন্যাস অ্যালগরিদম দ্বারা বিশ্লেষণ করা হয়। তাই, ক্লাস লেবেল অ্যাট্রিবিউট হল একটি ক্রেডিট রেটিং, এবং শেখা মডেল বা শ্রেণীবিভাগকে একটি শ্রেণিবিন্যাস নিয়মের কাঠামোতে বর্ণনা করা হয়েছে।
-
শ্রেণীবিভাগ − শ্রেণীবিন্যাস নিয়মের দক্ষতা পরিমাপ করতে পরীক্ষার ডেটা ব্যবহার করা হয়। যদি দক্ষতাকে গ্রহণযোগ্য হিসাবে বিবেচনা করা হয়, নিয়মগুলি নতুন ডেটা টিপলগুলির শ্রেণীবিভাগে ব্যবহার করা যেতে পারে৷