শ্রেণীবিভাগ হল একটি মডেল আবিষ্কার করার পদ্ধতি যা ডেটা ক্লাস বা ধারণাকে সংজ্ঞায়িত করে এবং শ্রেণীবদ্ধ করে। মডেলটি প্রশিক্ষণ ডেটার একটি সেট অনুসন্ধানের উপর ভিত্তি করে (অর্থাৎ, ডেটা অবজেক্ট যার জন্য ক্লাস লেবেলগুলি বিখ্যাত)। মডেলটি অবজেক্টের ক্লাস লেবেলের ভবিষ্যদ্বাণী করতে পারে যার জন্য ক্লাস লেবেল বেনামী।
প্রাপ্ত মডেলকে শ্রেণীবিভাগের নিয়ম (যেমন, IF-THEN নিয়ম), সিদ্ধান্ত গাছ, সংখ্যাসূচক সূত্র, বা নিউরাল নেটওয়ার্ক সহ বিভিন্ন আকারে উপস্থাপন করা যেতে পারে। ডিসিশন ট্রি হল একটি ফ্লোচার্ট-এর মতো ট্রি আর্কিটেকচার, যেখানে প্রতিটি নোড একটি অ্যাট্রিবিউট মানের পরীক্ষা নির্দেশ করে, প্রতিটি শাখা পরীক্ষার ফলাফল নির্ধারণ করে এবং গাছের পাতা ক্লাস বা শ্রেণী বন্টন বর্ণনা করে।
সিদ্ধান্ত গাছ শ্রেণীবিভাগের নিয়মে রূপান্তরিত হতে পারে। একটি নিউরাল নেটওয়ার্ক, যখন শ্রেণীবিভাগের জন্য ব্যবহার করা হয়, সাধারণত ইউনিটগুলির মধ্যে ওজনযুক্ত সংযোগ সহ নিউরনের মতো প্রক্রিয়াকরণ ইউনিটগুলির একটি সেট। শ্রেণীবিন্যাস মডেল নির্মাণের জন্য বেশ কিছু পদ্ধতি রয়েছে, যার মধ্যে রয়েছে ন্যাভ বায়েসিয়ান শ্রেণীবিভাগ, সমর্থন ভেক্টর মেশিন এবং কে-নেয়ার-নেবার ক্লাসিফিকেশন।
শ্রেণীবিভাগ পূর্বাভাস শ্রেণীবদ্ধ (বিচ্ছিন্ন, ক্রমহীন) লেবেল, রিগ্রেশন মডেল ক্রমাগত-মূল্যবান ফাংশন। রিগ্রেশন (বিচ্ছিন্ন) ক্লাস লেবেলের পরিবর্তে অনুপস্থিত বা অনুপলব্ধ পরিসংখ্যানগত ডেটা মানগুলির পূর্বাভাস দিতে পারে৷
ভবিষ্যদ্বাণী সংখ্যাসূচক ভবিষ্যদ্বাণী এবং শ্রেণী লেবেল পূর্বাভাস উভয়কে সংজ্ঞায়িত করে। রিগ্রেশন বিশ্লেষণ হল একটি পরিসংখ্যানগত পদ্ধতি যা সংখ্যাগত ভবিষ্যদ্বাণীর জন্য ব্যবহৃত হয়, যদিও বেশ কিছু কৌশলও বিদ্যমান। রিগ্রেশনও বন্টন প্রবণতা সনাক্তকরণকে ঘিরে উপলব্ধ ডেটার উপর নির্ভর করে।
শ্রেণীবিভাগ এবং রিগ্রেশনের আগে প্রাসঙ্গিকতা বিশ্লেষণের প্রয়োজন হতে পারে, যা শ্রেণীবিভাগ এবং রিগ্রেশন প্রক্রিয়ার ক্ষেত্রে উল্লেখযোগ্যভাবে প্রযোজ্য বৈশিষ্ট্যগুলি সনাক্ত করার চেষ্টা করে। এই ধরনের গুণাবলী শ্রেণীবিভাগ এবং রিগ্রেশন প্রক্রিয়ার জন্য বেছে নেওয়া হবে। একাধিক বৈশিষ্ট্য আছে, যেগুলো অপ্রাসঙ্গিক, বিবেচনায় অননুমোদিত হতে পারে।
ধরুন, AllElectronics-এর একজন বিক্রয় ব্যবস্থাপক হিসাবে বিক্রয় প্রচারাভিযানের তিন ধরনের প্রতিক্রিয়া যেমন ভালো প্রতিক্রিয়া, মৃদু প্রতিক্রিয়া এবং কোনো প্রতিক্রিয়ার ভিত্তিতে দোকানে আইটেমগুলির একটি বড় সেট সংজ্ঞায়িত করা প্রয়োজন৷
এটি মূল্য, ব্র্যান্ড, স্থান তৈরি, প্রকার এবং বিভাগ সহ আইটেমগুলির বর্ণনামূলক বৈশিষ্ট্যের উপর ভিত্তি করে এই তিনটি শ্রেণীর প্রতিটির জন্য একটি মডেল তৈরি করতে পারে। ফলস্বরূপ শ্রেণীবিভাগে প্রতিটি শ্রেণীকে সর্বাধিক বিশ্লেষণ করা উচিত, ডেটা সেটের একটি সংগঠিত চিত্র উপস্থাপন করা।
ডিসিশন ট্রি মূল্যকে পৃথক ফ্যাক্টর হিসেবে চিহ্নিত করতে পারে যা তিনটি শ্রেণীকে সবচেয়ে ভালোভাবে আলাদা করে। গাছটি প্রকাশ করতে পারে যে দাম ছাড়াও, অন্যান্য বৈশিষ্ট্য যা একে অপরের থেকে প্রতিটি শ্রেণীর বস্তুকে আরও আলাদা করতে সহায়তা করে ব্র্যান্ড এবং স্থান তৈরি করে। এই ধরনের একটি সিদ্ধান্তের গাছ আমাদের প্রদত্ত বিক্রয় প্রচারণার প্রভাব শিখতে এবং ভবিষ্যতে আরও কার্যকর প্রচারাভিযানের ডিজাইন করতে পারে৷