অ্যাট্রিবিউট সিলেকশন মেজার কি?

একটি বৈশিষ্ট্য নির্বাচন পরিমাপ বিভাজন পরীক্ষা বেছে নেওয়ার জন্য একটি হিউরিস্টিক যা "সর্বোত্তম" একটি প্রদত্ত ডেটা পার্টিশন, ডি, ক্লাস-লেবেলযুক্ত প্রশিক্ষণ টিপলকে একক ক্লাসে আলাদা করে।

যদি এটি বিভক্ত করার মাপকাঠির ফলাফল অনুসারে D-কে ছোট পার্টিশনে বিভক্ত করতে পারে, আদর্শভাবে প্রতিটি পার্টিশন বিশুদ্ধ হতে পারে (অর্থাৎ, প্রদত্ত পার্টিশনের মধ্যে পড়ে এমন কিছু টিপল একই শ্রেণীর অন্তর্গত হতে পারে)।

ধারণাগতভাবে, "সর্বোত্তম" বিভাজনের মানদণ্ড হল এই ধরনের পদ্ধতিতে সবচেয়ে আনুমানিক ফলাফল। অ্যাট্রিবিউট নির্বাচনের পরিমাপগুলিকে বিভক্ত করার নিয়ম বলা হয় কারণ তারা সিদ্ধান্ত নেয় যে প্রদত্ত নোডের টিপলগুলিকে কীভাবে ভাগ করা হবে।

বৈশিষ্ট্য নির্বাচন পরিমাপ প্রদত্ত প্রশিক্ষণ টিপল সংজ্ঞায়িত প্রতিটি বৈশিষ্ট্যের জন্য একটি র্যাঙ্কিং সমর্থন করে। পরিমাপের জন্য সর্বোত্তম পদ্ধতির বৈশিষ্ট্যটি প্রদত্ত টিপলগুলির জন্য বিভক্ত বৈশিষ্ট্য হিসাবে নির্বাচিত হয়৷

যদি বিভাজন বৈশিষ্ট্যটি ধ্রুবক-মূল্যবান হয় বা যদি এটি বাইনারি গাছের মধ্যে সীমাবদ্ধ থাকে, সেই অনুযায়ী, হয় একটি বিভক্ত বিন্দু বা একটি বিভক্ত উপসেটকেও বিভাজনের মানদণ্ডের একটি উপাদান হিসাবে সিদ্ধান্ত নেওয়া উচিত৷

পার্টিশন D-এর জন্য তৈরি করা ট্রি নোডকে বিভাজন মাপদণ্ড দিয়ে লেবেল করা হয়, মানদণ্ডের প্রতিটি ফলাফলের জন্য শাখাগুলি বৃদ্ধি করা হয়, এবং টিপলগুলি সেই অনুযায়ী বিচ্ছিন্ন হয়। তথ্য লাভ, লাভ অনুপাত এবং জিনি সূচক সহ তিনটি বিখ্যাত বৈশিষ্ট্য নির্বাচনের ব্যবস্থা রয়েছে।

তথ্য লাভ − সর্বোত্তম বৈশিষ্ট্য/বৈশিষ্ট্য নির্ধারণের জন্য তথ্য লাভ ব্যবহার করা হয় যা একটি ক্লাস সম্পর্কে সর্বাধিক ডেটা রেন্ডার করে। রুট নোড থেকে শুরু করে লিফ নোড পর্যন্ত এনট্রপির স্তর হ্রাস করার লক্ষ্যে এটি এনট্রপির পদ্ধতি অনুসরণ করে৷

ধরুন নোড N পার্টিশন D-এর টিপলগুলিকে সংজ্ঞায়িত করে বা ধরে রাখে। সর্বাধিক তথ্য লাভের বৈশিষ্ট্যটি নোড N-এর জন্য বিভাজন বৈশিষ্ট্য হিসাবে নির্বাচিত হয়। এই বৈশিষ্ট্যটি ফলস্বরূপ উপবিভাজনে টিপলগুলিকে সংজ্ঞায়িত করার জন্য প্রয়োজনীয় ডেটাকে কম করে এবং সর্বনিম্ন এলোমেলোতা প্রতিফলিত করে বা “ অপবিত্রতা” এই উপবিভাগে।

লাভের অনুপাত − তথ্য লাভের পরিমাপ হল পক্ষপাতদুষ্ট সমীপবর্তী পরীক্ষা যা বিভিন্ন ফলাফল সহ। এটি উচ্চ সংখ্যক মান থাকার বৈশিষ্ট্যগুলি নির্বাচন করতে পারে। উদাহরণস্বরূপ, একটি বৈশিষ্ট্য বিবেচনা করুন যা পণ্য আইডি সহ একটি অনন্য শনাক্তকারী হিসাবে সহায়তা করে৷

প্রোডাক্ট আইডিতে একটি বিভাজনের ফলে বিপুল সংখ্যক পার্টিশন হতে পারে, প্রতিটিতে শুধুমাত্র একটি টিপল সহ। যেহেতু প্রতিটি পার্টিশন প্রামাণিক, এই পার্টিশনের উপর ভিত্তি করে ডেটা সেট ডি সংজ্ঞায়িত করার জন্য প্রয়োজনীয় ডেটা হবে তথ্য_{product_ID} (D) =0.

গিনি সূচক - জিনি সূচকটি CART-এ ব্যবহার করা যেতে পারে। জিনি সূচক ডি এর অশুদ্ধতা গণনা করে, একটি ডেটা পার্টিশন বা প্রশিক্ষণ টিপল সংগ্রহ করে, যেমন

$$\mathrm{Gini(D)=1-\displaystyle\sum\limits_{i=1}^m p_i^2}$$

যেখানে p_i D-এর একটি টিপল C_i শ্রেণীর অন্তর্গত হওয়ার সম্ভাবনা এবং |C_i দ্বারা গণনা করা হয় ,_D |/|D|.