কম্পিউটার

এনট্রপি-ভিত্তিক ডিসক্রিটাইজেশন কি?


এনট্রপি-ভিত্তিক বিচক্ষণতা হল একটি তত্ত্বাবধান করা, টপ-ডাউন স্প্লিটিং পদ্ধতি। এটি তার গণনা এবং বিভক্ত-পয়েন্ট সংরক্ষণে শ্রেণী বন্টন ডেটা অন্বেষণ করে (একটি বৈশিষ্ট্য পরিসর আলাদা করার জন্য ডেটা মান)। এটি একটি পরিসংখ্যানগত বৈশিষ্ট্যকে বিচ্ছিন্ন করতে পারে, A, পদ্ধতিটি A-এর মান নির্বাচন করে যার একটি বিভাজন-বিন্দু হিসাবে ন্যূনতম এনট্রপি রয়েছে এবং একটি অনুক্রমিক বিচ্ছিন্নকরণে উপস্থিত হওয়ার জন্য ফলাফল ব্যবধানগুলিকে পুনরাবৃত্তিমূলকভাবে ভাগ করে।

নির্দিষ্ট বিচক্ষণতা A-এর জন্য একটি ধারণা শ্রেণিবিন্যাস গঠন করে। চলুন D-এ বৈশিষ্ট্যগুলির একটি গ্রুপ এবং একটি শ্রেণি-লেবেল বৈশিষ্ট্য দ্বারা বর্ণিত ডেটা টিপল অন্তর্ভুক্ত করে। ক্লাস-লেবেল অ্যাট্রিবিউট প্রতি টিপল ক্লাস ডেটা সমর্থন করে। সেটের অভ্যন্তরে একটি অ্যাট্রিবিউট A এর এনট্রপি-ভিত্তিক বিচ্ছিন্নকরণের জন্য প্রাথমিক পদ্ধতিটি নিম্নরূপ -

A-এর ক্ষেত্রফলকে ভাগ করার জন্য A-এর প্রতিটি মানকে একটি সম্ভাব্য ব্যবধান সীমানা বা বিভক্ত-বিন্দু (নির্দেশিত বিভক্ত বিন্দু) হিসাবে বিবেচনা করা যেতে পারে। অর্থাৎ, A-এর জন্য একটি বিভক্ত-বিন্দু D-এর টিপলগুলিকে A শর্ত পূরণ করে দুটি উপসেটে ভাগ করতে পারে। ≤ বিভক্ত বিন্দু এবং A> বিভক্ত বিন্দু, যথাক্রমে, যার ফলে একটি বাইনারি বিচক্ষণতা তৈরি হয়।

এনট্রপি-ভিত্তিক বিচক্ষণতা টিপলের ক্লাস লেবেল সম্পর্কিত ডেটা ব্যবহার করে। এটি এনট্রপি-ভিত্তিক বিচক্ষণতার পরে অন্তর্দৃষ্টিকে সংজ্ঞায়িত করতে পারে, এটি শ্রেণিবিন্যাসে এক ঝলক দেখা উচিত। ধরুন A এট্রিবিউট এবং কিছু স্প্লিট-পয়েন্টে পার্টিশন করে D-এ টিপলগুলিকে সংজ্ঞায়িত করতে হবে।

উদাহরণস্বরূপ, যদি আমাদের দুটি ক্লাস থাকে, তবে আশা করা যায় যে ক্লাস C1 এর কিছু টিপল একটি পার্টিশনে হ্রাস পাবে এবং C2 ক্লাসের কিছু টিপল অন্য পার্টিশনে হ্রাস পাবে। কিন্তু এটা অসম্ভাব্য। উদাহরণস্বরূপ, প্রথম পার্টিশনে C1 এর কয়েকটি টিপল অন্তর্ভুক্ত করা যেতে পারে, তবে কিছু C2-এর অন্তর্ভুক্ত। এই পরিমাণটি A দ্বারা বিভাজনের উপর ভিত্তি করে D-তে একটি টিপল সংজ্ঞায়িত করার জন্য প্রত্যাশিত ডেটা প্রয়োজনীয়তা হিসাবে পরিচিত। এটি দ্বারা দেওয়া হয়

$$\mathrm{Info_A(D)\:=\:\frac{\mid\:D_1\:\mid}{\mid\:D\:\mid}এনট্রফি(D_1)\:+\:\frac{ \mid\:D_2\:\mid}{\mid\:D\:\mid}এনট্রফি(D_2)}$$

যেখানে D1 এবং D2 ডি-তে থাকা টিপলের সাথে মিলে যায়, সেই অনুযায়ী A ≤ স্প্লিট পয়েন্ট এবং A> স্প্লিট পয়েন্টকে রিফ্রেশ করে; |D| ডি, ইত্যাদিতে টিপলের সংখ্যা। একটি প্রদত্ত সেটের জন্য এনট্রপি পরিষেবা সেটের টিউপলগুলির শ্রেণি বন্টনের উপর ভিত্তি করে গণনা করা হয়।

উদাহরণস্বরূপ, দেওয়া m ক্লাস, C1, C2... Cm, D1 এর এনট্রপি হল

$$\mathrm{Entrophy(D_1)}\:=\:-\displaystyle\sum\limits_{i=1}^m P_i{\log_{2}(P_i)}$$

একটি স্প্লিট-পয়েন্টের সিদ্ধান্ত নেওয়ার পর্যায়টি অর্জিত প্রতিটি পার্টিশনে পুনরাবৃত্তিমূলকভাবে ব্যবহৃত হয়, যতক্ষণ না কিছু থামার মানদণ্ড পূরণ না হয়, যখন সমস্ত ছাত্র বিভক্ত-পয়েন্টের ন্যূনতম ডেটা প্রয়োজনীয়তা একটি ছোট প্রান্তিকের চেয়ে কম হয়, ε, বা যখন একাধিক বেশি হয় একটি থ্রেশহোল্ডের চেয়ে, max_interval.


  1. অসুপারভাইজড ডিসক্রেটাইজেশনের পন্থাগুলি কী কী?

  2. C# 4.0 এ Tuples কি?

  3. পাইথনে tuples নামকরণ করা হয় কি?

  4. পাইথন টিপল তৈরি করতে সঠিক সিনট্যাক্স কি?