কম্পিউটার

ধারণাগত ক্লাস্টারিং কি?


কনসেপচুয়াল ক্লাস্টারিং হল মেশিন লার্নিং-এ ক্লাস্টারিংয়ের একটি ফর্ম যা লেবেলবিহীন বস্তুর একটি সেট দেওয়া হলে, বস্তুর উপর একটি শ্রেণিবিন্যাস নকশা তৈরি করে। প্রচলিত ক্লাস্টারিংয়ের বিপরীতে, যা সাধারণত বস্তুর গোষ্ঠীগুলিকে চিহ্নিত করে, ধারণাগত ক্লাস্টারিং প্রতিটি গোষ্ঠীর জন্য বৈশিষ্ট্যগত সংজ্ঞা আবিষ্কার করে আরও এক ধাপ এগিয়ে যায়, যেখানে প্রতিটি গোষ্ঠী একটি ধারণা বা শ্রেণিকে সংজ্ঞায়িত করে।

অতএব, ধারণাগত ক্লাস্টারিং একটি দ্বি-পদক্ষেপ প্রক্রিয়া - ক্লাস্টারিং প্রথমে বাস্তবায়িত হয়, তারপরে চরিত্রায়ন। সুতরাং, ক্লাস্টারিং গুণমান শুধুমাত্র একক বস্তুর পরিষেবা নয়। ধারণাগত ক্লাস্টারিংয়ের বেশিরভাগ কৌশলগুলি একটি পরিসংখ্যানগত পদ্ধতি গ্রহণ করে যা ধারণা বা ক্লাস্টারগুলি নির্ধারণে সম্ভাব্যতা পরিমাপ ব্যবহার করে।

সম্ভাব্য বর্ণনাগুলি সাধারণত প্রতিটি উদ্ভূত ধারণাকে সংজ্ঞায়িত করতে ব্যবহৃত হয়। COBWEB হল ক্রমবর্ধমান ধারণাগত ক্লাস্টারিংয়ের একটি বিখ্যাত এবং সহজ পদ্ধতি। এর ইনপুট অবজেক্ট শ্রেণীবদ্ধ বৈশিষ্ট্য-মান জোড়া দ্বারা সংজ্ঞায়িত করা হয়। COBWEB একটি শ্রেণিবিন্যাস গাছের আকারে বর্ধিতকরণ ক্লাস্টারিং তৈরি করে।

একটি শ্রেণিবিন্যাস গাছ একটি সিদ্ধান্ত গাছ থেকে পৃথক। একটি শ্রেণিবিন্যাস গাছের প্রতিটি নোড একটি ধারণাকে সংজ্ঞায়িত করে এবং সেই ধারণাটির একটি সম্ভাব্য বিবরণ অন্তর্ভুক্ত করে, যা নোডের অধীনে শ্রেণীবদ্ধ বস্তুগুলির সংক্ষিপ্তসার করে। সম্ভাব্য বিবরণে ধারণার সম্ভাব্যতা এবং শর্তযুক্ত সম্ভাব্যতা রয়েছে $P(A_{i}=v_{ij}|C_{k})$ হল একটি বৈশিষ্ট্য-মান জোড়া (i th অ্যাট্রিবিউট এর j th নেয় সম্ভাব্য মান) এবং Ck ধারণা ক্লাস।

COBWEB একটি হিউরিস্টিক মূল্যায়ন পরিমাপ ব্যবহার করে যা ক্যাটাগরি ইউটিলিটি নামে পরিচিত বৃক্ষের নির্মাণের নির্দেশনা দিতে। ক্যাটাগরি ইউটিলিটি (CU) কে

হিসাবে সংজ্ঞায়িত করা হয়েছে

$$\frac{\sum_{k=1}^{n}P(C_{k})\left [\sum_{i}\sum_{j}P(A_{i}=v_{ij}|C_{ k})^{2}-\sum_{i}\sum_{j}P(A_{i}=v_{ij})^{2}\right ]}{n}$$

যেখানে n হল নোডের সংখ্যা, ধারণা বা "বিভাগ" একটি পার্টিশন গঠন করে, {C1 ,C2 ,..., Cn }, গাছের প্রদত্ত স্তরে। অন্য পরিভাষায়, ক্যাটাগরি ইউটিলিটি হল প্রত্যাশিত সংখ্যার বৈশিষ্ট্যের মানের বৃদ্ধি যা একটি পার্টিশন দিয়ে নিখুঁতভাবে অনুমান করা যায় (যেখানে এই প্রত্যাশিত সংখ্যাটি $P(C_{k})\sum_{i}\sum_{j শব্দের সাথে মিলে যায় }P(A_{i}=v_{ij}|C_{k})^{2}$ এমন কোন জ্ঞান ছাড়াই সঠিক অনুমানের প্রত্যাশিত সংখ্যার বেশি ($\sum_{i}\sum_{j} শব্দটির সাথে সম্পর্কিত প

ইন্ট্রাক্লাস সাদৃশ্য − এটি হল সম্ভাব্যতা $P(A_{i}=v_{ij}|C_{k})$। এই মানটি যত বেশি হবে, এই বৈশিষ্ট্য-মূল্যের জুটি ভাগ করে এমন শ্রেণির সদস্যদের অনুপাত তত বেশি হবে এবং এই জোড়াটি শ্রেণির সদস্যদের অনুমান তত বেশি হবে৷

আন্তঃশ্রেণীর বৈষম্য − এটি হল সম্ভাব্যতা $P(C_{k}|A_{i}=v_{ij})$। এই মানটি যত বেশি হবে, বৈপরীত্য-মূল্যের জুটি ভাগ করে এমন বৈপরীত্য শ্রেণিতে বস্তুর সংখ্যা তত কম এবং এই জুটিটি শ্রেণির তত বেশি অনুমানযোগ্য৷

COBWEB একটি উপযুক্ত পথ ধরে গাছে নেমে আসে, পথের ধারে গণনা রিফ্রেশ করে, "সেরা হোস্ট" বা নোডের অনুসন্ধান যা বস্তুটিকে সংজ্ঞায়িত করতে হয়। এই সিদ্ধান্তটি অস্থায়ীভাবে প্রতিটি নোডে অবজেক্টের অবস্থান এবং ফলাফল বিভাজনের শ্রেণীবিভাগের উপযোগিতা মূল্যায়নের উপর নির্ভর করে। যে প্লেসমেন্টের ফলে সর্বোচ্চ ক্যাটাগরি ইউটিলিটি হয় সেটি বস্তুর জন্য সেরা হোস্ট হওয়া উচিত।


  1. ডকুমেন্ট ক্লাস্টারিং বিশ্লেষণ কি?

  2. মাল্টি রিলেশনাল ক্লাস্টারিং কি?

  3. সি শার্প বস্তু কি?

  4. পাইথনে কি অপরিবর্তনীয়?