কম্পিউটার টিউটোরিয়াল

আধা-তত্ত্বাবধানে ক্লাস্টার বিশ্লেষণ কি?


আধা-তত্ত্বাবধানে ক্লাস্টারিং একটি পদ্ধতি যা ডোমেন জ্ঞানের ব্যবহার তৈরি করে লেবেলবিহীন ডেটা পার্টিশন করে। এটি সাধারণত দৃষ্টান্তগুলির মধ্যে জোড়া সীমাবদ্ধতা হিসাবে বা লেবেলযুক্ত উদাহরণগুলির একটি অতিরিক্ত সেট হিসাবে প্রকাশ করা হয়৷

তত্ত্বাবধান না করা ক্লাস্টারিংয়ের গুণমান মূলত তত্ত্বাবধানের কিছু দুর্বল কাঠামো ব্যবহার করে উন্নত করা যেতে পারে, উদাহরণস্বরূপ, জোড়ার মতো সীমাবদ্ধতার আকারে (অর্থাৎ, অনুরূপ বা ভিন্ন ক্লাস্টারের অন্তর্গত হিসাবে লেবেলযুক্ত বস্তুর জোড়া)। এই ধরনের একটি ক্লাস্টারিং পদ্ধতি যা ব্যবহারকারীর প্রতিক্রিয়া বা নির্দেশিকা সীমাবদ্ধতার উপর নির্ভর করে সেমি-সুপারভাইসড ক্লাস্টারিং নামে পরিচিত।

আধা-তত্ত্বাবধানে ক্লাস্টারিংয়ের জন্য বেশ কয়েকটি পদ্ধতি রয়েছে যেগুলিকে দুটি শ্রেণীতে ভাগ করা যায় যা নিম্নরূপ -

সীমাবদ্ধতা-ভিত্তিক আধা-তত্ত্বাবধানে ক্লাস্টারিং − এটি আরও উপযুক্ত ডেটা পার্টিশনের দিকে অ্যালগরিদমকে সমর্থন করার জন্য ব্যবহারকারী-প্রদত্ত লেবেল বা সীমাবদ্ধতার ভিত্তিতে ব্যবহার করা যেতে পারে। এতে সীমাবদ্ধতার উপর নির্ভর করে উদ্দেশ্যমূলক ফাংশন পরিবর্তন করা বা লেবেলযুক্ত বস্তুর উপর নির্ভর করে ক্লাস্টারিং প্রক্রিয়া শুরু করা এবং সীমাবদ্ধ করা রয়েছে।

দূরত্ব-ভিত্তিক আধা-তত্ত্বাবধানে ক্লাস্টারিং − এটি একটি অভিযোজিত দূরত্ব পরিমাপ নিযুক্ত করতে ব্যবহার করা যেতে পারে যা তত্ত্বাবধানে থাকা ডেটার লেবেল বা সীমাবদ্ধতাগুলি পূরণ করতে প্রশিক্ষিত। এক্সপেক্টেশন-ম্যাক্সিমাইজেশন (EM) ব্যবহার করে প্রশিক্ষিত স্ট্রিং-সম্পাদনা দূরত্ব সহ একাধিক অভিযোজিত দূরত্ব পরিমাপ ব্যবহার করা হয়েছে, এবং স্বল্পতম দূরত্বের অ্যালগরিদম দ্বারা পরিবর্তিত ইউক্লিডীয় দূরত্ব।

একটি আকর্ষণীয় ক্লাস্টারিং পদ্ধতি, CLTree নামে পরিচিত (clustering based on decisionTREEs)। এটি তত্ত্বাবধানহীন ক্লাস্টারিংকে তত্ত্বাবধানে শ্রেণীবিভাগের ধারণার সাথে একীভূত করে। এটি সীমাবদ্ধতা-ভিত্তিক আধা-তত্ত্বাবধানে ক্লাস্টারিংয়ের একটি উদাহরণ। এটি একটি ক্লাস্টারিং টাস্ককে একটি ক্লাসিফিকেশন টাস্কে পরিবর্তন করে একটি ক্লাসের অন্তর্গত হিসাবে ক্লাস্টার করা পয়েন্টের সেটটিকে বিবেচনা করে, "Y" হিসাবে লেবেলযুক্ত এবং একটি একাধিক শ্রেণীর লেবেল সহ তুলনামূলকভাবে অভিন্নভাবে বিতরণ করা "অবস্তুত বিন্দু" এর একটি সেট সন্নিবেশ করায়, " এন।"

ডেটা এলাকাকে ডেটা (ঘন) অঞ্চলে এবং খালি (স্পার্স) অঞ্চলে বিভাজন করার সমস্যাটি তারপরে একটি শ্রেণিবিন্যাস সমস্যায় পরিবর্তিত হতে পারে। এই পয়েন্টগুলিকে "Y" পয়েন্টগুলির একটি সেট হিসাবে বিবেচনা করা যেতে পারে। এটি "o" পয়েন্ট দ্বারা সংজ্ঞায়িত অভিন্নভাবে বিতরণ করা "N" পয়েন্টের একটি সংগ্রহের যোগ দেখায়।

এইভাবে মূল ক্লাস্টারিং সমস্যাটি একটি শ্রেণিবিন্যাস সমস্যায় পরিবর্তিত হয়, যা একটি নকশা তৈরি করে যা "Y" এবং "N" বিন্দুকে আলাদা করে। দ্বি-মাত্রিক স্থান বিভাজন করার জন্য একটি সিদ্ধান্ত গাছ আনয়ন পদ্ধতি ব্যবহার করা যেতে পারে। দুটি ক্লাস্টার স্বীকৃত, যেগুলো শুধুমাত্র “Y” পয়েন্ট থেকে।

এটি মূল ডেটাতে প্রচুর পরিমাণে "N" পয়েন্ট সন্নিবেশ করতে ব্যবহার করা যেতে পারে যা গণনার ক্ষেত্রে অপ্রয়োজনীয় ওভারহেড প্রবর্তন করতে পারে। অধিকন্তু, এটা অসম্ভাব্য যে যোগ করা কিছু পয়েন্ট সত্যই খুব উচ্চ-মাত্রিক স্থানে সমানভাবে বিতরণ করা হবে কারণ এর জন্য সূচকের সংখ্যার প্রয়োজন হতে পারে।


  1. প্রবণতা বিশ্লেষণ কি?

  2. রক কি?

  3. ডকুমেন্ট ক্লাস্টারিং বিশ্লেষণ কি?

  4. মাল্টি রিলেশনাল ক্লাস্টারিং কি?