আধা-তত্ত্বাবধানে ক্লাস্টার বিশ্লেষণ কি?

আধা-তত্ত্বাবধানে ক্লাস্টারিং একটি পদ্ধতি যা ডোমেন জ্ঞানের ব্যবহার তৈরি করে লেবেলবিহীন ডেটা পার্টিশন করে। এটি সাধারণত দৃষ্টান্তগুলির মধ্যে জোড়া সীমাবদ্ধতা হিসাবে বা লেবেলযুক্ত উদাহরণগুলির একটি অতিরিক্ত সেট হিসাবে প্রকাশ করা হয়৷

তত্ত্বাবধান না করা ক্লাস্টারিংয়ের গুণমান মূলত তত্ত্বাবধানের কিছু দুর্বল কাঠামো ব্যবহার করে উন্নত করা যেতে পারে, উদাহরণস্বরূপ, জোড়ার মতো সীমাবদ্ধতার আকারে (অর্থাৎ, অনুরূপ বা ভিন্ন ক্লাস্টারের অন্তর্গত হিসাবে লেবেলযুক্ত বস্তুর জোড়া)। এই ধরনের একটি ক্লাস্টারিং পদ্ধতি যা ব্যবহারকারীর প্রতিক্রিয়া বা নির্দেশিকা সীমাবদ্ধতার উপর নির্ভর করে সেমি-সুপারভাইসড ক্লাস্টারিং নামে পরিচিত।

আধা-তত্ত্বাবধানে ক্লাস্টারিংয়ের জন্য বেশ কয়েকটি পদ্ধতি রয়েছে যেগুলিকে দুটি শ্রেণীতে ভাগ করা যায় যা নিম্নরূপ -

সীমাবদ্ধতা-ভিত্তিক আধা-তত্ত্বাবধানে ক্লাস্টারিং − এটি আরও উপযুক্ত ডেটা পার্টিশনের দিকে অ্যালগরিদমকে সমর্থন করার জন্য ব্যবহারকারী-প্রদত্ত লেবেল বা সীমাবদ্ধতার ভিত্তিতে ব্যবহার করা যেতে পারে। এতে সীমাবদ্ধতার উপর নির্ভর করে উদ্দেশ্যমূলক ফাংশন পরিবর্তন করা বা লেবেলযুক্ত বস্তুর উপর নির্ভর করে ক্লাস্টারিং প্রক্রিয়া শুরু করা এবং সীমাবদ্ধ করা রয়েছে।

দূরত্ব-ভিত্তিক আধা-তত্ত্বাবধানে ক্লাস্টারিং − এটি একটি অভিযোজিত দূরত্ব পরিমাপ নিযুক্ত করতে ব্যবহার করা যেতে পারে যা তত্ত্বাবধানে থাকা ডেটার লেবেল বা সীমাবদ্ধতাগুলি পূরণ করতে প্রশিক্ষিত। এক্সপেক্টেশন-ম্যাক্সিমাইজেশন (EM) ব্যবহার করে প্রশিক্ষিত স্ট্রিং-সম্পাদনা দূরত্ব সহ একাধিক অভিযোজিত দূরত্ব পরিমাপ ব্যবহার করা হয়েছে, এবং স্বল্পতম দূরত্বের অ্যালগরিদম দ্বারা পরিবর্তিত ইউক্লিডীয় দূরত্ব।

একটি আকর্ষণীয় ক্লাস্টারিং পদ্ধতি, CLTree নামে পরিচিত (clustering based on decisionTREEs)। এটি তত্ত্বাবধানহীন ক্লাস্টারিংকে তত্ত্বাবধানে শ্রেণীবিভাগের ধারণার সাথে একীভূত করে। এটি সীমাবদ্ধতা-ভিত্তিক আধা-তত্ত্বাবধানে ক্লাস্টারিংয়ের একটি উদাহরণ। এটি একটি ক্লাস্টারিং টাস্ককে একটি ক্লাসিফিকেশন টাস্কে পরিবর্তন করে একটি ক্লাসের অন্তর্গত হিসাবে ক্লাস্টার করা পয়েন্টের সেটটিকে বিবেচনা করে, "Y" হিসাবে লেবেলযুক্ত এবং একটি একাধিক শ্রেণীর লেবেল সহ তুলনামূলকভাবে অভিন্নভাবে বিতরণ করা "অবস্তুত বিন্দু" এর একটি সেট সন্নিবেশ করায়, " এন।"

ডেটা এলাকাকে ডেটা (ঘন) অঞ্চলে এবং খালি (স্পার্স) অঞ্চলে বিভাজন করার সমস্যাটি তারপরে একটি শ্রেণিবিন্যাস সমস্যায় পরিবর্তিত হতে পারে। এই পয়েন্টগুলিকে "Y" পয়েন্টগুলির একটি সেট হিসাবে বিবেচনা করা যেতে পারে। এটি "o" পয়েন্ট দ্বারা সংজ্ঞায়িত অভিন্নভাবে বিতরণ করা "N" পয়েন্টের একটি সংগ্রহের যোগ দেখায়।

এইভাবে মূল ক্লাস্টারিং সমস্যাটি একটি শ্রেণিবিন্যাস সমস্যায় পরিবর্তিত হয়, যা একটি নকশা তৈরি করে যা "Y" এবং "N" বিন্দুকে আলাদা করে। দ্বি-মাত্রিক স্থান বিভাজন করার জন্য একটি সিদ্ধান্ত গাছ আনয়ন পদ্ধতি ব্যবহার করা যেতে পারে। দুটি ক্লাস্টার স্বীকৃত, যেগুলো শুধুমাত্র “Y” পয়েন্ট থেকে।

এটি মূল ডেটাতে প্রচুর পরিমাণে "N" পয়েন্ট সন্নিবেশ করতে ব্যবহার করা যেতে পারে যা গণনার ক্ষেত্রে অপ্রয়োজনীয় ওভারহেড প্রবর্তন করতে পারে। অধিকন্তু, এটা অসম্ভাব্য যে যোগ করা কিছু পয়েন্ট সত্যই খুব উচ্চ-মাত্রিক স্থানে সমানভাবে বিতরণ করা হবে কারণ এর জন্য সূচকের সংখ্যার প্রয়োজন হতে পারে।