একটি সমষ্টিগত ক্লাস্টারিং অ্যালগরিদম কী?

অ্যাগ্লোমেরেটিভ ক্লাস্টারিং হল একটি বটম-আপ ক্লাস্টারিং পদ্ধতি যেখানে ক্লাস্টারে সাব-ক্লাস্টার থাকে, যার ফলস্বরূপ সাব-ক্লাস্টার ইত্যাদি থাকে। এটি প্রতিটি বস্তুকে তার ক্লাস্টারে রেখে শুরু করতে পারে এবং তারপর এই পারমাণবিক ক্লাস্টারগুলিকে উচ্চতর এবং উচ্চতর ক্লাস্টারে মিশ্রিত করতে পারে যতক্ষণ না সমস্ত বস্তু না হয়। একটি পৃথক ক্লাস্টারে বা এটির নির্দিষ্ট অবসানের শর্তের প্রয়োজন না হওয়া পর্যন্ত। কিছু শ্রেণিবদ্ধ ক্লাস্টারিং পদ্ধতি এই ধরনের ব্যবহার করা হয়। তাদের মধ্যে-ক্লাস্টার সাদৃশ্যের বর্ণনায় শুধুমাত্র স্বতন্ত্র।

উদাহরণস্বরূপ, AGNES (Agglomerative Nesting) নামক একটি পদ্ধতির জন্য একক-লিঙ্ক কৌশল প্রয়োজন এবং নিম্নরূপ কাজ করে। একটি আয়তক্ষেত্রে স্থাপন করা বস্তুর গ্রুপ আছে বিবেচনা করুন. প্রাথমিকভাবে, প্রতিটি বস্তু তার নিজস্ব একটি ক্লাস্টারে অবস্থিত। তাই ক্লাস্টারগুলিকে কিছু নীতি অনুসারে ধাপে ধাপে একত্রিত করা হয় যেমন ক্লাস্টারের নিকটতম বস্তুগুলির মধ্যে ন্যূনতম ইউক্লিডীয় দূরত্বের সাথে ক্লাস্টারগুলিকে একত্রিত করা৷

কে-মানে ক্লাস্টারিংয়ের পদ্ধতিটি ধ্রুবক সংখ্যক ক্লাস্টার দিয়ে শুরু হয় এবং সমস্ত ডেটা ঠিক সেই একাধিক ক্লাস্টারে বরাদ্দ করে৷ পদ্ধতির আরেকটি শ্রেণী সমষ্টি দ্বারা কাজ করে। এই পদ্ধতিগুলি প্রতিটি ডেটা পয়েন্টের নিজস্ব ক্লাস্টার গঠনের সাথে শুরু হয় এবং ধীরে ধীরে তাদের উচ্চ এবং উচ্চ ক্লাস্টারে একত্রিত করে যতক্ষণ না সমস্ত পয়েন্ট একটি বড় ক্লাস্টারে একত্রিত হয়।

প্রথম প্রক্রিয়া একটি সাদৃশ্য ম্যাট্রিক্স উত্পাদন করা হয়. সাদৃশ্য ম্যাট্রিক্স হল কিছু জোড়া-ভিত্তিক দূরত্ব বা ক্লাস্টারগুলির মধ্যে সাদৃশ্যের ডিগ্রীর একটি সারণী। মূলত, সাদৃশ্য ম্যাট্রিক্সে একক জোড়া রেকর্ডের মধ্যে জোড়া-ভিত্তিক দূরত্ব অন্তর্ভুক্ত।

ইউক্লিডীয় দূরত্ব, ভেক্টরগুলির মধ্যে কোণ এবং অ-সংযুক্ত শ্রেণীবদ্ধ ক্ষেত্রের সাথে সংযোগের অনুপাতের মতো রেকর্ডগুলির মধ্যে সাদৃশ্যের বেশ কয়েকটি পরিমাপ রয়েছে৷

এটা মনে হতে পারে যে N ডেটা পয়েন্টের জন্য N মূল ক্লাস্টারগুলির সাথে, দূরত্বের টেবিল তৈরি করতে N2 পরিমাপের গণনা প্রয়োজন। যদি মিলের পরিমাপ সত্যিকারের দূরত্বের মেট্রিক হয়, তবে মাত্র অর্ধেক প্রয়োজন কারণ কিছু সত্য দূরত্বের মেট্রিক সেই পদ্ধতি অনুসরণ করে যেটি দূরত্ব(X, Y) =দূরত্ব(Y, X)।

গণিতে, একই ম্যাট্রিক্স নিম্ন ত্রিভুজাকার। পরবর্তী প্রক্রিয়া হল একই ম্যাট্রিক্সে ক্ষুদ্রতম মান আবিষ্কার করা। এটি দুটি ক্লাস্টারকে স্বীকৃতি দেয় যা একে অপরের সাথে সবচেয়ে বেশি একই রকম। এটি এই দুটি ক্লাস্টারকে একটি নতুনটিতে একত্রিত করতে পারে এবং অভিভাবক ক্লাস্টারকে একটি নতুন সারি দিয়ে বর্ণনা করা দুটি সারিকে পুনরুদ্ধার করে সাদৃশ্য ম্যাট্রিক্স রিফ্রেশ করতে পারে যা মার্জ করা ক্লাস্টার এবং অবশিষ্ট ক্লাস্টারগুলির মধ্যে দূরত্ব নির্ধারণ করে৷

এখন একই ম্যাট্রিক্সে N – 1 ক্লাস্টার এবং N – 1 সারি রয়েছে। এটি একত্রীকরণ পদক্ষেপ N – 1 বার পুনরাবৃত্তি করতে পারে, তাই কিছু ডেটা সমান বড় ক্লাস্টারের অন্তর্গত। প্রতিটি পুনরাবৃত্তি সনাক্ত করে কোন ক্লাস্টারগুলিকে একত্রিত করা হয়েছিল এবং তাদের মধ্যে দূরত্ব। এই তথ্যটি নির্ধারণ করতে পারে যে ক্লাস্টারিংয়ের কোন পদ্ধতি ব্যবহার করতে হবে।