একই বস্তুর শ্রেণীতে ভৌত বা বিমূর্ত বস্তুর সেটকে একত্রিত করার প্রক্রিয়াকে ক্লাস্টারিং বলা হয়। একটি ক্লাস্টার হল ডেটা অবজেক্টের একটি সেট যা একই ক্লাস্টারের মধ্যে একে অপরের মতো এবং অন্যান্য ক্লাস্টারের অবজেক্ট থেকে আলাদা। ডেটা অবজেক্টের একটি ক্লাস্টারকে বিভিন্ন অ্যাপ্লিকেশনে একটি গ্রুপ হিসাবে সম্মিলিতভাবে বিবেচনা করা যেতে পারে। ক্লাস্টার বিশ্লেষণ একটি অপরিহার্য মানব কার্যকলাপ।
ক্লাস্টার বিশ্লেষণ এই রেকর্ডগুলির উপর করা বিভিন্ন ব্যবস্থার উপর নির্ভর করে একই রেকর্ডের গ্রুপ বা ক্লাস্টার গঠন করতে ব্যবহৃত হয়। মূল নকশা হল ক্লাস্টারগুলিকে এমনভাবে সংজ্ঞায়িত করা যা বিশ্লেষণের উদ্দেশ্যের জন্য উপযোগী হতে পারে। এই তথ্যটি জ্যোতির্বিদ্যা, প্রত্নতত্ত্ব, চিকিৎসাবিদ্যা, রসায়ন, শিক্ষা, মনোবিজ্ঞান, ভাষাবিজ্ঞান এবং সমাজবিজ্ঞানের মতো বিভিন্ন ক্ষেত্রে ব্যবহার করা হয়েছে।
ক্লাস্টারের বিভিন্ন উপাদান রয়েছে যা নিম্নরূপ -
ডেটা বিতরণ - কিছু ক্লাস্টারিং কৌশল ডেটার জন্য একটি নির্দিষ্ট ধরনের বিতরণ বিবেচনা করে। অধিকন্তু, তারা বিবেচনা করতে পারে যে ডেটা বিতরণের সংমিশ্রণ থেকে উদ্ভূত হিসাবে মডেল করা যেতে পারে, যেখানে প্রতিটি ক্লাস্টার একটি বিতরণের সাথে সম্পর্কযুক্ত।
আকৃতি − কিছু ক্লাস্টারগুলি পদ্ধতিগতভাবে আকৃতির হয়, যেমন আয়তক্ষেত্রাকার বা গোলাকার, কিন্তু যথারীতি, ক্লাস্টারগুলি নির্বিচারে আকৃতির হতে পারে। DBSCAN এবং একক লিঙ্ক সহ কৌশলগুলি নির্বিচারে আকৃতির ক্লাস্টারগুলি পরিচালনা করতে পারে, তবে প্রোটোটাইপ-ভিত্তিক স্কিম এবং সম্পূর্ণ লিঙ্ক এবং গ্রুপ গড় সহ কিছু শ্রেণিবদ্ধ কৌশলগুলি তা করতে পারে না৷
বিভিন্ন আকার − কে-মান সহ বেশ কয়েকটি ক্লাস্টারিং পদ্ধতি, যখন ক্লাস্টারগুলির একাধিক আকার থাকে তখন ভালভাবে কাজ করে না৷
বিভিন্ন ঘনত্ব − যে ক্লাস্টারগুলির ঘনত্ব ব্যাপকভাবে পরিবর্তিত হয় সেগুলি DBSCAN এবং K-মান সহ পদ্ধতিগুলির জন্য সমস্যা তৈরি করতে পারে৷
খারাপভাবে আলাদা করা ক্লাস্টার − যখন ক্লাস্টারগুলি স্পর্শ করে বা ওভারল্যাপ করে, তখন বেশ কয়েকটি ক্লাস্টারিং পদ্ধতিগুলি ক্লাস্টারগুলিকে একত্রিত করে যেগুলিকে অবশ্যই স্বাধীন রাখতে হবে। এমনকি কৌশলগুলি যেগুলি স্বতন্ত্র ক্লাস্টারগুলি আবিষ্কার করে তা নির্বিচারে এক বা অন্য ক্লাস্টারে পয়েন্ট তৈরি করে৷
ক্লাস্টারের মধ্যে সম্পর্ক - বেশিরভাগ ক্লাস্টারিং কৌশলগুলিতে, ক্লাস্টারগুলির মধ্যে অ্যাসোসিয়েশনগুলির কোনও স্পষ্ট বিবেচনা নেই, তাদের আপেক্ষিক অবস্থান সহ। স্ব-সংগঠিত মানচিত্র হল একটি ক্লাস্টারিং পদ্ধতি যা ক্লাস্টারিং পর্বের সময় ক্লাস্টারগুলির মধ্যে সম্পর্কগুলিকে সরাসরি ব্যবহার করে। অধিকন্তু, একটি ক্লাস্টারে একটি বিন্দুর নিয়োগ কাছাকাছি ক্লাস্টারগুলির সংজ্ঞাকে প্রভাবিত করে৷
সাবস্পেস ক্লাস্টার − ক্লাস্টারগুলি কেবলমাত্র মাত্রার একটি উপসেটে (গুণাবলী) থাকতে পারে এবং এক সেট মাত্রা ব্যবহার করে সিদ্ধান্ত নেওয়া ক্লাস্টারগুলি অন্য সেট ব্যবহার করে সিদ্ধান্ত নেওয়া ক্লাস্টার থেকে আলাদা হতে পারে৷
যদিও এই সমস্যাটি যত কম দুইটি মাত্রার সাথে বাড়তে পারে, এটি মাত্রার উন্নতির সাথে সাথে এটি আরও তীব্র হয়, কারণ মাত্রার কয়েকটি সম্ভাব্য উপসেট মোট সংখ্যার মধ্যে সূচকীয়। কারণ একাধিক মাত্রা তুলনামূলকভাবে কম না হলে কেবলমাত্র সমস্ত সম্ভাব্য উপসেটে ক্লাস্টার দেখার জন্য এটি প্রযোজ্য নয়৷