ক্লাস্টারিং অ্যালগরিদমের বৈশিষ্ট্যগুলি কী কী?

ক্লাস্টারিং অ্যালগরিদমের বিভিন্ন বৈশিষ্ট্য রয়েছে যা নিম্নরূপ -

অর্ডার নির্ভরতা − বেশ কয়েকটি অ্যালগরিদমের জন্য, যে ক্রমানুসারে ডেটা প্রক্রিয়া করা হয় তার উপর ভিত্তি করে উত্পাদিত ক্লাস্টারগুলির বৈশিষ্ট্য এবং সংখ্যা পরিবর্তিত হতে পারে, সম্ভবত নাটকীয়ভাবে। যদিও এই ধরনের অ্যালগরিদমগুলি প্রতিরোধ করা বাঞ্ছনীয় বলে মনে হতে পারে, কখনও কখনও অর্ডার নির্ভরতা সহযোগীভাবে ছোট হয় বা অ্যালগরিদমের বেশ কয়েকটি পছন্দসই বৈশিষ্ট্য থাকতে পারে৷

অনির্ধারণবাদ − ক্লাস্টারিং অ্যালগরিদম, কে-মান সহ, অর্ডার-নির্ভর নয়, তবে তারা প্রতিটি রানের জন্য বেশ কয়েকটি ফলাফল তৈরি করে কারণ তারা একটি প্রাথমিক পদক্ষেপের উপর ভিত্তি করে যার জন্য একটি র্যান্ডম পছন্দ প্রয়োজন। যেহেতু ক্লাস্টারগুলির বৈশিষ্ট্য এক রান থেকে অন্য রানে পরিবর্তিত হতে পারে, বেশ কয়েকটি রান অপরিহার্য হতে পারে।

মাপযোগ্যতা − একটি ডেটা সেটের জন্য হাজার হাজার বস্তু অন্তর্ভুক্ত করা অস্বাভাবিক নয় এবং এই ধরনের ডেটা সেটের জন্য ব্যবহৃত ক্লাস্টারিং অ্যালগরিদমগুলিতে অবশ্যই লিনিয়ার বা কাছাকাছি-রৈখিক সময় এবং স্থান জটিলতা থাকতে হবে৷

এমনকি $\mathrm{O(m^2)}$ এর জটিলতা রয়েছে এমন অ্যালগরিদমগুলি উচ্চ তথ্য সেটের জন্য নয়। অধিকন্তু, ডেটা সেটগুলির জন্য ক্লাস্টারিং কৌশলগুলি বিবেচনা করতে পারে না যে সমস্ত ডেটা প্রধান মেমরিতে ফিট হবে বা ডেটা উপাদানগুলি এলোমেলোভাবে তৈরি করা যেতে পারে। এই ধরনের অ্যালগরিদম উচ্চ তথ্য সেটের জন্য অকার্যকর।

প্যারামিটার নির্বাচন − কিছু ক্লাস্টারিং অ্যালগরিদমের এক বা একাধিক প্যারামিটার থাকে যা ব্যবহারকারীর দ্বারা গোষ্ঠীবদ্ধ হতে হয়। এইভাবে সঠিক মান নির্বাচন করা জটিল হতে পারে, মনোভাব সাধারণত, "কম পরামিতি, উচ্চতর।" প্যারামিটারের মান নির্বাচন করা আরও জটিল হয়ে ওঠে যদি প্যারামিটারে একটি ছোট পরিবর্তন ক্লাস্টারিং ফলাফল পরিবর্তন করে।

অবশেষে, প্যারামিটার মান নির্ধারণের জন্য একটি প্রক্রিয়া (যাতে ব্যবহারকারীর ইনপুট থাকতে পারে) সমর্থিত না হলে, অ্যালগরিদমের একজন ব্যবহারকারী প্রাসঙ্গিক পরামিতি মানগুলি খুঁজে বের করার জন্য ট্রায়াল এবং ত্রুটি ব্যবহারে হ্রাস পায়৷

ক্লাস্টারিং সমস্যাগুলিকে অন্য ডোমেনে রূপান্তর করা হচ্ছে - কিছু ক্লাস্টারিং কৌশল দ্বারা নেওয়া একটি পদ্ধতি হল একাধিক ডোমেনে একটি সমস্যায় ক্লাস্টারিং সমস্যাগুলিকে ম্যাপ করা। গ্রাফ-ভিত্তিক ক্লাস্টারিং সংযুক্ত উপাদানগুলিতে একটি প্রক্সিমিটি গ্রাফকে বিভাজন করার জন্য ক্লাস্টারগুলি আবিষ্কার করার পরিষেবাগুলিকে মানচিত্র করে৷

ক্লাস্টারিংকে একটি অপ্টিমাইজেশান সমস্যা হিসাবে বিবেচনা করা − ক্লাস্টারিং একটি অপ্টিমাইজেশান সমস্যা হিসাবে বিবেচিত হয়:বিন্দুগুলিকে একটি পদ্ধতিতে ক্লাস্টারগুলিতে বিভক্ত করুন যা একটি ব্যবহারকারী-সংজ্ঞায়িত উদ্দেশ্য ফাংশন দ্বারা গণনা করা ক্লাস্টারগুলির ফলাফলের উদারতাকে সর্বাধিক করে তোলে৷

উদাহরণস্বরূপ, K- মানে ক্লাস্টারিং অ্যালগরিদম ক্লাস্টারগুলির সেট আবিষ্কার করার চেষ্টা করে যা তার নিকটতম ক্লাস্টার সেন্ট্রোয়েড থেকে প্রতিটি বিন্দুর মোট বর্গ দূরত্বকে কম করে। কিছু সম্ভাব্য সেট গুচ্ছ গণনা করে এবং উদ্দেশ্য ফাংশনের উচ্চতর মান সহ একটি বেছে নেওয়ার মাধ্যমে এই ধরনের সমস্যাগুলি সমাধান করা যেতে পারে, তবে এই সম্পূর্ণ পদ্ধতিটি গণনাগতভাবে অযৌক্তিক৷