K- মানে
K- মানে ক্লাস্টারিং হল পার্টিশনিং অ্যালগরিদম। কে-মানে ডেটাসেটের প্রতিটি ডেটাকে শুধুমাত্র একটি নতুন ক্লাস্টারে পুনরায় তৈরি করে। দূরত্ব বা সাদৃশ্যের পরিমাপ ব্যবহার করে একটি ডেটা বা ডেটা পয়েন্ট সন্নিহিত ক্লাস্টারে বরাদ্দ করা হয়।
কে-অর্থে, একটি বস্তু নিকটতম কেন্দ্রে উত্পন্ন হয়। এটি ক্যান্ট-লিঙ্ক সীমাবদ্ধতাগুলিকে সংজ্ঞায়িত করতে পারে এবং এটি কেন্দ্রের অ্যাসাইনমেন্ট প্রক্রিয়াটিকে k-মানে সবচেয়ে কাছের প্রযোজ্য কেন্দ্র অ্যাসাইনমেন্টে পরিবর্তন করে৷
যখন বস্তুগুলিকে কেন্দ্রে ক্রমানুসারে তৈরি করা হয়, তখন প্রতিটি ধাপে এটি এখনও পর্যন্ত অ্যাসাইনমেন্টগুলি প্রদান করতে পারে যা কিছু লিঙ্ক-সংযুক্ত সীমাবদ্ধতাগুলিকে বিশৃঙ্খল করে না। একটি বস্তু নিকটতম কেন্দ্রে তৈরি করা হয় তাই অ্যাসাইনমেন্ট কিছু লিঙ্ক করতে পারে না এমন বাধাকে সম্মান করে।
DBSCAN
DBSCAN নয়েজ সহ অ্যাপ্লিকেশনের ঘনত্ব-ভিত্তিক স্থানিক ক্লাস্টারিং প্রতিনিধিত্ব করে। এটি একটি ঘনত্ব-ভিত্তিক ক্লাস্টারিং অ্যালগরিদম। অ্যালগরিদম পর্যাপ্ত উচ্চ ঘনত্ব সহ অঞ্চলগুলিকে ক্লাস্টারে উন্নত করে এবং আওয়াজ সহ স্থানিক ডাটাবেসে নির্বিচারে কাঠামোর ক্লাস্টারগুলি আবিষ্কার করে। এটি একটি ক্লাস্টারকে ঘনত্ব-সংযুক্ত পয়েন্টের সর্বাধিক সেট হিসাবে সংজ্ঞায়িত করে৷
একটি ঘনত্ব-ভিত্তিক ক্লাস্টার হল ঘনত্ব-সংযুক্ত বস্তুর একটি সেট যা ঘনত্ব-নাগালযোগ্যতার ক্ষেত্রে সর্বাধিক। কোনো কোনো ক্লাস্টারে নেই এমন প্রতিটি বস্তুকে শব্দ বলে মনে করা হয়।
DBSCAN ডাটাবেসের প্রতিটি পয়েন্টের ε-প্রতিবেশী চেক করে ক্লাস্টারগুলির জন্য পরীক্ষা করে। যদি একটি বিন্দু p-এর ε-প্রতিবেশীতে MinPts-এর থেকে বেশি থাকে, তাহলে মূল উপাদান হিসাবে p সহ একটি নতুন ক্লাস্টার তৈরি হয়। DBSCAN পুনরাবৃত্তভাবে এই অপরিহার্য উপাদান থেকে সুনির্দিষ্টভাবে ঘনত্ব-নাগালযোগ্য বস্তুগুলিকে একত্রিত করে, যার মধ্যে কয়েকটি ঘনত্ব-নাগালযোগ্য ক্লাস্টারের একত্রীকরণ অন্তর্ভুক্ত থাকতে পারে। কোনো ক্লাস্টারে কোনো নতুন পয়েন্ট যোগ করা না গেলে প্রক্রিয়াটি শেষ হয়ে যায়।
আসুন K-Means এবং DBSCAN-এর মধ্যে তুলনা দেখি।
K- মানে | DBSCAN |
---|---|
K- মানে সাধারণত সমস্ত বস্তুকে ক্লাস্টার করে। | DBSCAN সেই বস্তুগুলিকে বাতিল করে যা এটি শব্দ হিসাবে সংজ্ঞায়িত করে। |
কে-মানে ক্লাস্টারের প্রোটোটাইপ-ভিত্তিক ধারণা প্রয়োজন। | DBSCAN-এর একটি ঘনত্ব-ভিত্তিক ধারণা প্রয়োজন। |
কে-মানে নন-গ্লোবুলার ক্লাস্টার এবং একাধিক আকারের ক্লাস্টার নিয়ে অসুবিধা হয়। | DBSCAN একাধিক আকার এবং কাঠামোর ক্লাস্টারগুলি পরিচালনা করতে ব্যবহৃত হয় এবং এটি শক্তিশালীভাবে শব্দ বা বহিরাগত দ্বারা প্রভাবিত হয় না। |
কে-মান এমন ডেটার জন্য ব্যবহার করা যেতে পারে যেগুলির একটি পরিষ্কার সেন্ট্রোয়েড রয়েছে, যার মধ্যে একটি গড় বা মধ্যক রয়েছে৷ | DBSCAN এর ঘনত্বের সংজ্ঞা, যা ঘনত্বের ঐতিহ্যগত ইউক্লিডীয় ধারণার উপর নির্ভর করে, ডেটার জন্য তাৎপর্যপূর্ণ হওয়া প্রয়োজন। |
কে-মানে ফাইল ডেটা সহ স্পার্স, উচ্চমাত্রিক ডেটা ব্যবহার করা যেতে পারে। | DBSCAN সাধারণত এই ধরনের তথ্যের জন্য খারাপভাবে প্রয়োগ করে কারণ ঘনত্বের ঐতিহ্যগত ইউক্লিডীয় সংজ্ঞা উচ্চমাত্রিক ডেটার জন্য ভালভাবে কাজ করে না। |
মৌলিক K-মান অ্যালগরিদম একটি পরিসংখ্যানগত ক্লাস্টারিং পদ্ধতির (মিশ্রণ মডেল) অনুরূপ যা বিবেচনা করে যে সমস্ত ক্লাস্টারগুলি গোলাকার গাউসিয়ান ডিস্ট্রিবিউশন থেকে এসেছে বিভিন্ন উপায়ে কিন্তু সমান কোভেরিয়েন্স ম্যাট্রিক্স। | ডিআইস্ক্যান রেকর্ডের বন্টন সম্পর্কে কোন অনুমান তৈরি করে না। |