কম্পিউটার

বড় ডেটা সেটে k-medoids অ্যালগরিদম কতটা কার্যকর?


PAM-এর মতো একটি ক্লাসিক k-medoids পার্টিশনিং অ্যালগরিদম ছোট ডেটা সেটের জন্য দক্ষতার সাথে কাজ করে কিন্তু বিশাল ডেটা সেটের জন্য ভালোভাবে স্কেল করে না। এটি উচ্চতর ডেটা সেটগুলির সাথে মোকাবিলা করতে পারে, একটি নমুনা-ভিত্তিক পদ্ধতি, যা CLARA (ক্লাস্টারিং লার্জ অ্যাপ্লিকেশন) নামে পরিচিত, ব্যবহার করা যেতে পারে৷

CLARA এর পিছনের পদ্ধতিটি নিম্নরূপ:যদি নমুনাটি মোটামুটি র্যান্ডম পদ্ধতিতে বেছে নেওয়া হয়, তবে এটি অবশ্যই মূল ডেটা সেটটিকে ঘনিষ্ঠভাবে সংজ্ঞায়িত করবে। নির্বাচিত প্রতিনিধি বস্তুগুলি (মেডয়েড) সম্পূর্ণ ডেটা সেট থেকে নির্বাচিত হওয়াগুলির মতোই হবে৷ CLARA ডেটা সেটের বেশ কয়েকটি নমুনা আঁকে, প্রতিটি নমুনায় PAM প্রয়োগ করে এবং আউটপুট হিসাবে তার সেরা ক্লাস্টারিং প্রদান করে।

CLARA এর কর্মক্ষমতা নমুনা আকারের উপর ভিত্তি করে। এটি দেখা যায় যে PAM একটি প্রদত্ত ডেটা সেটের মধ্যে সেরা কে মেডয়েডগুলি অনুসন্ধান করে, যেখানে CLARA ডেটা সেটের নির্বাচিত নমুনার মধ্যে সেরা k মেডয়েডগুলি অনুসন্ধান করে৷ একটি k-medoids টাইপ অ্যালগরিদম যা CLARANS নামে পরিচিত (ক্লস্টারিং বড় অ্যাপ্লিকেশনগুলি র‍্যান্ডমাইজড অনুসন্ধানের উপর নির্ভর করে) প্রস্তাব করা হয়েছিল। এটি PAM এর সাথে স্যাম্পলিং পদ্ধতি সংযুক্ত করতে পারে। অনুসন্ধানের প্রতিটি পর্যায়ে CLARA এর একটি নির্দিষ্ট নমুনা থাকলেও, CLARANS অনুসন্ধানের প্রতিটি পর্যায়ে কিছুটা এলোমেলোতার সাথে একটি নমুনা আঁকে।

ক্লাস্টারিং পদ্ধতিটিকে একটি গ্রাফের মাধ্যমে অনুসন্ধান হিসাবে দেখা যেতে পারে, যেখানে প্রতিটি নোড একটি সম্ভাব্য সমাধান (কে মেডয়েডের একটি সেট)। দুটি নোড প্রতিবেশী (বিশেষত, গ্রাফে একটি চাপ দ্বারা সংযুক্ত) যদি তাদের সেটগুলি শুধুমাত্র একটি বস্তু দ্বারা পৃথক হয়। প্রতিটি নোডকে একটি খরচ বরাদ্দ করা যেতে পারে যা প্রতিটি বস্তু এবং তার ক্লাস্টারের মেডয়েডের মধ্যে মোট বৈষম্য দ্বারা প্রতিনিধিত্ব করা হয়৷

প্রতিটি ধাপে, PAM একটি ন্যূনতম খরচ সমাধানের জন্য তার অনুসন্ধানে সর্বশেষ নোডের সমস্ত প্রতিবেশী নির্ধারণ করে। সর্বশেষ নোড তারপর প্রতিবেশী দ্বারা প্রতিস্থাপিত হয় খরচের বিশাল বংশদ্ভুত। যেহেতু CLARA পুরো ডেটা সেটের একটি নমুনার উপর কাজ করে, এটি কম প্রতিবেশী নির্ধারণ করে এবং প্রাথমিক গ্রাফের চেয়ে ছোট সাবগ্রাফগুলিতে অনুসন্ধানকে সীমাবদ্ধ করে৷

CLARANS পরীক্ষামূলকভাবে PAM এবং CLARA উভয়ের চেয়ে বেশি দক্ষ বলে দেখানো হয়েছে। এটি একটি সিলুয়েট সহগ ব্যবহার করে ক্লাস্টারের সর্বাধিক "প্রাকৃতিক" সংখ্যা আবিষ্কার করতে ব্যবহার করা যেতে পারে একটি বস্তুর একটি বৈশিষ্ট্য যা নির্ধারণ করে যে বস্তুটি ক্লাস্টারে কতটা প্রযোজ্য। CLARANS এছাড়াও বহিরাগতদের আবিষ্কারের অনুমতি দেয়।

CLARANS-এর গণনাগত জটিলতা হল O(n 2 ) ) যেখানে n হল বস্তুর সংখ্যা। অধিকন্তু, এর ক্লাস্টারিং গুণমান ব্যবহৃত নমুনা পদ্ধতির উপর ভিত্তি করে। ডিস্কে থাকা ডেটা অবজেক্টগুলির সাথে পরিচালনা করার জন্য CLARANS-এর ক্ষমতা R*-trees সহ স্থানিক ডেটা স্ট্রাকচারগুলি অন্বেষণ করে এমন পদ্ধতিগুলিতে ফোকাস করে আরও উন্নত করা যেতে পারে।


  1. ডেটা স্ট্রাকচারে B+ গাছ

  2. YouTube অ্যালগরিদম কীভাবে কাজ করে?

  3. কিভাবে এক্সেলে বড় ডেটা সেট বিশ্লেষণ করবেন (6টি কার্যকরী পদ্ধতি)

  4. কিভাবে নিখুঁত ডেটা ব্যাকআপ প্ল্যান চয়ন করবেন