কম্পিউটার

স্থানিক ডেটা মাইনিংয়ের জন্য ক্লাস্টারিং পদ্ধতিগুলি কী কী?


ক্লাস্টার বিশ্লেষণ হল পরিসংখ্যানের একটি শাখা যা বেশ কয়েক বছর ধরে ব্যাপকভাবে অধ্যয়ন করা হয়েছে। এই কৌশলটি ব্যবহার করার সুবিধা হল যে আকর্ষণীয় কাঠামো বা ক্লাস্টারগুলি কোনও পটভূমি জ্ঞান ব্যবহার না করে সরাসরি ডেটা থেকে আবিষ্কার করা যেতে পারে, যেমন ধারণা শ্রেণিবিন্যাস।

পরিসংখ্যানে ব্যবহৃত ক্লাস্টারিং অ্যালগরিদমগুলি, যেমন PAM বা CLARA, গণনাগত জটিলতার দৃষ্টিকোণ থেকে অদক্ষ বলে রিপোর্ট করা হয়। দক্ষতার উদ্বেগ অনুসারে, ক্লাস্টার বিশ্লেষণের জন্য CLARANS (এলোমেলো অনুসন্ধানের উপর ভিত্তি করে ক্লাস্টারিং লার্জ অ্যাপ্লিকেশন) নামে একটি নতুন অ্যালগরিদম তৈরি করা হয়েছিল৷

PAM (Medoids এর চারপাশে বিভাজন) − এটা অনুমান করা হচ্ছে যে সেখানে n অবজেক্ট আছে, PAM প্রথমে প্রতিটি ক্লাস্টারের জন্য একটি প্রতিনিধি বস্তু খুঁজে বের করে k ক্লাস্টার খুঁজে পায়। এই ধরনের প্রতিনিধি, যা একটি ক্লাস্টারের কেন্দ্রে অবস্থিত বিন্দু, তাকে মেডয়েড বলা হয়।

কে মেডয়েড বেছে নেওয়ার পর, অ্যালগরিদম বারবার চেষ্টা করে মেডয়েডের সেরা পছন্দ তৈরি করার জন্য সমস্ত সম্ভাব্য জোড়া বস্তুর বিশ্লেষণ করে যাতে একটি বস্তু একটি মেডয়েড এবং অন্যটি নয়। ক্লাস্টারিং মানের পরিমাপ এই ধরনের প্রতিটি সংমিশ্রণের জন্য গণনা করা হয়।

একটি পুনরাবৃত্তিতে পয়েন্টের ভাল পছন্দ নিম্নলিখিত পুনরাবৃত্তির জন্য মেডয়েড হিসাবে নির্বাচিত হয়। একটি একক পুনরাবৃত্তির মূল্য হল O(k(n−k) 2 ) তাই n এবং k এর বড় মানের জন্য এটি গণনাগতভাবে বেশ অদক্ষ।

CLARA (ক্লাস্টারিং বড় অ্যাপ্লিকেশন) − PAM এবং CLARA অ্যালগরিদমগুলির মধ্যে পার্থক্য হল যে নিম্নলিখিতটি নমুনার উপর ভিত্তি করে। প্রকৃত ডেটার শুধুমাত্র একটি ছোট এলাকা ডেটার প্রতিনিধি হিসাবে বেছে নেওয়া হয় এবং PAM ব্যবহার করে এই নমুনা থেকে মেডয়েডগুলি বেছে নেওয়া হয়৷

ধারণাটি হল যে যদি নমুনাটি মোটামুটি র্যান্ডম পদ্ধতিতে নির্বাচন করা হয়, তাহলে এটি সঠিকভাবে সমগ্র ডেটাসেটকে উপস্থাপন করে এবং তাই, নির্বাচিত প্রতিনিধি বস্তুগুলি (মেডয়েড) পুরো ডেটাসেট থেকে নির্বাচিত হওয়ার মতোই হবে৷

CLARA বেশ কয়েকটি নমুনা আঁকে এবং এই নমুনাগুলির মধ্যে ভাল ক্লাস্টারিং আউটপুট করে। CLARA PAM এর চেয়ে উচ্চতর ডেটাসেটের সাথে মোকাবিলা করতে পারে। প্রতিটি পুনরাবৃত্তির জটিলতা এখন O(kS 2 ) হয়ে যায় +k(n−k)), যেখানে S হল নমুনার আকার।

CLARANS (র্যান্ডমাইজড অনুসন্ধানের উপর ভিত্তি করে বড় অ্যাপ্লিকেশনগুলিকে ক্লাস্টার করা) − CLARANS অ্যালগরিদম শুধুমাত্র ডেটাসেটের উপসেট অনুসন্ধান করে PAM এবং CLARA উভয়কেই একত্রিত করে এবং এটি কোনো নির্দিষ্ট সময়ে কিছু নমুনায় নিজেকে সীমাবদ্ধ করে না। যদিও CLARA-এর অনুসন্ধানের প্রতিটি পর্যায়ে একটি ধ্রুবক নমুনা থাকে, CLARANS অনুসন্ধানের প্রতিটি পর্যায়ে কিছুটা এলোমেলোতার সাথে একটি নমুনা আঁকে।

ক্লাস্টারিং ফেজ একটি গ্রাফ অনুসন্ধান হিসাবে উপস্থাপন করা যেতে পারে যেখানে প্রতিটি নোড একটি সম্ভাব্য সমাধান, যেমন, কে মেডয়েডের একটি সেট। একটি একক মেডয়েড প্রতিস্থাপন করার পরে প্রাপ্ত ক্লাস্টারিংকে বর্তমান ক্লাস্টারিংয়ের প্রতিবেশী বলা হয়।


  1. সীমাবদ্ধতার সাথে ক্লাস্টার করার পদ্ধতিগুলি কী কী?

  2. গোপনীয়তা-সংরক্ষণের ডেটা মাইনিংয়ের পদ্ধতিগুলি কী কী?

  3. সুপারিশকারী সিস্টেমের জন্য ডেটা মাইনিং পদ্ধতিগুলি কী কী?

  4. অনুপ্রবেশ সনাক্তকরণ এবং প্রতিরোধের জন্য ডেটা মাইনিংয়ের পদ্ধতিগুলি কী কী?