মডেল-ভিত্তিক ক্লাস্টারিং হল ডেটা ক্লাস্টারিংয়ের একটি পরিসংখ্যানগত পদ্ধতি। পর্যবেক্ষিত (মাল্টিভেরিয়েট) ডেটা উপাদান মডেলের একটি সীমিত সমন্বয় থেকে তৈরি করা হয়েছে বলে মনে করা হয়। প্রতিটি কম্পোনেন্ট মডেল হল একটি সম্ভাব্যতা বন্টন, সাধারণত একটি প্যারামেট্রিক মাল্টিভেরিয়েট ডিস্ট্রিবিউশন।
উদাহরণস্বরূপ, একটি মাল্টিভেরিয়েট গাউসিয়ান মিশ্রণ মডেলে, প্রতিটি উপাদান একটি মাল্টিভেরিয়েট গাউসিয়ান ডিস্ট্রিবিউশন। একটি নির্দিষ্ট পর্যবেক্ষণ তৈরি করার জন্য দায়ী উপাদানটি পর্যবেক্ষণটি কোন ক্লাস্টারের সাথে সম্পর্কিত তা নির্ধারণ করে।
মডেল-ভিত্তিক ক্লাস্টারিং হল প্রদত্ত ডেটা এবং কিছু গাণিতিক মডেলের মধ্যে মানানসই করার একটি প্রচেষ্টা এবং এটি এই ধারণার উপর ভিত্তি করে যে ডেটা একটি মৌলিক সম্ভাব্যতা বিতরণের সংমিশ্রণ দ্বারা তৈরি করা হয়েছে।
নিম্নলিখিত ধরণের মডেল-ভিত্তিক ক্লাস্টারিং রয়েছে -
পরিসংখ্যানগত পদ্ধতি - প্রত্যাশা সর্বাধিকীকরণ একটি জনপ্রিয় পুনরাবৃত্তিমূলক পরিমার্জন অ্যালগরিদম। k-এর একটি এক্সটেনশন মানে −
-
এটি ওজন (সম্ভাব্যতা বিতরণ) অনুযায়ী প্রতিটি বস্তুকে একটি ক্লাস্টারে বরাদ্দ করতে পারে।
-
নতুন উপায়গুলি ওজন পরিমাপের উপর ভিত্তি করে গণনা করা হয়৷
মৌলিক ধারণা নিম্নরূপ -
-
এটি প্যারামিটার ভেক্টরের প্রাথমিক অনুমান দিয়ে শুরু করতে পারে।
-
এটি প্যারামিটার ভেক্টর দ্বারা তৈরি মিশ্রণের ঘনত্বের বিপরীতে ডিজাইনগুলি পুনরুদ্ধার করতে ব্যবহার করা যেতে পারে৷
-
এটি পুনরুদ্ধার করা প্যাটার্ন ব্যবহার করা হয় পরামিতি অনুমান আপডেট করতে ব্যবহৃত হয়।
-
এটি একই ক্লাস্টারের প্যাটার্নে ব্যবহার করা যেতে পারে যদি সেগুলিকে একটি নির্দিষ্ট উপাদানে তাদের স্কোর দ্বারা স্থাপন করা হয়।
অ্যালগরিদম
-
প্রাথমিকভাবে, এলোমেলোভাবে k ক্লাস্টার কেন্দ্রগুলি বরাদ্দ করুন।
-
এটি পুনরাবৃত্তিমূলকভাবে দুটি ধাপের ভিত্তিতে ক্লাস্টারগুলিকে পরিমার্জিত করা যেতে পারে -
প্রত্যাশিত পদক্ষেপ - এটি প্রতিটি ডেটা পয়েন্ট Xi নির্ধারণ করতে পারে Ci ক্লাস্টারে নিম্নলিখিত সম্ভাব্যতা সহ
$$\mathrm{P(X_{i}\in\:C_{k})\:=\:P(C_k\arrowvert\:X_i)\:=\:\frac{P(C_k)P(X_i\ arrowvert\:C_k)}{P(X_i)}}$$
সর্বোচ্চকরণের ধাপ - এটি মডেল প্যারামিটার অনুমান করতে ব্যবহার করা যেতে পারে
$$\mathrm{m_k\:=\:\frac{1}{N}\displaystyle\sum\limits_{i=1}^N \frac{X_{i}P(X_i\:\in\:C_k) }{X_{j}P(X_i)\in\:C_j}}$$
মেশিন লার্নিং পদ্ধতি − মেশিন লার্নিং এমন একটি পদ্ধতি যা বিশাল ডেটা প্রসেসিংয়ের জন্য জটিল অ্যালগরিদম তৈরি করে এবং এর ব্যবহারকারীদের ফলাফল সমর্থন করে। এটি জটিল প্রোগ্রামগুলি ব্যবহার করে যা অভিজ্ঞতার মাধ্যমে বুঝতে পারে এবং ভবিষ্যদ্বাণী তৈরি করতে পারে৷
প্রশিক্ষণ তথ্যের ঘন ঘন ইনপুট দ্বারা অ্যালগরিদমগুলি নিজেরাই উন্নত হয়। মেশিন লার্নিং এর মূল উদ্দেশ্য হল ডেটা শেখা এবং ডেটা থেকে মডেল তৈরি করা যা মানুষ বুঝতে এবং ব্যবহার করতে পারে।
এটি ক্রমবর্ধমান ধারণাগত শিক্ষার একটি বিখ্যাত পদ্ধতি, যা একটি শ্রেণিবিন্যাস গাছের আকারে একটি শ্রেণিবদ্ধ ক্লাস্টারিং তৈরি করে। প্রতিটি নোড একটি ধারণাকে সংজ্ঞায়িত করে এবং সেই ধারণাটির একটি সম্ভাব্য উপস্থাপনা অন্তর্ভুক্ত করে৷
সীমাবদ্ধতা
-
অনুমান যে বৈশিষ্ট্যগুলি একে অপরের থেকে স্বাধীন তা প্রায়শই খুব শক্তিশালী কারণ পারস্পরিক সম্পর্ক থাকতে পারে।
-
এটি বৃহৎ ডাটাবেস ডেটা, তির্যক গাছ এবং ব্যয়বহুল সম্ভাব্যতা বিতরণের জন্য উপযুক্ত নয়৷
নিউরাল নেটওয়ার্ক অ্যাপ্রোচ - নিউরাল নেটওয়ার্ক পদ্ধতি প্রতিটি ক্লাস্টারকে একটি উদাহরণ হিসাবে উপস্থাপন করে, ক্লাস্টারের একটি প্রোটোটাইপ হিসাবে কাজ করে। নতুন অবজেক্টগুলি ক্লাস্টারে বিতরণ করা হয় যার উদাহরণ কিছু দূরত্ব পরিমাপ অনুসারে সবচেয়ে অনুরূপ৷