কম্পিউটার

ডেটা মাইনিংয়ে ক্লাস্টারের ধরন কী কী?


ক্লাস্টার বিশ্লেষণ এই রেকর্ডের উপর করা বিভিন্ন ব্যবস্থার উপর নির্ভর করে একই রেকর্ডের গ্রুপ বা ক্লাস্টার গঠন করতে ব্যবহৃত হয়। এটি ক্লাস্টারগুলিকে এমনভাবে সংজ্ঞায়িত করতে পারে যা বিশ্লেষণের উদ্দেশ্যের জন্য উপকারী হতে পারে। এই তথ্যটি জ্যোতির্বিদ্যা, প্রত্নতত্ত্ব, চিকিৎসাবিদ্যা, রসায়ন, শিক্ষা, মনোবিজ্ঞান, ভাষাবিজ্ঞান এবং সমাজবিজ্ঞানের মতো বিভিন্ন ক্ষেত্রে ব্যবহার করা হয়েছে।

বিভিন্ন ধরণের ক্লাস্টার রয়েছে যা নিম্নরূপ -

ভালভাবে বিচ্ছিন্ন − একটি ক্লাস্টার হল বস্তুর একটি গ্রুপ যেখানে প্রতিটি উপাদান ক্লাস্টারে নেই এমন কিছু বস্তুর চেয়ে ক্লাস্টারের প্রতিটি উপাদানের কাছাকাছি থাকে। কখনও কখনও একটি থ্রেশহোল্ড সংজ্ঞায়িত করতে পারে যে একটি ক্লাস্টারের সমস্ত বস্তু একে অপরের সাথে পর্যাপ্ত (বা অনুরূপ) হওয়া উচিত। একটি ক্লাস্টারের এই বিবরণটি তখনই প্রয়োজন যখন ডেটাতে প্রাকৃতিক ক্লাস্টারগুলি অন্তর্ভুক্ত থাকে যা একে অপরের থেকে সম্পূর্ণ দূরে থাকে৷

প্রোটোটাইপ-ভিত্তিক − একটি ক্লাস্টার হল বস্তুর একটি গোষ্ঠী যেখানে প্রতিটি বস্তু প্রোটোটাইপের কাছাকাছি যা কিছু একাধিক ক্লাস্টারের প্রোটোটাইপের চেয়ে ক্লাস্টারকে প্রতিনিধিত্ব করে। অবিচ্ছিন্ন বৈশিষ্ট্য সহ একটি ডেটার জন্য, একটি ক্লাস্টারের প্রোটোটাইপ হল একটি সেন্ট্রোয়েড যেমন ক্লাস্টারের বিভিন্ন বিন্দুর গড় (গড়)। যখন একটি সেন্ট্রোয়েড গুরুত্বহীন হয়, যখন রেকর্ডের স্বতন্ত্র বৈশিষ্ট্যগুলি সহ, প্রোটোটাইপটি একটি মেডয়েড হয় যেমন একটি ক্লাস্টারের সাধারণ বিন্দু৷

গ্রাফ-ভিত্তিক − যদি ডেটা একটি গ্রাফ হিসাবে সাধারণ হয়, যেখানে নোডগুলি বস্তু এবং লিঙ্কগুলি বস্তুর মধ্যে সংযোগগুলিকে সংজ্ঞায়িত করে তবে একটি ক্লাস্টারকে একটি সংযুক্ত উপাদান হিসাবে উপস্থাপন করা যেতে পারে; অর্থাত্, বস্তুর একটি সেট যা একে অপরের সাথে সংযুক্ত, কিন্তু গোষ্ঠীর দূরবর্তী বস্তুর সাথে এর কোনো সংযোগ নেই।

গ্রাফ-ভিত্তিক ক্লাস্টারগুলির গুরুত্বপূর্ণ উদাহরণগুলি হল সংলগ্নতা-ভিত্তিক ক্লাস্টার, যেখানে দুটি বস্তু একে অপরের একটি নির্দিষ্ট দূরত্বের মধ্যে থাকলেই সংযুক্ত থাকে। এটি নির্দেশ করে যে একটি সংলগ্নতা-ভিত্তিক ক্লাস্টারের প্রতিটি বস্তু একাধিক ক্লাস্টারের কিছু পয়েন্টের চেয়ে ক্লাস্টারের একাধিক বস্তুর কাছাকাছি।

ঘনত্ব-ভিত্তিক পদ্ধতি - কিছু বিভাজন কৌশল অবজেক্টের মধ্যে দূরত্বের উপর নির্ভর করে ক্লাস্টার অবজেক্ট করে। এই ধরনের পদ্ধতিগুলি শুধুমাত্র গোলাকার-আকৃতির ক্লাস্টারগুলি আবিষ্কার করতে পারে এবং নির্বিচারে আকারের ক্লাস্টারগুলি আবিষ্কার করতে অসুবিধার সম্মুখীন হতে পারে। ঘনত্বের ধারণার উপর নির্ভর করে একাধিক ক্লাস্টারিং পদ্ধতি তৈরি করা হয়েছে।

DBSCAN একটি ঘনত্ব-ভিত্তিক পদ্ধতি যা ঘনত্বের থ্রেশহোল্ড অনুযায়ী ক্লাস্টারগুলিকে বৃদ্ধি করে। OPTICS হল একটি ঘনত্ব-ভিত্তিক পদ্ধতি যা স্বয়ংক্রিয় এবং পারস্পরিক ক্লাস্টার বিশ্লেষণের জন্য একটি বর্ধিত ক্লাস্টারিং ক্রম গণনা করে৷

গ্রিড-ভিত্তিক পদ্ধতি − গ্রিড-ভিত্তিক পদ্ধতি বস্তুর ক্ষেত্রফলকে সীমিত একাধিক কোষে পরিমাপ করে যা একটি গ্রিড গঠন তৈরি করে। গ্রিড কাঠামোতে (অর্থাৎ, পরিমাপকৃত স্থানের উপর) বেশ কয়েকটি ক্লাস্টারিং পরিষেবা প্রয়োগ করা হয়।

এই পদ্ধতির সুবিধা হল এর দ্রুত প্রক্রিয়াকরণের সময় যা ঘন ঘন একাধিক ডেটা অবজেক্ট থেকে স্বাধীন এবং শুধুমাত্র কোয়ান্টাইজড স্পেসের প্রতিটি মাত্রার একাধিক কোষের উপর ভিত্তি করে।


  1. ডেটা মাইনিং ইন্টারফেস কি?

  2. মাইনিং সিকোয়েন্স ডেটার প্রকারগুলি কী কী?

  3. ডেটা মাইনিংয়ে আউটলায়ারের ধরন কী কী?

  4. ডেটা ইন্টিগ্রিটি কত প্রকার?