ডেটা মাইনিংয়ে ক্লাস্টারিংয়ের প্রয়োজনীয়তাগুলি কী কী?

ডেটা মাইনিংয়ে ক্লাস্টারিংয়ের নিম্নলিখিত প্রয়োজনীয়তা রয়েছে যা নিম্নরূপ -

মাপযোগ্যতা − কিছু ক্লাস্টারিং অ্যালগরিদম ছোট ডেটা সেটে ভাল কাজ করে যার মধ্যে কয়েকশোরও কম ডেটা অবজেক্ট রয়েছে। একটি বিশাল ডাটাবেস লক্ষ লক্ষ বস্তু অন্তর্ভুক্ত করতে পারে। প্রদত্ত বিশাল ডেটা সেটের একটি নমুনাতে ক্লাস্টারিং আংশিক ফলাফলের দিকে নিয়ে যেতে পারে। উচ্চ মাপযোগ্য ক্লাস্টারিং অ্যালগরিদম প্রয়োজন৷

বিভিন্ন ধরনের বৈশিষ্ট্যের সাথে মোকাবিলা করার ক্ষমতা − কিছু অ্যালগরিদম ক্লাস্টার ইন্টারভাল-ভিত্তিক (সংখ্যাসূচক) তথ্যের জন্য ডিজাইন করা হয়েছে। যাইহোক, অ্যাপ্লিকেশনের জন্য বাইনারি, ক্যাটাগরিকাল (নামমাত্র) এবং অর্ডিনাল ডেটা, বা এই ডেটা প্রকারগুলির সংমিশ্রণ সহ বিভিন্ন ধরণের ডেটা ক্লাস্টার করার প্রয়োজন হতে পারে৷

নিশ্চিত আকার সহ ক্লাস্টারের আবিষ্কার − কিছু ক্লাস্টারিং অ্যালগরিদম ইউক্লিডীয় বা ম্যানহাটনের দূরত্ব পরিমাপের উপর নির্ভর করে ক্লাস্টার নির্ধারণ করে। অ্যালগরিদমগুলি যেগুলি এই ধরনের দূরত্বের পরিমাপের উপর নির্ভর করে একই আকার এবং ঘনত্বের সাথে গোলাকার ক্লাস্টারগুলি আবিষ্কার করে। কিন্তু, একটি ক্লাস্টার যেকোনো আকৃতির হতে পারে। এটি এমন অ্যালগরিদমগুলি বিকাশ করা অপরিহার্য যা ইচ্ছাকৃত আকারের ক্লাস্টারগুলিকে চিনতে পারে৷

ইনপুট প্যারামিটার নির্ধারণ করতে ডোমেন জ্ঞানের জন্য ন্যূনতম প্রয়োজনীয়তা - কিছু ক্লাস্টারিং অ্যালগরিদমের জন্য ব্যবহারকারীদের ক্লাস্টার বিশ্লেষণে নির্দিষ্ট পরামিতি ইনপুট করার প্রয়োজন ছিল (কাঙ্খিত ক্লাস্টারের সংখ্যা সহ)। ক্লাস্টারিং ফলাফলগুলি ইনপুট পরামিতিগুলির জন্য একেবারে সংবেদনশীল হতে পারে। প্যারামিটারগুলি সিদ্ধান্ত নেওয়া কঠিন, বিশেষত উচ্চ-মাত্রিক বস্তু সহ ডেটা সেটগুলির জন্য। এটি শুধুমাত্র ব্যবহারকারীদেরই কাজ করে না, এটি নিয়ন্ত্রণ করা কঠিন ক্লাস্টারিংয়ের গুণমানও তৈরি করে৷

কোলাহলপূর্ণ ডেটা মোকাবেলা করার ক্ষমতা - বেশিরভাগ বাস্তব-বিশ্বের ডাটাবেসে বহিরাগত বা অনুপস্থিত, অজানা, বা ভুল তথ্য অন্তর্ভুক্ত। কিছু ক্লাস্টারিং অ্যালগরিদম এই ধরনের ডেটার প্রতি আগ্রহী এবং নিম্নমানের ক্লাস্টার হতে পারে৷

ইনপুট রেকর্ডের ক্রমবর্ধমান ক্লাস্টারিং এবং সংবেদনশীলতা − কিছু ক্লাস্টারিং অ্যালগরিদম বর্তমান ক্লাস্টারিং স্ট্রাকচারে নতুন সন্নিবেশিত তথ্য (অর্থাৎ, ডাটাবেস আপডেট) অন্তর্ভুক্ত করতে পারে না এবং পরিবর্তে, স্ক্র্যাচ থেকে একটি নতুন ক্লাস্টারিং নির্ধারণ করতে হবে।

কিছু ক্লাস্টারিং অ্যালগরিদম ইনপুট রেকর্ডের ক্রম সংবেদনশীল। প্রদত্ত ডেটা অবজেক্টের একটি সেট, অ্যালগরিদম সহ ইনপুট অবজেক্টের উপস্থাপনার ক্রম অনুসারে নাটকীয়ভাবে বিভিন্ন ক্লাস্টারিং ফেরত দিতে পারে। ক্রমবর্ধমান ক্লাস্টারিং অ্যালগরিদম এবং অ্যালগরিদমগুলি বিকাশ করা অত্যাবশ্যক যেগুলি ইনপুটের ক্রম সম্পর্কে সংবেদনশীল নয়৷

উচ্চমাত্রিকতা - একটি ডাটাবেস বা ডেটা গুদাম একাধিক মাত্রা বা বৈশিষ্ট্য অন্তর্ভুক্ত করতে পারে। কিছু ক্লাস্টারিং অ্যালগরিদম নিম্ন-মাত্রিক ডেটা পরিচালনা করতে ভাল, যেখানে মাত্র দুই থেকে তিনটি মাত্রা রয়েছে। তিনটি মাত্রা পর্যন্ত ক্লাস্টারিংয়ের গুণমান নির্ধারণে মানুষের চোখ সবচেয়ে ভালো। এটি হাই-ডাইমেনশনাল স্পেসে ডেটা অবজেক্টের ক্লাস্টার খুঁজে বের করতে ব্যবহার করা হয় জটিল, বিশেষ করে এই ধরনের ডেটা অপর্যাপ্ত এবং অত্যন্ত তির্যক হতে পারে।