কম্পিউটার

ডকুমেন্ট ক্লাস্টারিং বিশ্লেষণ কি?


ডকুমেন্ট ক্লাস্টারিং হল একটি অত্যাধুনিক পদ্ধতিতে ফাইলগুলিকে সংগঠিত করার জন্য গুরুত্বপূর্ণ কৌশল। যখন নথিগুলিকে শব্দ ভেক্টর হিসাবে উপস্থাপন করা হয়, তখন ক্লাস্টারিং পদ্ধতিগুলি প্রয়োগ করা যেতে পারে। নথির স্থানটি ক্রমাগত বড় মাত্রার, বিভিন্ন শত থেকে হাজার হাজার পর্যন্ত।

মাত্রিকতার অভিশাপের কারণে, নথিগুলিকে প্রথমে একটি নিম্নমাত্রিক সাবস্পেসে প্রজেক্ট করা অর্থপূর্ণ হয় যেখানে নথির স্থানের শব্দার্থিক কাঠামো স্পষ্ট হয়ে যায়। নিম্ন-মাত্রিক শব্দার্থিক এলাকায়, ঐতিহ্যগত ক্লাস্টারিং অ্যালগরিদম ব্যবহার করা যেতে পারে।

ডকুমেন্ট ক্লাস্টারিং বিশ্লেষণের বিভিন্ন পদ্ধতি রয়েছে যা নিম্নরূপ -

স্পেকট্রাল ক্লাস্টারিং − বর্ণালী ক্লাস্টারিং পদ্ধতিটি প্রথমে মূল ডেটাতে বর্ণালী এম্বেডিং (মাত্রিকতা হ্রাস) সঞ্চালন করে এবং তারপরে প্রথাগত ক্লাস্টারিং অ্যালগরিদম (যেমন, কে-মিন্স) হ্রাসকৃত নথির জায়গায় প্রয়োগ করে৷

এটি বর্ণালী ক্লাস্টারিং-এ কাজ করতে পারে যা অত্যন্ত ননলিনিয়ার ডেটা পরিচালনা করার ক্ষমতা দেখায় (প্রতিটি স্থানীয় এলাকায় ডেটা স্থানের উচ্চ বক্রতা রয়েছে)। ডিফারেনশিয়াল জ্যামিতির সাথে এর শক্তিশালী লিঙ্কগুলি এটিকে ফাইল স্পেসের বহুবিধ আর্কিটেকচার খুঁজে পেতে সক্ষম করে তোলে৷

এই বর্ণালী ক্লাস্টারিং অ্যালগরিদমগুলির সীমাবদ্ধতা অরৈখিক এম্বেডিং (মাত্রিকতা হ্রাস) ব্যবহার করতে পারে, যা শুধুমাত্র "প্রশিক্ষণ" ডেটাতে উপস্থাপিত হয়। এমবেডিং বুঝতে তাদের কিছু ডেটা পয়েন্ট ব্যবহার করতে হবে। যখন ডেটা সেটটি বিশাল হয়, তখন এই ধরনের এমবেডিং বোঝা গণনাগতভাবে ব্যয়বহুল। এটি উচ্চ ডেটা সেটগুলিতে বর্ণালী ক্লাস্টারিংয়ের সফ্টওয়্যারকে সীমাবদ্ধ করে।

মিশ্রণের মডেল − মিশ্রণ মডেল ক্লাস্টারিং পদ্ধতি একটি মিশ্রণ মডেলের সাথে পাঠ্য ডেটার মডেল করে, প্রায়শই বহুপদ উপাদানের মডেল জড়িত থাকে। ক্লাস্টারিং-এ নিম্নলিখিত হিসাবে দুটি ধাপ জড়িত -

এটি পাঠ্য ডেটা এবং কোনো অতিরিক্ত পূর্ব জ্ঞানের উপর ভিত্তি করে মডেল প্যারামিটারগুলি অনুমান করতে পারে৷

এটি আনুমানিক মডেল পরামিতিগুলির উপর ভিত্তি করে ক্লাস্টারগুলি অনুমান করতে পারে। এটি নির্ভর করে কিভাবে মিশ্রণ মডেল সংজ্ঞায়িত করা হয়, এই পদ্ধতিগুলি একই সময়ে শব্দ এবং নথি গুচ্ছ করতে পারে।

সম্ভাব্য সুপ্ত শব্দার্থ বিশ্লেষণ (PLSA) এবং সুপ্ত ডিরিচলেট বরাদ্দ (LDA) এই ধরনের পদ্ধতির দুটি উদাহরণ। ক্লাস্টারিং পদ্ধতির সুবিধা হল ফাইলগুলির তুলনামূলক বিশ্লেষণ সমর্থন করার জন্য ক্লাস্টারগুলি ডিজাইন করা যেতে পারে৷

সুপ্ত শব্দার্থ সূচক (LSI) এবং স্থানীয়তা সংরক্ষণ সূচক (LPI) পদ্ধতি হল রৈখিক মাত্রা হ্রাস পদ্ধতি। এটি LSI এবং LPI তে রূপান্তর ভেক্টর (এম্বেডিং ফাংশন) অর্জন করতে ব্যবহৃত হয়। এই ধরনের এমবেডিং ফাংশন সব জায়গায় প্রতিনিধিত্ব করা হয়; এইভাবে, এটি এম্বেডিং ফাংশন বোঝার জন্য ডেটার উপাদান ব্যবহার করতে পারে এবং কিছু ডেটা নিম্ন-মাত্রিক স্থানে এম্বেড করতে পারে।

LSI-এর লক্ষ্য হল বিশ্বব্যাপী পুনর্গঠনের ত্রুটি কমানোর অর্থে মূল নথিস্থানের সর্বোত্তম সাবস্পেস আনুমানিকতা খুঁজে বের করা। অন্য কথায়, LSI নথির প্রতিনিধিত্বের জন্য সবচেয়ে বৈষম্যমূলক বৈশিষ্ট্যগুলির পরিবর্তে সর্বাধিক প্রতিনিধিত্বমূলক বৈশিষ্ট্যগুলি উন্মোচন করতে চায়। তাই, LSI বিভিন্ন শব্দার্থবিদ্যার সাথে বৈষম্যমূলক নথিতে সর্বোত্তম নাও হতে পারে, যা ক্লাস্টারিংয়ের চূড়ান্ত লক্ষ্য।


  1. মাল্টি-রিলেশনাল ক্লাস্টারিং কি?

  2. মার্কেট বাস্কেট বিশ্লেষণ কি?

  3. STING গ্রিড-ভিত্তিক ক্লাস্টারিং কি?

  4. মডেল-ভিত্তিক ক্লাস্টারিং কি?