সাদৃশ্য ব্যবস্থাগুলি এমন কাঠামো প্রদান করে যার উপর ভিত্তি করে কিছু ডেটা মাইনিং সিদ্ধান্ত নেওয়া হয়। শ্রেণীবিভাগ এবং ক্লাস্টারিং সহ কাজগুলি সাধারণত কিছু সাদৃশ্য পরিমাপের অস্তিত্ব বিবেচনা করে, যখন সাদৃশ্য মূল্যায়নের দুর্বল কৌশল সহ ক্ষেত্রগুলি প্রায়শই খুঁজে পায় যে তথ্য অনুসন্ধান করা একটি জটিল কাজ৷
সাদৃশ্য পরিমাপের বেশ কয়েকটি প্রয়োগ রয়েছে যা নিম্নরূপ -
তথ্য পুনরুদ্ধার - তথ্য পুনরুদ্ধার (IR) সিস্টেমের লক্ষ্য হল ব্যবহারকারীর চাহিদা মেটানো। অন্য শর্তে, একটি প্রয়োজন সাধারণত অনলাইনে কিছু সার্চ ইঞ্জিনের টেক্সট বক্সে প্রবর্তিত একটি সংক্ষিপ্ত পাঠ্য প্রশ্নের আকারে প্রকাশ পায়। আইআর সিস্টেমগুলি সাধারণত কোনও প্রশ্নের সরাসরি উত্তর দেয় না, পরিবর্তে, তারা রেকর্ডগুলির একটি র্যাঙ্ক করা তালিকা উপস্থাপন করে যা কিছু সাদৃশ্য পরিমাপ দ্বারা সেই প্রশ্নের সাথে প্রাসঙ্গিক বিচার করা হয়৷
যেহেতু সাদৃশ্য পরিমাপগুলি একটি ক্যোয়ারী সম্পর্কিত তথ্য ক্লাস্টারিং এবং শ্রেণীবদ্ধ করার প্রভাব রাখে, ব্যবহারকারীরা সাধারণত তাদের তথ্যের প্রয়োজনের নতুন ব্যাখ্যা খুঁজে পায় যা তাদের অনুসন্ধানের পুনর্নির্মাণ করার সময় তাদের পক্ষে কার্যকর হতে পারে বা নাও হতে পারে৷
সেই ক্ষেত্রে যখন ক্যোয়ারীটি প্রাথমিক সেট থেকে একটি রেকর্ড হয়, সাদৃশ্য পরিমাপগুলি একটি সংগ্রহের মধ্যে রেকর্ডগুলিকে ক্লাস্টার এবং শ্রেণীবদ্ধ করতে ব্যবহার করা যেতে পারে। সংক্ষেপে, সাদৃশ্য পরিমাপ পূর্বে অসংগঠিত সেটগুলিতে একটি প্রাথমিক স্থাপত্য সন্নিবেশ করতে পারে।
অনুপ্রেরণা
IR সিস্টেমে ব্যবহৃত সাদৃশ্য ব্যবস্থা পুরো ডেটা সেট সম্পর্কে একজনের ধারণাকে বিকৃত করতে পারে। উদাহরণস্বরূপ, যদি একজন ব্যবহারকারী একটি অনুসন্ধান ইঞ্জিনে একটি প্রশ্ন টাইপ করে এবং সেরা দশটি ওয়েব পৃষ্ঠায় একটি সন্তোষজনক উত্তর খুঁজে না পায়, তাহলে এটি সাধারণত একবার বা দুবার এই প্রশ্নটিকে পুনর্নির্মাণ করার চেষ্টা করবে৷
ক্লাসিক মিলের পরিমাপ
একটি সাদৃশ্য পরিমাপকে k আকারের এক জোড়া টিপল থেকে একটি স্কেলার নম্বরে ম্যাপিং হিসাবে সংজ্ঞায়িত করা হয়। নিয়ম অনুসারে, সমস্ত সাদৃশ্য পরিমাপ অবশ্যই [-1, 1] বা [0, 1] পরিসরে ম্যাপ করতে হবে, যেখানে 1 এর সাদৃশ্য স্কোর সর্বাধিক সাদৃশ্য নির্দেশ করে। সাদৃশ্য পরিমাপের বৈশিষ্ট্যগুলি প্রদর্শন করা উচিত যা তুলনা করা দুটি আইটেমের বেশ কয়েকটি বৈশিষ্ট্য বৃদ্ধির সাথে সাথে তাদের মান বৃদ্ধি পাবে।
ডাইস
ডাইস সহগ হল সূক্ষ্মতা এবং প্রত্যাহার পরিমাপের হারমোনিক গড়ের একটি সাধারণীকরণ। একটি উচ্চ সুরেলা গড় সহ একটি সিস্টেম তাত্ত্বিকভাবে একটি আদর্শ পুনরুদ্ধার ব্যবস্থার কাছাকাছি হওয়া উচিত যাতে এটি উচ্চ স্তরের প্রত্যাহারে উচ্চ নির্ভুলতা মানগুলি পরিচালনা করতে পারে। নির্ভুলতা এবং স্মরণের জন্য সুরেলা গড়
দ্বারা দেওয়া হয়$$E=\frac{2}{\frac{1}{P}+\frac{1}{R}}$$
যখন ডাইস সহগ
দ্বারা চিহ্নিত করা হয়$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{\alpha|A|+(1-\alpha)|B|}\cong \frac {\propto \sum_{k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2} +(1-\propto)\sum_{k=1}^{n}\mathrm{w}_{kj}^{2}}$$
α ε [0, 1] সহ। এটি প্রদর্শন করতে পারে যে ডাইস সহগ একটি ওজনযুক্ত হারমোনিক গড়, α =½।
ওভারল্যাপ
ওভারল্যাপ সহগ দুটি সেট ওভারল্যাপ করার ডিগ্রী নির্ধারণ করার চেষ্টা করে। ওভারল্যাপ সহগকে
হিসাবে তুলনা করা হয়$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{min(|A|,|B|)}\cong \frac{\propto \sum_ {k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+\sum_{k =1}^{n}\mathrm{w}_{kj}^{2}}$$
ওভারল্যাপ সহগ গণনা করা হয় সর্বোচ্চ অপারেটর ব্যবহার করে মিনিটের জায়গায়।