টেক্সট ইনডেক্সিং এর কৌশল কি কি?

বেশ কিছু জনপ্রিয় পাঠ্য পুনরুদ্ধার সূচীকরণ কৌশল রয়েছে যেমন উল্টানো সূচক এবং স্বাক্ষর ফাইল।

উল্টানো সূচক − একটি ইনভার্টেড ইনডেক্স হল একটি সূচক কাঠামো যা দুটি হ্যাশ ইনডেক্সড বা B+-ট্রি ইনডেক্স করা টেবিল বজায় রাখে:ডকুমেন্ট_টেবিল এবং টার্ম_টেবল, যেখানে ডকুমেন্ট_টেবলে ডকুমেন্ট রেকর্ডের একটি সেট থাকে, প্রতিটিতে দুটি ক্ষেত্র রয়েছে:ডক_আইডি এবং পোস্টিং_লিস্ট, যেখানে পোস্টিং_লিস্ট পদ্ধতির একটি তালিকা। (বা পদ্ধতির নির্দেশক) যা নথিতে প্রদর্শিত হয়, কিছু প্রাসঙ্গিক পরিমাপ অনুসারে সাজানো।

term_table-এ টার্ম রেকর্ডের একটি সেট রয়েছে, প্রতিটিতে দুটি ক্ষেত্র রয়েছে:term_id এবং posting_list, যেখানে posting_list রেকর্ড শনাক্তকারীর একটি তালিকা নির্দিষ্ট করে যেখানে শব্দটি ঘটে।

এটি প্রদত্ত শর্তাবলীর সাথে যুক্ত সমস্ত নথি খুঁজে পেতে পারে। এটি একটি প্রদত্ত নথির সেটের সাথে যুক্ত সমস্ত পদ খুঁজে পেতে ব্যবহৃত হয়। উদাহরণস্বরূপ, এটি শর্তাবলীর একটি সেটের সাথে যুক্ত সমস্ত নথি খুঁজে পেতে পারে, আমরা প্রথমে প্রতিটি পদের জন্য শব্দ সারণীতে নথি শনাক্তকারীর একটি তালিকা খুঁজে পেতে পারি এবং তারপর প্রাসঙ্গিক রেকর্ডের সংগ্রহ পেতে তাদের ছেদ করতে পারি৷

উল্টানো সূচকগুলি বাজারে ব্যাপকভাবে ব্যবহৃত হয়। তারা কার্যকর করা সহজ. পোস্ট করার তালিকাগুলি বেশ দীর্ঘ হতে পারে, যা সঞ্চয়ের প্রয়োজনীয়তা তৈরি করে বেশ বড়। এগুলি বাস্তবায়ন করা সহজ কিন্তু সমার্থক (যেখানে দুটি ভিন্ন শব্দের সমান অর্থ হতে পারে) এবং পলিসেমি (যেখানে একটি একক শব্দের একাধিক অর্থ হতে পারে) পরিচালনায় সন্তোষজনক নয়।

একটি স্বাক্ষর ফাইল এমন একটি ফাইল যা ডেটাবেসের প্রতিটি রেকর্ডের জন্য স্বাক্ষর ডেটা সংরক্ষণ করে। প্রতিটি স্বাক্ষরের একটি ধ্রুবক আকার থাকে বি বিট সংজ্ঞায়িত শর্তাবলী। একটি সাধারণ এনকোডিং নকশা নিম্নরূপ যায়। একটি রেকর্ড স্বাক্ষরের প্রতিটি বিট 0 থেকে শুরু হয়।

একটি বিট 1 এ সেট করা হয় যদি এটি সংজ্ঞায়িত শব্দটি রেকর্ডে উপস্থিত হয়। একটি স্বাক্ষর S₁ অন্য একটি স্বাক্ষর S₂ মেলে যদি প্রতিটি বিট স্বাক্ষরে সেট করা হয় S₂ এছাড়াও S₁ এ সেট করা আছে . যেহেতু সাধারণভাবে উপলব্ধ বিটের চেয়ে বেশি পদ রয়েছে, তাই বেশ কয়েকটি পদকে একই বিটে ম্যাপ করা যেতে পারে।

এই ধরনের মাল্টিপল-টু-ওয়ান ম্যাপিংগুলি অনুসন্ধানকে ব্যয়বহুল করে তোলে কারণ একটি রেকর্ড যা একটি প্রশ্নের স্বাক্ষরের সাথে সংযুক্ত করে সেটি অগত্যা কোয়েরির কীওয়ার্ডের সেট অন্তর্ভুক্ত করে না। রেকর্ডগুলি পুনরুদ্ধার করতে হবে, পার্স করতে হবে, স্টেমড করতে হবে এবং পরীক্ষা করতে হবে৷ প্রথমে ফ্রিকোয়েন্সি বিশ্লেষণ, স্টেমিং এবং ফিল্টারিং স্টপ শব্দগুলি প্রয়োগ করে এবং তারপরে বিট প্রতিনিধিত্বে পদ্ধতিগুলির তালিকাকে এনকোড করার জন্য হ্যাশিং পদ্ধতি এবং সুপারইম্পোজড কোডিং কৌশলগুলি ব্যবহার করে উন্নতিগুলি তৈরি করা যেতে পারে৷