কম্পিউটার

তথ্য পুনরুদ্ধার কি?


তথ্য পুনরুদ্ধার (IR) একটি ক্ষেত্র যা বহু বছর ধরে ডেটাবেস সিস্টেমের সাথে সমান্তরালভাবে বিকাশ করছে। ডাটাবেস সিস্টেমের ক্ষেত্রের বিপরীতে, যেখানে টার্গেটেড কোয়েরি এবং স্ট্রাকচার্ড ডেটার লেনদেন প্রক্রিয়াকরণ রয়েছে, তথ্য পুনরুদ্ধার সংস্থার সাথে সম্পর্কিত এবং একাধিক পাঠ্য-ভিত্তিক নথি থেকে ডেটা পুনরুদ্ধার করা হয়।

যেহেতু তথ্য পুনরুদ্ধার এবং ডাটাবেস সিস্টেম প্রতিটি বিভিন্ন ধরণের ডেটা পরিচালনা করে, কিছু ডাটাবেস সিস্টেম সমস্যা সাধারণত তথ্য পুনরুদ্ধার সিস্টেমে উপস্থিত থাকে না, যেমন কনকারেন্সি নিয়ন্ত্রণ, পুনরুদ্ধার, লেনদেন পরিচালনা এবং আপডেট। কিছু সাধারণ তথ্য পুনরুদ্ধার সমস্যা রয়েছে যা সাধারণত ঐতিহ্যগত ডাটাবেস সিস্টেমে দেখা যায়, যেমন অসংগঠিত নথি, কীওয়ার্ডের উপর ভিত্তি করে আনুমানিক অনুসন্ধান এবং প্রাসঙ্গিকতার ধারণা।

পাঠ্য ডেটার প্রাচুর্যের কারণে, তথ্য পুনরুদ্ধার বেশ কয়েকটি অ্যাপ্লিকেশন আবিষ্কার করেছে। অনলাইন লাইব্রেরি ক্যাটালগ সিস্টেম, অনলাইন রেকর্ড ম্যানেজমেন্ট সিস্টেম এবং বর্তমানে আরও উন্নত ওয়েব সার্চ ইঞ্জিন সহ বেশ কিছু তথ্য পুনরুদ্ধার ব্যবস্থা রয়েছে।

একটি সাধারণ ডেটা পুনরুদ্ধার সমস্যা হল ব্যবহারকারীর প্রশ্নের উপর নির্ভর করে একটি নথিতে প্রাসঙ্গিক নথিগুলি সনাক্ত করা, যা প্রায়শই কিছু কীওয়ার্ড একটি তথ্যের প্রয়োজনকে সংজ্ঞায়িত করে, যদিও এটি প্রাসঙ্গিক রেকর্ডগুলির একটি উদাহরণও হতে পারে৷

এটি সবচেয়ে উপযুক্ত যখন একজন ব্যবহারকারীর কিছু অ্যাডহক (অর্থাৎ, স্বল্প-মেয়াদী) ডেটার প্রয়োজন থাকে, যার মধ্যে একটি ব্যবহৃত গাড়ি কেনার জন্য ডেটা খোঁজা সহ। যখন একজন ব্যবহারকারীর দীর্ঘমেয়াদী ডেটার প্রয়োজন থাকে (যেমন, একজন গবেষকের আগ্রহ), একটি পুনরুদ্ধার ব্যবস্থাও ব্যবহারকারীর ডেটার সাথে প্রাসঙ্গিক বলে বিচার করা হলে ব্যবহারকারীর কাছে নতুন আগত ডেটা উপাদানগুলিকে "ধাক্কা দেওয়ার" উদ্যোগ নিতে পারে। প্রয়োজন।

পাঠ্য পুনরুদ্ধারের গুণমান মূল্যায়নের জন্য দুটি মৌলিক ব্যবস্থা রয়েছে যা নিম্নরূপ -

নির্ভুলতা − এটি পুনরুদ্ধার করা ডেটার শতাংশ যা প্রকৃতপক্ষে প্রশ্নের সাথে প্রাসঙ্গিক (যেমন, "সঠিক" প্রতিক্রিয়া)। এটি আনুষ্ঠানিকভাবে

হিসাবে উপস্থাপিত হয়

$$precision=\frac{|\left\{ প্রাসঙ্গিক \right\}\cap\left\{ পুনরুদ্ধার করা \right\}|}{|\left\{ পুনরুদ্ধার করা \right\}|}$$

রিকল৷ − এটি রেকর্ডের শতাংশ যা প্রশ্নের সাথে প্রাসঙ্গিক এবং প্রকৃতপক্ষে পুনরুদ্ধার করা হয়েছে। এটি আনুষ্ঠানিকভাবে

হিসাবে উপস্থাপিত হয়

$$recall=\frac{|\left\{ প্রাসঙ্গিক \right\}\cap\left\{ উদ্ধার করা \right\}|}{|\left\{ প্রাসঙ্গিক \right\}|} $$

একটি তথ্য পুনরুদ্ধার সিস্টেম প্রায়ই সঠিকতা বা বিপরীতে ট্রেড-অফ প্রত্যাহার প্রয়োজন হয়. একটি সাধারণভাবে ব্যবহৃত ট্রেড-অফ হল এফ-স্কোর, যা রিকল এবং নির্ভুলতার হারমোনিক গড় হিসাবে উপস্থাপন করা হয় -

$$F\underline{}score=\frac{recall \times precision }{(recall+precision)^{2}}$$

হারমোনিক মানে সমস্যা এমন একটি সিস্টেম যা একটি পরিমাপ অন্যের জন্য অত্যন্ত ত্যাগ করে। যথার্থতা, প্রত্যাহার, এবং এফ-স্কোর হল রেকর্ডের পুনরুদ্ধার করা সংগ্রহের মৌলিক পরিমাপ। এই তিনটি ব্যবস্থা সাধারণত দুটি র‌্যাঙ্ক করা ফাইলের তালিকার তুলনা করার জন্য উপযোগী নয় কারণ সেগুলি পুনরুদ্ধার করা সেটে নথিগুলির অভ্যন্তরীণ র‌্যাঙ্কিংয়ের প্রতি সংবেদনশীল নয়৷


  1. তথ্য নিরাপত্তা সিম কি?

  2. তথ্য সুরক্ষায় তথ্য শ্রেণিবিন্যাস কী?

  3. তথ্য সুরক্ষায় একটি এন্টারপ্রাইজ ডেটাবেস নিরাপত্তা কী?

  4. তথ্য নিরাপত্তা এনক্রিপশন কি?