কম্পিউটার

টেক্সট মাইনিং এর প্রক্রিয়া কি?


টেক্সট মাইনিং টেক্সট এনালাইসিস নামেও পরিচিত। এটি সহজ বিশ্লেষণের জন্য কাঠামোহীন পাঠ্যকে কাঠামোগত ডেটাতে রূপান্তর করার প্রক্রিয়া। পাঠ্য খনির জন্য প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) প্রয়োজন, যা ডিভাইসগুলিকে মানুষের ভাষা শিখতে এবং এটি স্বয়ংক্রিয়ভাবে প্রক্রিয়া করতে সক্ষম করে৷

এটি স্ট্যান্ডার্ড ভাষার পাঠ্য থেকে প্রয়োজনীয় ডেটা আহরণের প্রক্রিয়া হিসাবে সংজ্ঞায়িত করা হয়। কিছু ডেটা যা আমরা পাঠ্য বার্তা, নথি, ইমেল, ফাইলের মাধ্যমে তৈরি করি তা সাধারণ ভাষার পাঠ্যে লেখা হয়। টেক্সট মাইনিং সাধারণত এই ধরনের ডেটা থেকে উপকারী অন্তর্দৃষ্টি বা প্যাটার্ন আঁকতে ব্যবহৃত হয়।

টেক্সট মাইনিং হল একটি স্বয়ংক্রিয় পদ্ধতি যা অসংগঠিত পাঠ্য থেকে মূল্যবান দৃষ্টিভঙ্গি পেতে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ব্যবহার করে। এটি ডেটাকে তথ্যে রূপান্তরিত করতে পারে যা ডিভাইসগুলি শিখতে পারে, টেক্সট মাইনিং অনুভূতি, বিষয় এবং অভিপ্রায় দ্বারা পাঠ্যকে শ্রেণীবদ্ধ করার প্রক্রিয়াটিকে স্বয়ংক্রিয় করে৷

টেক্সট মাইনিং প্রক্রিয়ায় ফাইলগুলি থেকে ডেটা বের করার জন্য নিম্নলিখিত ধাপগুলি রয়েছে যা নিম্নরূপ -

নথি সংগ্রহ − প্রথম ধাপে, পাঠ্য নথি সংগ্রহ করা হয়, যা বিভিন্ন বিন্যাসে উপস্থিত থাকে। ডকুমেন্টটি পিডিএফ, ওয়ার্ড, এইচটিএমএল ডক, সিএসএস, ইত্যাদি আকারে হতে পারে।

দস্তাবেজ প্রাক-প্রক্রিয়াকরণ − এই প্রক্রিয়ায়, প্রদত্ত ইনপুট নথিটি অপ্রয়োজনীয়তা, অসঙ্গতি, স্বাধীন শব্দ, স্টেমিং এবং ফাইলগুলিকে পরবর্তী ধাপের জন্য প্রস্তুত করার জন্য প্রক্রিয়া করা হয়, এবং প্রয়োগ করা ধাপগুলি নিম্নরূপ -

  • টোকেনাইজেশন − প্রদত্ত নথিটিকে একটি স্ট্রিং হিসাবে গণ্য করা হয় এবং নথিতে স্বীকৃত একক শব্দ যেমন প্রদত্ত নথির স্ট্রিংটিকে একটি ইউনিট বা টোকেনে বিভক্ত করা হয়৷

  • স্টপ শব্দ অপসারণ − এই প্রক্রিয়ায় ধ্রুবক শব্দ যেমন a, an, but, and, of, the, ইত্যাদি অপসারণ করা হয়।

  • স্টেমিং − একটি স্টেম হল একই রকম অর্থ সহ শব্দের একটি স্বাভাবিক সেট। এই পদ্ধতি একটি নির্দিষ্ট শব্দের ভিত্তি সংজ্ঞায়িত করে। দুই ধরনের পদ্ধতি আছে ইনফ্লেকশনাল এবং ডেরিভেশনাল স্টেমিং। স্টেমিংয়ের জন্য বিখ্যাত অ্যালগরিদমগুলির মধ্যে একটি হল পোর্টারের অ্যালগরিদম যেমন যদি কোনও নথি পদত্যাগ, পদত্যাগ, পদত্যাগের মতো শব্দগুলির সাথে সম্পর্কিত হয় তবে স্টেমিং পদ্ধতি ব্যবহার করার পরে এটিকে পদত্যাগ হিসাবে গণ্য করা হবে৷

পাঠ্য রূপান্তর − একটি পাঠ্য নথি হল শব্দের একটি সেট (বৈশিষ্ট্য) এবং তাদের উপস্থিতি। এই ধরনের নথি উপস্থাপনের জন্য দুটি পদ্ধতি আছে ভেক্টর স্পেস মডেল এবং শব্দের ব্যাগ৷

বৈশিষ্ট্য নির্বাচন (বৈশিষ্ট্য নির্বাচন) − এই পদ্ধতির ফলে ইনপুট নথি থেকে অপ্রাসঙ্গিক প্রকৃতি বের করে কম ডাটাবেস স্থান, ন্যূনতম অনুসন্ধান পদ্ধতি প্রদান করা হয়।

ডেটা মাইনিং/প্যাটার্ন নির্বাচন − এই প্রক্রিয়ায়, প্রচলিত ডেটা মাইনিং প্রক্রিয়া পাঠ্য খনির প্রক্রিয়ার সাথে একত্রিত হয়। একটি স্ট্রাকচার্ড ডাটাবেস ক্লাসিক ডেটা মাইনিং কৌশলগুলিকে সহজতর করে যা একটি আগের পর্যায়ের ফলে হয়েছিল৷

মূল্যায়ন করুন - এই পর্যায়টি ফলাফল গণনা করে। এই ফলাফলের ফলাফল দূরে ফোকাস করা যেতে পারে বা নিম্নলিখিত ক্রমগুলির সেটের জন্য ব্যবহার করা যেতে পারে৷


  1. টেক্সট মাইনিং এর অ্যাপ্লিকেশন কি কি?

  2. ডেটা মাইনিংয়ে টেক্সট মাইনিংয়ের ক্ষেত্রগুলি কী কী?

  3. টেক্সট ডেটা মাইনিং কি?

  4. টেম্পোরাল ডেটা মাইনিং কি?