টেক্সট মাইনিং টেক্সট এনালাইসিস নামেও পরিচিত। এটি সহজ বিশ্লেষণের জন্য কাঠামোহীন পাঠ্যকে কাঠামোগত ডেটাতে রূপান্তর করার প্রক্রিয়া। পাঠ্য খনির জন্য প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) প্রয়োজন, যা ডিভাইসগুলিকে মানুষের ভাষা শিখতে এবং এটি স্বয়ংক্রিয়ভাবে প্রক্রিয়া করতে সক্ষম করে৷
এটি স্ট্যান্ডার্ড ভাষার পাঠ্য থেকে প্রয়োজনীয় ডেটা আহরণের প্রক্রিয়া হিসাবে সংজ্ঞায়িত করা হয়। কিছু ডেটা যা আমরা পাঠ্য বার্তা, নথি, ইমেল, ফাইলের মাধ্যমে তৈরি করি তা সাধারণ ভাষার পাঠ্যে লেখা হয়। টেক্সট মাইনিং সাধারণত এই ধরনের ডেটা থেকে উপকারী অন্তর্দৃষ্টি বা প্যাটার্ন আঁকতে ব্যবহৃত হয়।
টেক্সট মাইনিং হল একটি স্বয়ংক্রিয় পদ্ধতি যা অসংগঠিত পাঠ্য থেকে মূল্যবান দৃষ্টিভঙ্গি পেতে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ব্যবহার করে। এটি ডেটাকে তথ্যে রূপান্তরিত করতে পারে যা ডিভাইসগুলি শিখতে পারে, টেক্সট মাইনিং অনুভূতি, বিষয় এবং অভিপ্রায় দ্বারা পাঠ্যকে শ্রেণীবদ্ধ করার প্রক্রিয়াটিকে স্বয়ংক্রিয় করে৷
টেক্সট মাইনিং প্রক্রিয়ায় ফাইলগুলি থেকে ডেটা বের করার জন্য নিম্নলিখিত ধাপগুলি রয়েছে যা নিম্নরূপ -
নথি সংগ্রহ − প্রথম ধাপে, পাঠ্য নথি সংগ্রহ করা হয়, যা বিভিন্ন বিন্যাসে উপস্থিত থাকে। ডকুমেন্টটি পিডিএফ, ওয়ার্ড, এইচটিএমএল ডক, সিএসএস, ইত্যাদি আকারে হতে পারে।
দস্তাবেজ প্রাক-প্রক্রিয়াকরণ − এই প্রক্রিয়ায়, প্রদত্ত ইনপুট নথিটি অপ্রয়োজনীয়তা, অসঙ্গতি, স্বাধীন শব্দ, স্টেমিং এবং ফাইলগুলিকে পরবর্তী ধাপের জন্য প্রস্তুত করার জন্য প্রক্রিয়া করা হয়, এবং প্রয়োগ করা ধাপগুলি নিম্নরূপ -
-
টোকেনাইজেশন − প্রদত্ত নথিটিকে একটি স্ট্রিং হিসাবে গণ্য করা হয় এবং নথিতে স্বীকৃত একক শব্দ যেমন প্রদত্ত নথির স্ট্রিংটিকে একটি ইউনিট বা টোকেনে বিভক্ত করা হয়৷
-
স্টপ শব্দ অপসারণ − এই প্রক্রিয়ায় ধ্রুবক শব্দ যেমন a, an, but, and, of, the, ইত্যাদি অপসারণ করা হয়।
-
স্টেমিং − একটি স্টেম হল একই রকম অর্থ সহ শব্দের একটি স্বাভাবিক সেট। এই পদ্ধতি একটি নির্দিষ্ট শব্দের ভিত্তি সংজ্ঞায়িত করে। দুই ধরনের পদ্ধতি আছে ইনফ্লেকশনাল এবং ডেরিভেশনাল স্টেমিং। স্টেমিংয়ের জন্য বিখ্যাত অ্যালগরিদমগুলির মধ্যে একটি হল পোর্টারের অ্যালগরিদম যেমন যদি কোনও নথি পদত্যাগ, পদত্যাগ, পদত্যাগের মতো শব্দগুলির সাথে সম্পর্কিত হয় তবে স্টেমিং পদ্ধতি ব্যবহার করার পরে এটিকে পদত্যাগ হিসাবে গণ্য করা হবে৷
পাঠ্য রূপান্তর − একটি পাঠ্য নথি হল শব্দের একটি সেট (বৈশিষ্ট্য) এবং তাদের উপস্থিতি। এই ধরনের নথি উপস্থাপনের জন্য দুটি পদ্ধতি আছে ভেক্টর স্পেস মডেল এবং শব্দের ব্যাগ৷
বৈশিষ্ট্য নির্বাচন (বৈশিষ্ট্য নির্বাচন) − এই পদ্ধতির ফলে ইনপুট নথি থেকে অপ্রাসঙ্গিক প্রকৃতি বের করে কম ডাটাবেস স্থান, ন্যূনতম অনুসন্ধান পদ্ধতি প্রদান করা হয়।
ডেটা মাইনিং/প্যাটার্ন নির্বাচন − এই প্রক্রিয়ায়, প্রচলিত ডেটা মাইনিং প্রক্রিয়া পাঠ্য খনির প্রক্রিয়ার সাথে একত্রিত হয়। একটি স্ট্রাকচার্ড ডাটাবেস ক্লাসিক ডেটা মাইনিং কৌশলগুলিকে সহজতর করে যা একটি আগের পর্যায়ের ফলে হয়েছিল৷
মূল্যায়ন করুন - এই পর্যায়টি ফলাফল গণনা করে। এই ফলাফলের ফলাফল দূরে ফোকাস করা যেতে পারে বা নিম্নলিখিত ক্রমগুলির সেটের জন্য ব্যবহার করা যেতে পারে৷