ওয়েব কন্টেন্ট মাইনিংকে টেক্সট মাইনিং বলা হয়। কন্টেন্ট মাইনিং হল সার্চ কোয়েরির সাথে বিষয়বস্তুর প্রাসঙ্গিকতা নির্ধারণ করার জন্য একটি ওয়েব পেজের টেক্সট, ইমেজ এবং গ্রাফের ব্রাউজিং এবং মাইনিং।
এই ব্রাউজিংটি স্ট্রাকচার মাইনিংয়ের মাধ্যমে ওয়েব পৃষ্ঠাগুলির ক্লাস্টারিংয়ের পরে করা হয় এবং প্রস্তাবিত প্রশ্নের প্রাসঙ্গিকতার পদ্ধতির উপর নির্ভর করে ফলাফলগুলিকে সমর্থন করে৷
ওয়ার্ল্ড ওয়াইড ওয়েবে উপলভ্য প্রচুর পরিমাণে ডেটা সহ, কন্টেন্ট মাইনিং অনুসন্ধান ইঞ্জিনগুলিতে ফলাফল তালিকাগুলিকে সমর্থন করে যাতে অনুসন্ধানের কীওয়ার্ডগুলির জন্য সর্বাধিক প্রযোজ্য হয়৷
এটি স্ট্যান্ডার্ড ভাষার পাঠ্য থেকে প্রয়োজনীয় ডেটা আহরণের পর্যায় হিসাবে সংজ্ঞায়িত করা যেতে পারে। কিছু ডেটা যা এটি পাঠ্য বার্তা, ফাইল, ইমেল, নথির মাধ্যমে তৈরি করতে পারে সাধারণ ভাষার পাঠ্যে লেখা হয়। টেক্সট মাইনিং এই ধরনের ডেটা থেকে উপকারী অন্তর্দৃষ্টি বা নিদর্শন আঁকতে পারে।
টেক্সট মাইনিং হল একটি স্বয়ংক্রিয় পদ্ধতি যা অসংগঠিত পাঠ্য থেকে মূল্যবান অন্তর্দৃষ্টি পেতে প্রাকৃতিক ভাষা প্রক্রিয়াকরণের সুবিধা দেয়। ডিভাইসগুলি শিখতে পারে এমন তথ্যে ডেটা পরিবর্তন করে, টেক্সট মাইনিং অনুভূতি, বিষয় এবং অভিপ্রায় দ্বারা পাঠ্যকে শ্রেণিবদ্ধ করার পর্যায়টিকে স্বয়ংক্রিয় করে।
টেক্সট মাইনিং সার্চ ইঞ্জিনগুলিতে ব্যবহারকারী অনুসন্ধান ডেটা দ্বারা সমর্থিত নির্দিষ্ট ডেটার দিকে পরিচালিত হয়। এটি সেই ক্লাস্টারগুলির মধ্যে নির্দিষ্ট ওয়েব পৃষ্ঠাগুলির স্ক্যানিংকে ট্রিগার করে ক্লাস্টার সামগ্রী আনতে সমগ্র ওয়েবের ব্রাউজিংকে সক্ষম করে৷
ফলাফল সর্বনিম্ন প্রযোজ্যতার বৃহত্তম স্তরের মাধ্যমে সার্চ ইঞ্জিনে প্রেরণ করা পৃষ্ঠাগুলি। যদিও সার্চ ইঞ্জিনগুলি অনুসন্ধান বিষয়বস্তু সম্পর্কে শত শত দ্বারা ওয়েব পৃষ্ঠাগুলির সাথে সংযোগ সমর্থন করতে পারে, এই ধরনের ওয়েব মাইনিং অপ্রাসঙ্গিক ডেটা হ্রাস করার অনুমতি দেয়। ওয়েব টেক্সট মাইনিং দক্ষ হয় যখন নির্দিষ্ট বিষয় নিয়ে কাজ করে এমন একটি কন্টেন্ট ডাটাবেসে ব্যবহার করা হয়।
উদাহরণ স্বরূপ, অনলাইন ইউনিভার্সিটিগুলির একটি লাইব্রেরি সিস্টেমের প্রয়োজন যাতে তাদের অধ্যয়নের ঘনঘন ক্ষেত্রগুলির সাথে সম্পর্কিত নিবন্ধগুলি স্মরণ করা যায়। এই নির্দিষ্ট বিষয়বস্তু ডাটাবেস সার্চ ইঞ্জিনে সার্চ কোয়েরির সবচেয়ে সুনির্দিষ্ট ফলাফল সমর্থন করে শুধুমাত্র সেই বিষয়গুলির মধ্যে ডেটা টানতে দেয়৷
শুধুমাত্র সবচেয়ে প্রাসঙ্গিক ডেটার এই ভাতা সমর্থিত ফলাফলের একটি বড় মানের দেয়। উৎপাদনশীলতার এই বৃদ্ধি সরাসরি টেক্সট এবং ভিজ্যুয়ালের কন্টেন্ট মাইনিংয়ের প্রয়োজনে। এই ধরনের ডেটা মাইনিংয়ের প্রয়োজন হল ডাটা অনুরোধকারী ব্যবহারকারীর কাছে WWW-তে অ্যাক্সেসযোগ্য সর্বোত্তম সম্ভাব্য ডেটা সংগ্রহ করা, শ্রেণীবদ্ধ করা, সংগঠিত করা এবং সমর্থন করা।
ওয়েব পৃষ্ঠাগুলিতে সমর্থিত বেশ কয়েকটি HTML ফাইল, ছবি এবং পাঠ্য ব্রাউজ করার জন্য এই টুলটি অপরিহার্য। প্রতিটি অনুসন্ধানের উচ্চতর উত্পাদনশীল ফলাফল প্রদানের জন্য প্রাসঙ্গিকতার ক্রমানুসারে ফলাফলপ্রাপ্ত ডেটা সার্চ ইঞ্জিন দ্বারা সমর্থিত হয়৷