কম্পিউটার

টেক্সট ডেটা মাইনিং কি?


টেক্সট মাইনিং টেক্সট এনালাইসিস নামেও পরিচিত। এটি সাধারণ বিশ্লেষণের জন্য কাঠামোহীন পাঠ্যকে কাঠামোগত ডেটাতে রূপান্তর করার পদ্ধতি। টেক্সট মাইনিং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) প্রয়োগ করে, মেশিনগুলিকে মানুষের ভাষা জানতে এবং এটি স্বয়ংক্রিয়ভাবে প্রক্রিয়া করতে সক্ষম করে৷

এটি স্ট্যান্ডার্ড ভাষার পাঠ্য থেকে উল্লেখযোগ্য তথ্য আহরণের পদ্ধতি হিসাবে সংজ্ঞায়িত করা হয়। কিছু ডেটা যা এটি পাঠ্য বার্তা, রেকর্ড, ইমেল, ফাইলের মাধ্যমে তৈরি করতে পারে তা সাধারণ ভাষার পাঠ্যে লেখা হয়। এটি সাধারণত এই ধরনের ডেটা থেকে উপকারী অন্তর্দৃষ্টির নিদর্শন আঁকতে ব্যবহৃত হয়।

টেক্সট মাইনিং হল একটি স্বয়ংক্রিয় পদ্ধতি যা অসংগঠিত পাঠ্য থেকে মূল্যবান অন্তর্দৃষ্টি পেতে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ব্যবহার করে। এটি ডেটাকে তথ্যে রূপান্তর করতে পারে যা ডিভাইসগুলি শিখতে পারে, পাঠ্য খনির অনুভূতি, বিষয় এবং অভিপ্রায় দ্বারা পাঠ্যকে শ্রেণিবদ্ধ করার পদ্ধতিকে স্বয়ংক্রিয় করে।

টেক্সট ডেটা মাইনিংয়ে, এটি পাঠ্য ডেটাতে ব্যবহৃত হয়। এটি পাঠ্য তথ্য পড়তে এবং বিশ্লেষণ করতে পারে। টেক্সট মাইনিংয়ে, প্যাটার্নটি অসংগঠিত ডেটা বা প্রাকৃতিক ভাষার পাঠ্য থেকে বের করা হয়। টেক্সট মাইনিং-এ, ইনপুট হল অসংগঠিত টেক্সট এবং তারপর আউটপুট হল স্ট্রাকচার্ড টেক্সট।

টেক্সট মাইনিং-এর মধ্যে রয়েছে পিডিএফ, ডক, ডকক্স, টিএক্সটি ইত্যাদি আকারে টেক্সট ডকুমেন্টের একটি সেট। ডকুমেন্ট পাওয়ার পর, টেক্সটের প্রাক-প্রসেসিং (এনএলটি - প্রাকৃতিক ভাষা পাঠের সাথে তুলনা করুন) ব্যবহার করে এবং তারপরে টেক্সট মাইনিং পন্থা। এভাবে, টেক্সট ডকুমেন্ট বিশ্লেষণ করে অবশেষে জ্ঞান খুঁজে পাওয়া যায়।

ফিল্টারিং এবং স্ট্রিমিং হিসাবে দুটি পদ্ধতি জড়িত। ফিল্টারিং অবাঞ্ছিত শব্দ বা প্রাসঙ্গিক তথ্য মুছে ফেলতে পারে। স্ট্রিমিং শব্দগুলি সংশ্লিষ্ট শব্দের মূল প্রদান করে। স্ট্রিমিং পদ্ধতি ব্যবহার করার পরে প্রতিটি শব্দ তার রুট নোড দ্বারা ডিজাইন করা হয়।

টেক্সট মাইনিং হল এমন একটি এলাকা যা ব্যবসায়িক অ্যাপ্লিকেশনের জন্য গ্রহণের ক্ষেত্রে একটি অপ্রত্যাশিত বিস্ফোরণ। দত্তক নেওয়ার ক্ষেত্রে বিস্ফোরণটি TM সম্পর্কে উচ্চতর তথ্য এবং নিম্ন মূল্যের পয়েন্টগুলির দ্বারা ট্রিগার করা হয়েছে যেখানে আজ TM সরঞ্জামগুলি উপলব্ধ৷

অসংগঠিত পাঠ্য ডেটার ম্যানুয়াল বিশ্লেষণ আরও অবাস্তব, এবং সেই অনুযায়ী, ডেটা বিশ্লেষণের প্রক্রিয়া স্বয়ংক্রিয় করার জন্য পাঠ্য খনির পদ্ধতিগুলি তৈরি করা হচ্ছে৷

পাঠ্য খনির প্রাথমিক উদ্দেশ্য হল ব্যবহারকারীদের পাঠ্যভিত্তিক সম্পদ থেকে রেকর্ড বের করার অনুমতি দেওয়া এবং পুনরুদ্ধার, নিষ্কাশন, সংক্ষিপ্তকরণ, শ্রেণীকরণ (তত্ত্বাবধান করা), এবং ক্লাস্টারিং (নিরীক্ষণাধীন), সেগমেন্টেশন এবং অ্যাসোসিয়েশনের মতো পরিষেবাগুলি পরিচালনা করা।

টেক্সট মাইনিং গ্রহণের পরে প্রধান কারণ হল ব্যবসায়িক শিল্পে আরও শক্তিশালী প্রতিযোগিতা, বেশ কয়েকটি সংস্থা অন্যান্য সংস্থার সাথে খেলার জন্য মূল্য সংযোজন সমাধান খুঁজছে। ব্যবসায় সমাপ্তি বৃদ্ধি এবং ব্যবহারকারীর দৃষ্টিভঙ্গি পরিবর্তনের সাথে, সংস্থাগুলি এমন একটি সমাধান পেতে বিশাল বিনিয়োগ পাচ্ছে যা প্রতিযোগিতার উন্নতির জন্য ব্যবহারকারী এবং প্রতিপক্ষের ডেটা বিশ্লেষণ করতে সক্ষম৷


  1. ওয়েব স্ট্রাকচার মাইনিং কি?

  2. টেম্পোরাল ডেটা মাইনিং কি?

  3. স্প্যাটিওটেম্পোরাল ডেটা মাইনিং কি?

  4. মাইএসকিউএল-এ টেক্সট ডেটা টাইপ কী?