কম্পিউটার

টেক্সট মাইনিং এর প্রয়োজন কি?


টেক্সট মাইনিং টেক্সট এনালাইসিস নামেও পরিচিত। এটি সাধারণ বিশ্লেষণের জন্য কাঠামোহীন পাঠ্যকে কাঠামোগত ডেটাতে রূপান্তর করার পদ্ধতি। টেক্সট মাইনিং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) প্রয়োগ করে, মেশিনগুলিকে মানুষের ভাষা জানতে এবং এটি স্বয়ংক্রিয়ভাবে প্রক্রিয়া করতে সক্ষম করে৷

এটি স্ট্যান্ডার্ড ভাষার পাঠ্য থেকে প্রয়োজনীয় তথ্য আহরণের প্রক্রিয়া হিসাবে সংজ্ঞায়িত করা হয়। কিছু ডেটা যা এটি পাঠ্য বার্তা, রেকর্ড, ইমেল, ফাইলের মাধ্যমে তৈরি করতে পারে তা সাধারণ ভাষার পাঠ্যে লেখা হয়। টেক্সট মাইনিং সাধারণত এই ধরনের ডেটা থেকে উপকারী অন্তর্দৃষ্টি বা প্যাটার্ন আঁকতে ব্যবহৃত হয়।

টেক্সট মাইনিং হল একটি স্বয়ংক্রিয় পদ্ধতি যা অসংগঠিত পাঠ্য থেকে মূল্যবান অন্তর্দৃষ্টি পেতে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ব্যবহার করে। এটি ডেটাকে তথ্যে রূপান্তর করতে পারে যা ডিভাইসগুলি শিখতে পারে, টেক্সট মাইনিং অনুভূতি, বিষয় এবং অভিপ্রায় দ্বারা পাঠ্য সংজ্ঞায়িত করার পদ্ধতিকে স্বয়ংক্রিয় করে।

ফিল্টারিং এবং স্ট্রিমিং হিসাবে দুটি পদ্ধতি রয়েছে। ফিল্টারিং অবাঞ্ছিত শব্দ বা প্রাসঙ্গিক ডেটা মুছে ফেলতে পারে। স্ট্রিমিং শব্দগুলি যুক্ত শব্দের মূলকে সমর্থন করে। স্ট্রিমিং পদ্ধতি ব্যবহার করার পরে প্রতিটি শব্দ তার রুট নোড দ্বারা সংজ্ঞায়িত করা হয়।

পাঠ্য খনির প্রাথমিক লক্ষ্য হল ব্যবহারকারীদের পাঠ্যভিত্তিক সম্পদ থেকে তথ্য আহরণ করতে সক্ষম করা এবং পুনরুদ্ধার, নিষ্কাশন, সংক্ষিপ্তকরণ, শ্রেণীকরণ (তত্ত্বাবধান করা), এবং ক্লাস্টারিং (নিরীক্ষণাধীন), সেগমেন্টেশন এবং অ্যাসোসিয়েশনের মতো ক্রিয়াকলাপগুলি পরিচালনা করা।

টেক্সট মাইনিং গ্রহণের পরে প্রধান কারণ হল ব্যবসায়িক শিল্পে আরও শক্তিশালী প্রতিযোগিতা, বেশ কয়েকটি সংস্থা অন্যান্য সংস্থার সাথে খেলার জন্য মূল্য সংযোজন সমাধান খুঁজছে। ব্যবসায় সমাপ্তি বাড়াতে এবং ব্যবহারকারীর দৃষ্টিভঙ্গি পরিবর্তনের সাথে, সংস্থাগুলি এমন একটি সমাধান পেতে বিশাল বিনিয়োগ পাচ্ছে যা প্রতিযোগিতার উন্নতির জন্য ব্যবহারকারী এবং প্রতিপক্ষের ডেটা বিশ্লেষণ করতে সক্ষম৷

পাঠ্য তথ্য পরিচালনার জন্য টেক্সট মাইনিং উপকারী। টেক্সচুয়াল ডেটা অসংগঠিত, ম্যানিপুলেট করা কঠিন এবং অস্পষ্ট, তাই টেক্সট মাইনিং ডেটা এক্সচেঞ্জের জন্য সবচেয়ে দরকারী পদ্ধতি হয়ে ওঠে যেখানে ব্যবসায়িক ডেটাতে ডেটা মাইনিং ব্যবহার করা হয়।

অর্থনৈতিক, একাডেমিক এবং সামাজিক ক্রিয়াকলাপের মাধ্যমে প্রতিদিন প্রচুর পরিমাণে নতুন রেকর্ড এবং ডেটা তৈরি করা হয়, যা উল্লেখযোগ্য সম্ভাব্য অর্থনৈতিক এবং সামাজিক মূল্য সহ।

টেক্সট এবং ডেটা মাইনিং সহ বিভিন্ন কৌশল রয়েছে এবং এই সম্ভাবনাকে কাজে লাগাতে বিশ্লেষণের প্রয়োজন। এই পদ্ধতির উদ্দেশ্য হ'ল পাঠ্য নথির বিশাল সেট থেকে ডেটা পাওয়ার জন্য প্রয়োজনীয় প্রচেষ্টাকে হ্রাস করা৷

  • স্ট্রাকচার্ড ডেটা - এটি সারি এবং কলাম সহ টেবিলের ডাটাবেস SQL-এ সংরক্ষিত করা যেতে পারে এমন সমস্ত রেকর্ড সম্পর্কিত। তাদের একটি রিলেশনাল কী আছে এবং প্রাক-পরিকল্পিত ক্ষেত্রগুলিতে সহজভাবে ম্যাপ করা যেতে পারে। আজ, এই ডেটাগুলি বিকাশে সবচেয়ে প্রক্রিয়াজাত এবং তথ্য পরিচালনার সবচেয়ে সহজ পদ্ধতি৷
  • সেমি-স্ট্রাকচার্ড ডেটা − সেমি-স্ট্রাকচার্ড ডেটা হল এমন ডেটা যা রিলেশনাল ডাটাবেসে অন্তর্ভুক্ত নয় কিন্তু এতে বেশ কিছু সাংগঠনিক বৈশিষ্ট্য রয়েছে যা বিশ্লেষণ করা সহজ করে তোলে। কিছু প্রক্রিয়ার মাধ্যমে, এটি তাদের একটি রিলেশনাল ডাটাবেসে সংরক্ষণ করতে পারে (এটি কিছু ধরণের সেমি-স্ট্রাকচার্ড ডেটার জন্য খুব কঠিন হতে পারে), কিন্তু সেমি-স্ট্রাকচারটি স্থান, নিশ্চিততা বা গণনা সহজ করার জন্য বিদ্যমান।
  • আনস্ট্রাকচার্ড ডেটা - অসংগঠিত ডেটা প্রায় 80% ডেটা বর্ণনা করে। এটিতে পাঠ্য এবং মাল্টিমিডিয়া সামগ্রী রয়েছে। এতে ই-মেইল বার্তা, ওয়ার্ড প্রসেসিং ফাইল, ভিডিও, ফটো, অডিও ফাইল, উপস্থাপনা, ওয়েবপেজ এবং বিভিন্ন ধরনের ব্যবসায়িক নথি রয়েছে।

  1. ডেটা মাইনিংয়ে টেক্সট মাইনিংয়ের ক্ষেত্রগুলি কী কী?

  2. টেক্সট ডেটা মাইনিং কি?

  3. ডেটা মাইনিংয়ে ঐতিহাসিক তথ্য কি?

  4. টেম্পোরাল ডেটা মাইনিং কি?