কম্পিউটার

পাইথনে NLTK ব্যবহার করে টেক্সট টোকেনাইজ করুন


একটি অক্ষর ক্রম এবং একটি সংজ্ঞায়িত নথি ইউনিট দেওয়া হলে, টোকেনাইজেশন হল এটিকে টুকরো টুকরো করা, যাকে টোকেন বলা হয়, সম্ভবত একই সময়ে বিরাম চিহ্নের মতো নির্দিষ্ট অক্ষরগুলিকে ফেলে দেওয়া। nltk এবং পাইথনের প্রেক্ষাপটে, এটি কেবল প্রতিটি টোকেনকে একটি তালিকায় রাখার প্রক্রিয়া যাতে প্রতিটি অক্ষরের উপর একবারে পুনরাবৃত্তি করার পরিবর্তে, আমরা একটি টোকেনের উপর পুনরাবৃত্তি করতে পারি।

উদাহরণস্বরূপ, ইনপুট স্ট্রিং -

দেওয়া
হাই মানুষ, কেমন আছো?

আমাদের আউটপুট পাওয়া উচিত -

<প্রে>

আমরা NLTK থেকে word_tokenize পদ্ধতি ব্যবহার করে এই লেখাটিকে টোকেনাইজ করতে পারি। উদাহরণস্বরূপ,

উদাহরণ

from nltk.corpus import stopwordsfrom nltk.tokenize import word_tokenizemy_sent ="হাই ম্যান, কেমন আছেন?" টোকেন =word_tokenize(my_sent)print(tokens)

আউটপুট

এটি আউটপুট দেবে −

<প্রে>
  1. পাইথন ব্যবহার করে একটি স্টপওয়াচ তৈরি করুন

  2. পাইথন ব্যবহার করে Whatsapp?

  3. পাইথন ব্যবহার করে লিনাক্স টার্মিনালে ফরম্যাট করা টেক্সট

  4. পাইথনে CX_Freeze ব্যবহার করা