যখন কম্পিউটারগুলি প্রাকৃতিক ভাষা প্রক্রিয়া করে, তখন কিছু অত্যন্ত সাধারণ শব্দ যা ব্যবহারকারীর প্রয়োজনের সাথে মিলে যাওয়া নথি নির্বাচন করতে সাহায্য করার জন্য সামান্য মূল্যবান বলে মনে হয় তা সম্পূর্ণরূপে শব্দভাণ্ডার থেকে বাদ দেওয়া হয়৷ এই শব্দগুলোকে স্টপ শব্দ বলা হয়।
উদাহরণস্বরূপ, আপনি যদি −
হিসাবে ইনপুট বাক্য দেনJohn is a person who takes care of the people around him.
স্টপ শব্দ অপসারণের পরে, আপনি −
আউটপুট পাবেন['John', 'person', 'takes', 'care', 'people', 'around', '.']
NLTK-তে এই স্টপওয়ার্ডগুলির একটি সংগ্রহ রয়েছে যা আমরা যেকোন বাক্য থেকে এইগুলি সরাতে ব্যবহার করতে পারি। এটি NLTK.corpus মডিউলের ভিতরে রয়েছে। আমরা এটি ব্যবহার করতে পারি বাক্য থেকে স্টপ শব্দগুলিকে ফিল্টার করতে। উদাহরণস্বরূপ,
উদাহরণ
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "John is a person who takes care of people around him." tokens = word_tokenize(my_sent) filtered_sentence = [w for w in tokens if not w in stopwords.words()] print(filtered_sentence)
আউটপুট
এটি আউটপুট দেবে −
['John', 'person', 'takes', 'care', 'people', 'around', '.']