পাইথনে NLTK দিয়ে স্টপ শব্দগুলি সরানো হচ্ছে

যখন কম্পিউটারগুলি প্রাকৃতিক ভাষা প্রক্রিয়া করে, তখন কিছু অত্যন্ত সাধারণ শব্দ যা ব্যবহারকারীর প্রয়োজনের সাথে মিলে যাওয়া নথি নির্বাচন করতে সাহায্য করার জন্য সামান্য মূল্যবান বলে মনে হয় তা সম্পূর্ণরূপে শব্দভাণ্ডার থেকে বাদ দেওয়া হয়৷ এই শব্দগুলোকে স্টপ শব্দ বলা হয়।

উদাহরণস্বরূপ, আপনি যদি −

হিসাবে ইনপুট বাক্য দেন

John is a person who takes care of the people around him.

স্টপ শব্দ অপসারণের পরে, আপনি −

আউটপুট পাবেন

['John', 'person', 'takes', 'care', 'people', 'around', '.']

NLTK-তে এই স্টপওয়ার্ডগুলির একটি সংগ্রহ রয়েছে যা আমরা যেকোন বাক্য থেকে এইগুলি সরাতে ব্যবহার করতে পারি। এটি NLTK.corpus মডিউলের ভিতরে রয়েছে। আমরা এটি ব্যবহার করতে পারি বাক্য থেকে স্টপ শব্দগুলিকে ফিল্টার করতে। উদাহরণস্বরূপ,

উদাহরণ

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "John is a person who takes care of people around him."
tokens = word_tokenize(my_sent)

filtered_sentence = [w for w in tokens if not w in stopwords.words()]

print(filtered_sentence)

আউটপুট

এটি আউটপুট দেবে −

['John', 'person', 'takes', 'care', 'people', 'around', '.']