পাইথনে ডেটা সেট থেকে k সবচেয়ে ঘন ঘন শব্দগুলি খুঁজুন

একটি ডেটা সেটে 10টি ঘন ঘন শব্দ খুঁজে বের করার প্রয়োজন হলে, পাইথন সংগ্রহ মডিউল ব্যবহার করে এটি খুঁজে পেতে আমাদের সাহায্য করতে পারে। সংগ্রহ মডিউলটির একটি কাউন্টার ক্লাস রয়েছে যা আমরা এটিতে শব্দের একটি তালিকা সরবরাহ করার পরে শব্দগুলির গণনা দেয়। এছাড়াও প্রোগ্রাম ইনপুট দ্বারা প্রয়োজনীয় শব্দের সংখ্যা বের করতে আমরা most_common পদ্ধতি ব্যবহার করি।

উদাহরণ

নীচের উদাহরণে আমরা একটি অনুচ্ছেদ নিই, এবং তারপর প্রথমে split() প্রয়োগ করে শব্দগুলির একটি তালিকা তৈরি করি। আমরা তারপর সমস্ত শব্দের গণনা খুঁজে বের করতে counter() প্রয়োগ করব। সবশেষে সর্বাধিক_সাধারণ ফাংশন আমাদের উপযুক্ত ফলাফল দেবে যে আমরা সর্বোচ্চ ফ্রিকোয়েন্সি সহ কতগুলি শব্দ চাই।

from collections import Counter
word_set = " This is a series of strings to count " \
   "many words . They sometime hurt and words sometime inspire "\
   "Also sometime fewer words convey more meaning than a bag of words "\
   "Be careful what you speak or what you write or even what you think of. "\
# Create list of all the words in the string
word_list = word_set.split()

# Get the count of each word.
word_count = Counter(word_list)

# Use most_common() method from Counter subclass
print(word_count.most_common(3))

থেকে ) পদ্ধতি

আউটপুট

উপরের কোডটি চালানো আমাদের নিম্নলিখিত ফলাফল দেয় -

[('words', 4), ('sometime', 3), ('what', 3)]