পাইথনে একটি স্ট্রিং এর প্রতিটি শব্দের ফ্রিকোয়েন্সি খুঁজুন

পাঠ্য বিশ্লেষণের একটি অংশ হিসাবে, আমাদের প্রায়শই শব্দগুলি গণনা করতে হবে এবং বিভিন্ন অ্যালগরিদমে প্রক্রিয়াকরণের জন্য তাদের ওজন নির্ধারণ করতে হবে, তাই এই নিবন্ধে আমরা দেখব কিভাবে আমরা একটি বাক্যে প্রতিটি শব্দের ফ্রিকোয়েন্সি খুঁজে পেতে পারি। আমরা নীচে দেখানো হিসাবে তিনটি পন্থা সঙ্গে এটি করতে পারেন.

কাউন্টার ব্যবহার করা

আমরা শব্দের ফ্রিকোয়েন্সি পেতে সংগ্রহ মডিউল থেকে Counter() ব্যবহার করতে পারি। এখানে আমরা প্রথমে লাইন থেকে শব্দ তৈরি করতে split() প্রয়োগ করি এবং তারপর most_common () প্রয়োগ করি।

উদাহরণ

from collections import Counter
line_text = "Learn and practice and learn to practice"
freq = Counter(line_text.split()).most_common()
print(freq)

উপরের কোডটি চালানো আমাদের নিম্নলিখিত ফলাফল দেয় -

[('and', 2), ('practice', 2), ('Learn', 1), ('learn', 1), ('to', 1)]

FreqDist() ব্যবহার করা

ন্যাচারাল ল্যাঙ্গুয়েজ টুল কিট ফ্রিকডিস্ট ফাংশন প্রদান করে যা স্ট্রিং-এ শব্দের সংখ্যার পাশাপাশি স্বতন্ত্র শব্দের সংখ্যা দেখায়। most_common() প্রয়োগ করলে আমাদের প্রতিটি শব্দের ফ্রিকোয়েন্সি পাওয়া যায়।

উদাহরণ

from nltk import FreqDist
text = "Learn and practice and learn to practice"
words = text.split()
fdist1 = FreqDist(words)
print(fdist1)
print(fdist1.most_common())

উপরের কোডটি চালানো আমাদের নিম্নলিখিত ফলাফল দেয় -

5টি নমুনা এবং 7টি ফলাফল সহ

<FreqDist with 5 samples and 7 outcomes>
[('and', 2), ('practice', 2), ('Learn', 1), ('learn', 1), ('to', 1)]

অভিধান ব্যবহার করা

এই পদ্ধতিতে আমরা একটি অভিধানে লাইনের শব্দ সংরক্ষণ করি। তারপর আমরা প্রতিটি শব্দের ফ্রিকোয়েন্সি পেতে count() প্রয়োগ করি। তারপর শব্দ ফ্রিকোয়েন্সি মান সঙ্গে শব্দ জিপ. চূড়ান্ত ফলাফল একটি অভিধান হিসাবে দেখানো হয়৷

উদাহরণ

text = "Learn and practice and learn to practice"
words = []
words = text.split()
wfreq=[words.count(w) for w in words]
print(dict(zip(words,wfreq)))

উপরের কোডটি চালানো আমাদের নিম্নলিখিত ফলাফল দেয়:

{'Learn': 1, 'and': 2, 'practice': 2, 'learn': 1, 'to': 1}