পাঠ্য বিশ্লেষণের একটি অংশ হিসাবে, আমাদের প্রায়শই শব্দগুলি গণনা করতে হবে এবং বিভিন্ন অ্যালগরিদমে প্রক্রিয়াকরণের জন্য তাদের ওজন নির্ধারণ করতে হবে, তাই এই নিবন্ধে আমরা দেখব কিভাবে আমরা একটি বাক্যে প্রতিটি শব্দের ফ্রিকোয়েন্সি খুঁজে পেতে পারি। আমরা নীচে দেখানো হিসাবে তিনটি পন্থা সঙ্গে এটি করতে পারেন.
কাউন্টার ব্যবহার করা
আমরা শব্দের ফ্রিকোয়েন্সি পেতে সংগ্রহ মডিউল থেকে Counter() ব্যবহার করতে পারি। এখানে আমরা প্রথমে লাইন থেকে শব্দ তৈরি করতে split() প্রয়োগ করি এবং তারপর most_common () প্রয়োগ করি।
উদাহরণ
from collections import Counter line_text = "Learn and practice and learn to practice" freq = Counter(line_text.split()).most_common() print(freq)
উপরের কোডটি চালানো আমাদের নিম্নলিখিত ফলাফল দেয় -
[('and', 2), ('practice', 2), ('Learn', 1), ('learn', 1), ('to', 1)]
FreqDist() ব্যবহার করা
ন্যাচারাল ল্যাঙ্গুয়েজ টুল কিট ফ্রিকডিস্ট ফাংশন প্রদান করে যা স্ট্রিং-এ শব্দের সংখ্যার পাশাপাশি স্বতন্ত্র শব্দের সংখ্যা দেখায়। most_common() প্রয়োগ করলে আমাদের প্রতিটি শব্দের ফ্রিকোয়েন্সি পাওয়া যায়।
উদাহরণ
from nltk import FreqDist text = "Learn and practice and learn to practice" words = text.split() fdist1 = FreqDist(words) print(fdist1) print(fdist1.most_common())
উপরের কোডটি চালানো আমাদের নিম্নলিখিত ফলাফল দেয় -
5টি নমুনা এবং 7টি ফলাফল সহ<FreqDist with 5 samples and 7 outcomes> [('and', 2), ('practice', 2), ('Learn', 1), ('learn', 1), ('to', 1)]
অভিধান ব্যবহার করা
এই পদ্ধতিতে আমরা একটি অভিধানে লাইনের শব্দ সংরক্ষণ করি। তারপর আমরা প্রতিটি শব্দের ফ্রিকোয়েন্সি পেতে count() প্রয়োগ করি। তারপর শব্দ ফ্রিকোয়েন্সি মান সঙ্গে শব্দ জিপ. চূড়ান্ত ফলাফল একটি অভিধান হিসাবে দেখানো হয়৷
উদাহরণ
text = "Learn and practice and learn to practice" words = [] words = text.split() wfreq=[words.count(w) for w in words] print(dict(zip(words,wfreq)))
উপরের কোডটি চালানো আমাদের নিম্নলিখিত ফলাফল দেয়:
{'Learn': 1, 'and': 2, 'practice': 2, 'learn': 1, 'to': 1}