Python3 এ পাঠ্য বিশ্লেষণ

এই অ্যাসাইনমেন্টে আমরা ফাইল নিয়ে কাজ করি। ফাইল এই মহাবিশ্বের সর্বত্র আছে. কম্পিউটার সিস্টেম ফাইল অপরিহার্য অংশ. অপারেটিং সিস্টেমে অনেক ফাইল থাকে।

পাইথনে দুই ধরনের ফাইল রয়েছে- টেক্সট ফাইল এবং বাইনারি ফাইল।

এখানে আমরা টেক্সট ফাইল সম্পর্কে আলোচনা করব

এখানে আমরা ফাইলের কিছু গুরুত্বপূর্ণ ফাংশন ফোকাস করি।

শব্দের সংখ্যা
অক্ষরের সংখ্যা
গড় শব্দের দৈর্ঘ্য
স্টপ শব্দের সংখ্যা
বিশেষ অক্ষরের সংখ্যা
সংখ্যার সংখ্যা
বড় হাতের শব্দের সংখ্যা

আমাদের একটি পরীক্ষা ফাইল আছে "css3.txt", আমরা সেই ফাইলটিতে কাজ করছি

শব্দের সংখ্যা

যখন আমরা একটি বাক্যে শব্দের সংখ্যা গণনা করি, তখন আমরা বিভক্ত ব্যবহার করি ফাংশন এটি সবচেয়ে সহজ উপায়। এই ক্ষেত্রে আমরা বিভক্ত ফাংশন প্রয়োগ করি৷

উদাহরণ কোড

filename="C:/Users/TP/Desktop/css3.txt"
try:
   with open(filename) as file_object:
   contents=file_object.read()
   except FileNotFoundError:
   message="sorry" +filename
   print(message)
else:
   words=contents.split()
   number_words=len(words)
   print("Total words of" + filename ,"is" , str(number_words))

আউটপুট

Total words of C:/Users/TP/Desktop/css3.txt is 3574

অক্ষরের সংখ্যা

এখানে আমরা একটি শব্দে অক্ষরের সংখ্যা গণনা করি, এখানে আমরা শব্দের দৈর্ঘ্য ব্যবহার করি। দৈর্ঘ্য 5 হলে সেই শব্দে 5টি অক্ষর থাকে।

উদাহরণ কোড

filename="C:/Users/TP/Desktop/css3.txt"
try:
   with open(filename) as file_object:
   contents=file_object.read()
   except FileNotFoundError:
   message="sorry" +filename
   print(message)
else:
   words=0
   characters=0
   wordslist=contents.split()
   words+=len(wordslist)
   characters += sum(len(word) for word in wordslist)
   #print(lineno)
   print("TOTAL CHARACTERS IN A TEXT FILE =",characters)

আউটপুট

TOTAL CHARACTERS IN A TEXT FILE = 17783

গড় শব্দের দৈর্ঘ্য

এখানে, আমরা সমস্ত শব্দের দৈর্ঘ্যের যোগফল গণনা করি এবং এটিকে মোট দৈর্ঘ্য দিয়ে ভাগ করি।

উদাহরণ কোড

filename="C:/Users/TP/Desktop/css3.txt"
try:
   with open(filename) as file_object:
   contents=file_object.read()
   except FileNotFoundError:
   message="sorry" +filename
   print(message)
else:
   words=0
   wordslist=contents.split()
   words=len(wordslist)
   average= sum(len(word) for word in wordslist)/words    
   print("Average=",average)

আউটপুট

Average= 4.97

স্টপ শব্দের সংখ্যা

এটি সমাধান করতে আমরা পাইথনে NLP লাইব্রেরি ব্যবহার করি।

উদাহরণ কোড

from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 
my_example_sent = "This is a sample sentence"
mystop_words = set(stopwords.words('english')) 
my_word_tokens = word_tokenize(my_example_sent) 
my_filtered_sentence = [w for w in my_word_tokens if not w in mystop_words] 
my_filtered_sentence = []
for w in my_word_tokens: 
   if w not in mystop_words: 
      my_filtered_sentence.append(w) 
print(my_word_tokens) 
print(my_filtered_sentence)

বিশেষ অক্ষরের সংখ্যা

এখানে আমরা এতে উপস্থিত হ্যাশট্যাগ বা উল্লেখের সংখ্যা গণনা করতে পারি। এটি আমাদের পাঠ্য ডেটা থেকে অতিরিক্ত তথ্য বের করতে সহায়তা করে৷

উদাহরণ কোড

import collections as ct
filename="C:/Users/TP/Desktop/css3.txt"
try:
   with open(filename) as file_object:
   contents=file_object.read()
   except FileNotFoundError:
   message="sorry" +filename
   print(message)
else:
   words=contents.split()
   number_words=len(words)
   special_chars = "#"
   new=sum(v for k, v in ct.Counter(words).items() if k in special_chars)
   print("Total Special Characters", new)

আউটপুট

Total Special Characters 0

সংখ্যার সংখ্যা

এখানে আমরা টেক্সট ফাইলগুলিতে উপস্থিত সাংখ্যিক ডেটার সংখ্যা গণনা করতে পারি। এটি একটি শব্দে অক্ষরের সংখ্যা গণনার সমান।

উদাহরণ কোড

filename="C:/Users/TP/Desktop/css3.txt"
try:
   with open(filename) as file_object:
   contents=file_object.read()
   except FileNotFoundError:
   message="sorry" +filename
   print(message)
else:
   words=sum(map(str.isdigit, contents.split())) 
   print("TOTAL NUMERIC IN A TEXT FILE =",words)

আউটপুট

TOTAL NUMERIC IN A TEXT FILE = 2

বড় হাতের শব্দের সংখ্যা

isupper() ফাংশন ব্যবহার করে, আমরা পাঠ্যে বড় হাতের অক্ষরের সংখ্যা গণনা করতে পারি।

উদাহরণ কোড

filename="C:/Users/TP/Desktop/css3.txt"
try:
   with open(filename) as file_object:
   contents=file_object.read()
   except FileNotFoundError:
   message="sorry" +filename
   print(message)
else:
   words=sum(map(str.isupper, contents.split())) 
   print("TOTAL UPPERCASE WORDS IN A TEXT FILE =",words)

আউটপুট

TOTAL UPPERCASE WORDS IN A TEXT FILE = 121