এই অ্যাসাইনমেন্টে আমরা ফাইল নিয়ে কাজ করি। ফাইল এই মহাবিশ্বের সর্বত্র আছে. কম্পিউটার সিস্টেম ফাইল অপরিহার্য অংশ. অপারেটিং সিস্টেমে অনেক ফাইল থাকে।
পাইথনে দুই ধরনের ফাইল রয়েছে- টেক্সট ফাইল এবং বাইনারি ফাইল।
এখানে আমরা টেক্সট ফাইল সম্পর্কে আলোচনা করব
এখানে আমরা ফাইলের কিছু গুরুত্বপূর্ণ ফাংশন ফোকাস করি।
- শব্দের সংখ্যা
- অক্ষরের সংখ্যা
- গড় শব্দের দৈর্ঘ্য
- স্টপ শব্দের সংখ্যা
- বিশেষ অক্ষরের সংখ্যা
- সংখ্যার সংখ্যা
- বড় হাতের শব্দের সংখ্যা
আমাদের একটি পরীক্ষা ফাইল আছে "css3.txt", আমরা সেই ফাইলটিতে কাজ করছি
শব্দের সংখ্যা
যখন আমরা একটি বাক্যে শব্দের সংখ্যা গণনা করি, তখন আমরা বিভক্ত ব্যবহার করি ফাংশন এটি সবচেয়ে সহজ উপায়। এই ক্ষেত্রে আমরা বিভক্ত ফাংশন প্রয়োগ করি৷
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt"
try:
with open(filename) as file_object:
contents=file_object.read()
except FileNotFoundError:
message="sorry" +filename
print(message)
else:
words=contents.split()
number_words=len(words)
print("Total words of" + filename ,"is" , str(number_words))
আউটপুট
Total words of C:/Users/TP/Desktop/css3.txt is 3574
অক্ষরের সংখ্যা
এখানে আমরা একটি শব্দে অক্ষরের সংখ্যা গণনা করি, এখানে আমরা শব্দের দৈর্ঘ্য ব্যবহার করি। দৈর্ঘ্য 5 হলে সেই শব্দে 5টি অক্ষর থাকে।
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt"
try:
with open(filename) as file_object:
contents=file_object.read()
except FileNotFoundError:
message="sorry" +filename
print(message)
else:
words=0
characters=0
wordslist=contents.split()
words+=len(wordslist)
characters += sum(len(word) for word in wordslist)
#print(lineno)
print("TOTAL CHARACTERS IN A TEXT FILE =",characters)
আউটপুট
TOTAL CHARACTERS IN A TEXT FILE = 17783
গড় শব্দের দৈর্ঘ্য
এখানে, আমরা সমস্ত শব্দের দৈর্ঘ্যের যোগফল গণনা করি এবং এটিকে মোট দৈর্ঘ্য দিয়ে ভাগ করি।
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt"
try:
with open(filename) as file_object:
contents=file_object.read()
except FileNotFoundError:
message="sorry" +filename
print(message)
else:
words=0
wordslist=contents.split()
words=len(wordslist)
average= sum(len(word) for word in wordslist)/words
print("Average=",average)
আউটপুট
Average= 4.97
স্টপ শব্দের সংখ্যা
এটি সমাধান করতে আমরা পাইথনে NLP লাইব্রেরি ব্যবহার করি।
উদাহরণ কোড
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
my_example_sent = "This is a sample sentence"
mystop_words = set(stopwords.words('english'))
my_word_tokens = word_tokenize(my_example_sent)
my_filtered_sentence = [w for w in my_word_tokens if not w in mystop_words]
my_filtered_sentence = []
for w in my_word_tokens:
if w not in mystop_words:
my_filtered_sentence.append(w)
print(my_word_tokens)
print(my_filtered_sentence)
বিশেষ অক্ষরের সংখ্যা
এখানে আমরা এতে উপস্থিত হ্যাশট্যাগ বা উল্লেখের সংখ্যা গণনা করতে পারি। এটি আমাদের পাঠ্য ডেটা থেকে অতিরিক্ত তথ্য বের করতে সহায়তা করে৷
উদাহরণ কোড
import collections as ct
filename="C:/Users/TP/Desktop/css3.txt"
try:
with open(filename) as file_object:
contents=file_object.read()
except FileNotFoundError:
message="sorry" +filename
print(message)
else:
words=contents.split()
number_words=len(words)
special_chars = "#"
new=sum(v for k, v in ct.Counter(words).items() if k in special_chars)
print("Total Special Characters", new)
আউটপুট
Total Special Characters 0
সংখ্যার সংখ্যা
এখানে আমরা টেক্সট ফাইলগুলিতে উপস্থিত সাংখ্যিক ডেটার সংখ্যা গণনা করতে পারি। এটি একটি শব্দে অক্ষরের সংখ্যা গণনার সমান।
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt"
try:
with open(filename) as file_object:
contents=file_object.read()
except FileNotFoundError:
message="sorry" +filename
print(message)
else:
words=sum(map(str.isdigit, contents.split()))
print("TOTAL NUMERIC IN A TEXT FILE =",words)
আউটপুট
TOTAL NUMERIC IN A TEXT FILE = 2
বড় হাতের শব্দের সংখ্যা
isupper() ফাংশন ব্যবহার করে, আমরা পাঠ্যে বড় হাতের অক্ষরের সংখ্যা গণনা করতে পারি।
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt"
try:
with open(filename) as file_object:
contents=file_object.read()
except FileNotFoundError:
message="sorry" +filename
print(message)
else:
words=sum(map(str.isupper, contents.split()))
print("TOTAL UPPERCASE WORDS IN A TEXT FILE =",words)
আউটপুট
TOTAL UPPERCASE WORDS IN A TEXT FILE = 121