এই অ্যাসাইনমেন্টে আমরা ফাইল নিয়ে কাজ করি। ফাইল এই মহাবিশ্বের সর্বত্র আছে. কম্পিউটার সিস্টেম ফাইল অপরিহার্য অংশ. অপারেটিং সিস্টেমে অনেক ফাইল থাকে।
পাইথনে দুই ধরনের ফাইল রয়েছে- টেক্সট ফাইল এবং বাইনারি ফাইল।
এখানে আমরা টেক্সট ফাইল সম্পর্কে আলোচনা করব
এখানে আমরা ফাইলের কিছু গুরুত্বপূর্ণ ফাংশন ফোকাস করি।
- শব্দের সংখ্যা
- অক্ষরের সংখ্যা
- গড় শব্দের দৈর্ঘ্য
- স্টপ শব্দের সংখ্যা
- বিশেষ অক্ষরের সংখ্যা
- সংখ্যার সংখ্যা
- বড় হাতের শব্দের সংখ্যা
আমাদের একটি পরীক্ষা ফাইল আছে "css3.txt", আমরা সেই ফাইলটিতে কাজ করছি
শব্দের সংখ্যা
যখন আমরা একটি বাক্যে শব্দের সংখ্যা গণনা করি, তখন আমরা বিভক্ত ব্যবহার করি ফাংশন এটি সবচেয়ে সহজ উপায়। এই ক্ষেত্রে আমরা বিভক্ত ফাংশন প্রয়োগ করি৷
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt" try: with open(filename) as file_object: contents=file_object.read() except FileNotFoundError: message="sorry" +filename print(message) else: words=contents.split() number_words=len(words) print("Total words of" + filename ,"is" , str(number_words))
আউটপুট
Total words of C:/Users/TP/Desktop/css3.txt is 3574
অক্ষরের সংখ্যা
এখানে আমরা একটি শব্দে অক্ষরের সংখ্যা গণনা করি, এখানে আমরা শব্দের দৈর্ঘ্য ব্যবহার করি। দৈর্ঘ্য 5 হলে সেই শব্দে 5টি অক্ষর থাকে।
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt" try: with open(filename) as file_object: contents=file_object.read() except FileNotFoundError: message="sorry" +filename print(message) else: words=0 characters=0 wordslist=contents.split() words+=len(wordslist) characters += sum(len(word) for word in wordslist) #print(lineno) print("TOTAL CHARACTERS IN A TEXT FILE =",characters)
আউটপুট
TOTAL CHARACTERS IN A TEXT FILE = 17783
গড় শব্দের দৈর্ঘ্য
এখানে, আমরা সমস্ত শব্দের দৈর্ঘ্যের যোগফল গণনা করি এবং এটিকে মোট দৈর্ঘ্য দিয়ে ভাগ করি।
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt" try: with open(filename) as file_object: contents=file_object.read() except FileNotFoundError: message="sorry" +filename print(message) else: words=0 wordslist=contents.split() words=len(wordslist) average= sum(len(word) for word in wordslist)/words print("Average=",average)
আউটপুট
Average= 4.97
স্টপ শব্দের সংখ্যা
এটি সমাধান করতে আমরা পাইথনে NLP লাইব্রেরি ব্যবহার করি।
উদাহরণ কোড
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_example_sent = "This is a sample sentence" mystop_words = set(stopwords.words('english')) my_word_tokens = word_tokenize(my_example_sent) my_filtered_sentence = [w for w in my_word_tokens if not w in mystop_words] my_filtered_sentence = [] for w in my_word_tokens: if w not in mystop_words: my_filtered_sentence.append(w) print(my_word_tokens) print(my_filtered_sentence)
বিশেষ অক্ষরের সংখ্যা
এখানে আমরা এতে উপস্থিত হ্যাশট্যাগ বা উল্লেখের সংখ্যা গণনা করতে পারি। এটি আমাদের পাঠ্য ডেটা থেকে অতিরিক্ত তথ্য বের করতে সহায়তা করে৷
উদাহরণ কোড
import collections as ct filename="C:/Users/TP/Desktop/css3.txt" try: with open(filename) as file_object: contents=file_object.read() except FileNotFoundError: message="sorry" +filename print(message) else: words=contents.split() number_words=len(words) special_chars = "#" new=sum(v for k, v in ct.Counter(words).items() if k in special_chars) print("Total Special Characters", new)
আউটপুট
Total Special Characters 0
সংখ্যার সংখ্যা
এখানে আমরা টেক্সট ফাইলগুলিতে উপস্থিত সাংখ্যিক ডেটার সংখ্যা গণনা করতে পারি। এটি একটি শব্দে অক্ষরের সংখ্যা গণনার সমান।
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt" try: with open(filename) as file_object: contents=file_object.read() except FileNotFoundError: message="sorry" +filename print(message) else: words=sum(map(str.isdigit, contents.split())) print("TOTAL NUMERIC IN A TEXT FILE =",words)
আউটপুট
TOTAL NUMERIC IN A TEXT FILE = 2
বড় হাতের শব্দের সংখ্যা
isupper() ফাংশন ব্যবহার করে, আমরা পাঠ্যে বড় হাতের অক্ষরের সংখ্যা গণনা করতে পারি।
উদাহরণ কোড
filename="C:/Users/TP/Desktop/css3.txt" try: with open(filename) as file_object: contents=file_object.read() except FileNotFoundError: message="sorry" +filename print(message) else: words=sum(map(str.isupper, contents.split())) print("TOTAL UPPERCASE WORDS IN A TEXT FILE =",words)
আউটপুট
TOTAL UPPERCASE WORDS IN A TEXT FILE = 121