কম্পিউটার

পাইথন প্রোগ্রাম একটি ওয়েব পৃষ্ঠা ক্রল করতে এবং সর্বাধিক ঘন ঘন শব্দ পেতে


আমাদের কাজ হল একটি ওয়েব পেজ ক্রল করা এবং শব্দের ফ্রিকোয়েন্সি গণনা করা। এবং শেষ পর্যন্ত সর্বাধিক ঘন ঘন শব্দ পুনরুদ্ধার করা।

প্রথমে আমরা অনুরোধ এবং সুন্দর স্যুপ মডিউল ব্যবহার করছি এবং এই মডিউলগুলির সাহায্যে ওয়েব-ক্রলার তৈরি করছি এবং ওয়েব পেজ থেকে ডেটা বের করে একটি তালিকায় সংরক্ষণ করছি।

উদাহরণ কোড

 bs4 import BeautifulSoupimport অপারেটর থেকে আমদানির অনুরোধ সংগ্রহ থেকে আমদানি করুন Counterdef my_start(url):my_wordlist =[] my_source_code =requests.get(url).text my_soup =BeautifulSoup(my_source_code, 'html.fin_parser') প্রতিটির জন্য my_ll 'div', {'class':'entry-content'}):content =each_text.text word =content.lower().split() for each_word in word:my_wordlist.append(each_word) clean_wordlist(my_wordlist)# ফাংশন যেকোনো অবাঞ্ছিত চিহ্ন সরিয়ে দেয় ক্লিন_ওয়ার্ডলিস্ট(ওয়ার্ডলিস্ট):ওয়ার্ডলিস্টে শব্দের জন্য clean_list =[]:চিহ্ন ='!@#$%^&*()_-+={[}]|\;:"<>?/., ' রেঞ্জে i এর জন্য (0, লেন(চিহ্ন)):word =word.replace(চিহ্ন[i], '') if len(word)> 0:clean_list.append(word) create_dictionary(clean_list)def create_dictionary(clean_list) ):word_count ={} ক্লিন_লিস্টে শব্দের জন্য:যদি word_count-এ শব্দ থাকে:word_count[word] +=1 else:word_count[word] =1 c =Counter(word_count) # সবচেয়ে ঘটমান উপাদান শীর্ষ =c.most_common(10) print(top)# ড্রাইভার কোডিফ __name__ =='__main__':my_start("https://www.tutorialspoint.com/python3/python_overview.htm/") 

আউটপুট

<কেন্দ্র> পাইথন প্রোগ্রাম একটি ওয়েব পৃষ্ঠা ক্রল করতে এবং সর্বাধিক ঘন ঘন শব্দ পেতে
  1. চেষ্টা করুন এবং পাইথন প্রোগ্রাম ছাড়া

  2. পাইথন প্রোগ্রামে একটি বাক্যে শব্দ গণনা করুন

  3. পাইথন প্রোগ্রাম সবচেয়ে ঘটমান অক্ষর এবং তার সংখ্যা খুঁজে বের করতে

  4. পাইথনে ডেটা সেট থেকে k সবচেয়ে ঘন ঘন শব্দগুলি খুঁজুন