এই নিবন্ধে, আমরা বিটিফুলসুপ এবং পাইথনে অনুরোধগুলি ব্যবহার করে উইকিপিডিয়ার ইনফোবক্স থেকে পাঠ্যটি স্ক্র্যাপ করতে যাচ্ছি। আমরা 10 মিনিটের মধ্যে এটি করতে পারি। এটা সোজা।
আমাদের bs4 এবং অনুরোধ ইনস্টল করতে হবে। ইন্সটল করতে নিচের কমান্ডগুলো চালান।
pip install bs4 pip install requests
আমরা ইনফোবক্স থেকে যে টেক্সট চাই তা আনতে কোড লিখতে নিচের ধাপগুলি অনুসরণ করুন।
- bs4 এবং অনুরোধ মডিউল আমদানি করুন।
- যে পৃষ্ঠায় আপনি requests.get() পদ্ধতি ব্যবহার করে ডেটা আনতে চান সেখানে একটি HTTP অনুরোধ পাঠান।
- bs4.BeautifulSoup ক্লাস ব্যবহার করে প্রতিক্রিয়া টেক্সট পার্স করুন এবং এটি একটি ভেরিয়েবলে সংরক্ষণ করুন।
- উইকিপিডিয়া পৃষ্ঠায় যান এবং আপনি যে উপাদানটি চান তা পরিদর্শন করুন।
- bs4 দ্বারা প্রদত্ত একটি উপযুক্ত পদ্ধতি ব্যবহার করে উপাদান খুঁজুন।
আসুন নীচের উদাহরণ কোডটি দেখি।
উদাহরণ
# importing the module import requests import bs4 # URL URL = "https://en.wikipedia.org/wiki/India" # sending the request response = requests.get(URL) # parsing the response soup = bs4.BeautifulSoup(response.text, 'html') # Now, we have paresed HTML with us. I want to get the _motto_ from the wikipedia page. # Elements structure # table - class="infobox" # 3rd tr to get motto # getting infobox infobox = soup.find('table', {'class': 'infobox'}) # getting 3rd row element tr third_tr = infobox.find_all('tr')[2] # from third_tr we have to find first 'a' element and 'div' element to get required data first_a = third_tr.div.find('a') div = third_tr.div.div # motto motto = f"{first_a.text} {div.text[:len(div.text) - 3]}" # printing the motto print(motto)
আপনি যদি উপরের প্রোগ্রামটি চালান তবে আপনি নিম্নলিখিত ফলাফল পাবেন৷
আউটপুট
Satyameva Jayate "Truth Alone Triumphs"
উপসংহার
আপনি পরিদর্শন করে এবং উইকিপিডিয়া পৃষ্ঠায় উপাদান খুঁজে পেতে আপনার ইচ্ছামত যে কোনো তথ্য পেতে পারেন। টিউটোরিয়াল সম্পর্কে আপনার কোন প্রশ্ন থাকলে মন্তব্য বিভাগে উল্লেখ করুন।