BeautifulSoup হল একটি তৃতীয় পক্ষের পাইথন লাইব্রেরি যা ওয়েব পৃষ্ঠাগুলি থেকে ডেটা পার্স করতে ব্যবহৃত হয়৷ এটি ওয়েব স্ক্র্যাপিংয়ে সাহায্য করে, যা বিভিন্ন সংস্থান থেকে ডেটা আহরণ, ব্যবহার এবং ম্যানিপুলেট করার একটি প্রক্রিয়া৷
ওয়েব স্ক্র্যাপিং গবেষণার উদ্দেশ্যে ডেটা বের করতে, বাজারের প্রবণতা বোঝা/তুলনা করতে, এসইও মনিটরিং সম্পাদন করতে এবং আরও অনেক কিছু করতে ব্যবহার করা যেতে পারে।
Windows-
-এ BeautifulSoup ইনস্টল করতে নিচের লাইনটি চালানো যেতে পারেpip install beautifulsoup4
নিম্নলিখিত একটি উদাহরণ -
উদাহরণ
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The href links are :") for link in soup.find_all('a'): print(link.get('href'))
আউটপুট
The href links are : … https://stats.wikimedia.org/#/en.wikipedia.org https://foundation.wikimedia.org/wiki/Cookie_statement https://wikimediafoundation.org/ https://www.mediawiki.org/
ব্যাখ্যা
-
প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়, এবং উপনামযুক্ত৷
৷ -
ওয়েবসাইটটি সংজ্ঞায়িত করা হয়েছে৷
৷ -
ইউআরএল খোলা হয়, এবং এটি থেকে ডেটা পড়া হয়।
-
'বিউটিফুল স্যুপ' ফাংশনটি ওয়েবপেজ থেকে পাঠ্য বের করতে ব্যবহৃত হয়।
-
'ফাইন্ড_অল' ফাংশনটি ওয়েবপৃষ্ঠা ডেটা থেকে পাঠ্য বের করতে ব্যবহৃত হয়।
-
href লিঙ্কগুলি কনসোলে মুদ্রিত হয়৷
৷