BeautifulSoup হল একটি তৃতীয় পক্ষের পাইথন লাইব্রেরি যা ওয়েব পৃষ্ঠাগুলি থেকে ডেটা পার্স করতে ব্যবহৃত হয়৷ এটি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং অ্যাপ্লিকেশানগুলিতে বিকাশকারীদের সাহায্য করে, ডেটা বিশ্লেষণে সহায়তা করে এবং এটি থেকে অর্থ অন্তর্দৃষ্টি বের করে৷
ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, বা NLP হল মেশিন লার্নিং এর একটি অংশ যা টেক্সট ডেটা এবং এটিকে মেশিন লার্নিং সমস্যায় ইনপুট হিসাবে সরবরাহ করার জন্য এটিকে প্রাক-প্রসেস করার উপায় নিয়ে কাজ করে।
ওয়েব স্ক্র্যাপিং গবেষণার উদ্দেশ্যে ডেটা বের করতে, বাজারের প্রবণতা বোঝা/তুলনা করতে, এসইও মনিটরিং সম্পাদন করতে এবং আরও অনেক কিছু করতে ব্যবহার করা যেতে পারে।
নিচের লাইনটি Windows-
-এ BeautifulSoup ইনস্টল করতে চালানো যেতে পারেpip install beautifulsoup4
নিম্নলিখিত একটি উদাহরণ -
উদাহরণ
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The titles are :") print(soup.title)
আউটপুট
The titles are : <title>Algorithm − Wikipedia
ব্যাখ্যা
-
প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়, এবং উপনামযুক্ত৷
৷ -
ওয়েবসাইটটি সংজ্ঞায়িত করা হয়েছে৷
৷ -
ইউআরএল খোলা হয়, এবং এটি থেকে ডেটা পড়া হয়।
-
'বিউটিফুল স্যুপ' ফাংশনটি ওয়েবপেজ থেকে পাঠ্য বের করতে ব্যবহৃত হয়।
-
শিরোনামগুলি 'টাইটেল' অ্যাট্রিবিউট ব্যবহার করে বের করা হয়।
-
শিরোনামগুলি কনসোলে মুদ্রিত হয়৷
৷