BeautifulSoup ব্যবহার করে কিভাবে একটি ওয়েবপেজ থেকে শিরোনাম বের করা যায়?

BeautifulSoup হল একটি তৃতীয় পক্ষের পাইথন লাইব্রেরি যা ওয়েব পৃষ্ঠাগুলি থেকে ডেটা পার্স করতে ব্যবহৃত হয়৷ এটি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং অ্যাপ্লিকেশানগুলিতে বিকাশকারীদের সাহায্য করে, ডেটা বিশ্লেষণে সহায়তা করে এবং এটি থেকে অর্থ অন্তর্দৃষ্টি বের করে৷

ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, বা NLP হল মেশিন লার্নিং এর একটি অংশ যা টেক্সট ডেটা এবং এটিকে মেশিন লার্নিং সমস্যায় ইনপুট হিসাবে সরবরাহ করার জন্য এটিকে প্রাক-প্রসেস করার উপায় নিয়ে কাজ করে।

ওয়েব স্ক্র্যাপিং গবেষণার উদ্দেশ্যে ডেটা বের করতে, বাজারের প্রবণতা বোঝা/তুলনা করতে, এসইও মনিটরিং সম্পাদন করতে এবং আরও অনেক কিছু করতে ব্যবহার করা যেতে পারে।

নিচের লাইনটি Windows-

-এ BeautifulSoup ইনস্টল করতে চালানো যেতে পারে

pip install beautifulsoup4

নিম্নলিখিত একটি উদাহরণ -

উদাহরণ

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The titles are :")
print(soup.title)

আউটপুট

The titles are :
<title>Algorithm − Wikipedia

ব্যাখ্যা

প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়, এবং উপনামযুক্ত৷
৷
ওয়েবসাইটটি সংজ্ঞায়িত করা হয়েছে৷
৷
ইউআরএল খোলা হয়, এবং এটি থেকে ডেটা পড়া হয়।
'বিউটিফুল স্যুপ' ফাংশনটি ওয়েবপেজ থেকে পাঠ্য বের করতে ব্যবহৃত হয়।
শিরোনামগুলি 'টাইটেল' অ্যাট্রিবিউট ব্যবহার করে বের করা হয়।
শিরোনামগুলি কনসোলে মুদ্রিত হয়৷
৷