কম্পিউটার

কিভাবে BeautifulSoup একটি ওয়েবসাইট থেকে 'href' লিঙ্কগুলি বের করতে ব্যবহার করা যেতে পারে?


BeautifulSoup হল একটি তৃতীয় পক্ষের পাইথন লাইব্রেরি যা ওয়েব পৃষ্ঠাগুলি থেকে ডেটা পার্স করতে ব্যবহৃত হয়৷ এটি ওয়েব স্ক্র্যাপিংয়ে সাহায্য করে, যা বিভিন্ন সংস্থান থেকে ডেটা আহরণ, ব্যবহার এবং ম্যানিপুলেট করার একটি প্রক্রিয়া৷

ওয়েব স্ক্র্যাপিং গবেষণার উদ্দেশ্যে ডেটা বের করতে, বাজারের প্রবণতা বোঝা/তুলনা করতে, এসইও মনিটরিং সম্পাদন করতে এবং আরও অনেক কিছু করতে ব্যবহার করা যেতে পারে।

Windows-

-এ BeautifulSoup ইনস্টল করতে নিচের লাইনটি চালানো যেতে পারে
pip install beautifulsoup4

নিম্নলিখিত একটি উদাহরণ -

উদাহরণ

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
   print(link.get('href'))

আউটপুট

The href links are :
…
https://stats.wikimedia.org/#/en.wikipedia.org
https://foundation.wikimedia.org/wiki/Cookie_statement
https://wikimediafoundation.org/
https://www.mediawiki.org/

ব্যাখ্যা

  • প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়, এবং উপনামযুক্ত৷

  • ওয়েবসাইটটি সংজ্ঞায়িত করা হয়েছে৷

  • ইউআরএল খোলা হয়, এবং এটি থেকে ডেটা পড়া হয়।

  • 'বিউটিফুল স্যুপ' ফাংশনটি ওয়েবপেজ থেকে পাঠ্য বের করতে ব্যবহৃত হয়।

  • 'ফাইন্ড_অল' ফাংশনটি ওয়েবপৃষ্ঠা ডেটা থেকে পাঠ্য বের করতে ব্যবহৃত হয়।

  • href লিঙ্কগুলি কনসোলে মুদ্রিত হয়৷


  1. পাইথনে ডেটা ভিজ্যুয়ালাইজ করতে সিবোর্নে ফ্যাক্টরপ্লট কীভাবে ব্যবহার করা যেতে পারে?

  2. পাইথনে সিবোর্ন লাইব্রেরিতে বার প্লট কীভাবে ব্যবহার করা যেতে পারে?

  3. ওয়েবসাইট থেকে এক্সেল থেকে স্বয়ংক্রিয়ভাবে ডেটা কীভাবে বের করবেন

  4. কিভাবে একটি ওয়েবসাইট থেকে এক্সেলে ডেটা আমদানি করবেন?