কিভাবে BeautifulSoup প্যাকেজ পাইথনে ওয়েবসাইটের ডোমেনের নাম বের করতে ব্যবহার করা যেতে পারে?

BeautifulSoup হল একটি তৃতীয় পক্ষের পাইথন লাইব্রেরি যা ওয়েব পৃষ্ঠাগুলি থেকে ডেটা পার্স করতে ব্যবহৃত হয়৷ এটি ওয়েব স্ক্র্যাপিংয়ে সহায়তা করে, যা বিভিন্ন সংস্থান থেকে ডেটা আহরণ, ব্যবহার এবং ম্যানিপুলেট করার একটি প্রক্রিয়া। এছাড়াও, এটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ অ্যাপ্লিকেশনগুলিতে বিকাশকারীদের সাহায্য করে, ডেটা বিশ্লেষণ করতে এবং এটি থেকে অর্থ অন্তর্দৃষ্টি বের করতে সহায়তা করে৷

ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, বা NLP হল মেশিন লার্নিং এর একটি অংশ যা টেক্সট ডেটা এবং এটিকে মেশিন লার্নিং সমস্যায় ইনপুট হিসাবে সরবরাহ করার জন্য এটিকে প্রাক-প্রসেস করার উপায় নিয়ে কাজ করে।

ওয়েব স্ক্র্যাপিং গবেষণার উদ্দেশ্যে ডেটা বের করতে, বাজারের প্রবণতা বোঝা/তুলনা করতে, এসইও মনিটরিং সম্পাদন করতে এবং আরও অনেক কিছু করতে ব্যবহার করা যেতে পারে।

Windows-

-এ BeautifulSoup ইনস্টল করতে নিচের লাইনটি চালানো যেতে পারে

উদাহরণ

pip install beautifulsoup4
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib

url = 'https://en.wikipedia.org/wiki/Algorithm'
parsed_uri = urllib.request.urlparse(url)
domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri)
print("The domain name is : ")
print(domainName)

আউটপুট

The domain name is :
https://en.wikipedia.org/

ব্যাখ্যা

প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়, এবং উপনামযুক্ত৷
৷
ওয়েবসাইটটি সংজ্ঞায়িত করা হয়েছে৷
৷
ডোমেইন নাম 'নেটলক' এবং 'স্কিম' ফাংশন ব্যবহার করে নির্ধারণ করা হয়।
'urlparse' ফাংশনটিকে ডোমেনের নাম পেতে বলা হয়।
ডোমেন নামটি কনসোলে প্রিন্ট করা হয়।