BeautifulSoup হল একটি তৃতীয় পক্ষের পাইথন লাইব্রেরি যা ওয়েব পৃষ্ঠাগুলি থেকে ডেটা পার্স করতে ব্যবহৃত হয়৷ এটি ওয়েব স্ক্র্যাপিংয়ে সহায়তা করে, যা বিভিন্ন সংস্থান থেকে ডেটা আহরণ, ব্যবহার এবং ম্যানিপুলেট করার একটি প্রক্রিয়া। এছাড়াও, এটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ অ্যাপ্লিকেশনগুলিতে বিকাশকারীদের সাহায্য করে, ডেটা বিশ্লেষণ করতে এবং এটি থেকে অর্থ অন্তর্দৃষ্টি বের করতে সহায়তা করে৷
ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং, বা NLP হল মেশিন লার্নিং এর একটি অংশ যা টেক্সট ডেটা এবং এটিকে মেশিন লার্নিং সমস্যায় ইনপুট হিসাবে সরবরাহ করার জন্য এটিকে প্রাক-প্রসেস করার উপায় নিয়ে কাজ করে।
ওয়েব স্ক্র্যাপিং গবেষণার উদ্দেশ্যে ডেটা বের করতে, বাজারের প্রবণতা বোঝা/তুলনা করতে, এসইও মনিটরিং সম্পাদন করতে এবং আরও অনেক কিছু করতে ব্যবহার করা যেতে পারে।
Windows-
-এ BeautifulSoup ইনস্টল করতে নিচের লাইনটি চালানো যেতে পারেউদাহরণ
pip install beautifulsoup4 import requests from bs4 import BeautifulSoup from urllib.request import urlopen import urllib url = 'https://en.wikipedia.org/wiki/Algorithm' parsed_uri = urllib.request.urlparse(url) domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri) print("The domain name is : ") print(domainName)
আউটপুট
The domain name is : https://en.wikipedia.org/
ব্যাখ্যা
-
প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়, এবং উপনামযুক্ত৷
৷ -
ওয়েবসাইটটি সংজ্ঞায়িত করা হয়েছে৷
৷ -
ডোমেইন নাম 'নেটলক' এবং 'স্কিম' ফাংশন ব্যবহার করে নির্ধারণ করা হয়।
-
'urlparse' ফাংশনটিকে ডোমেনের নাম পেতে বলা হয়।
-
ডোমেন নামটি কনসোলে প্রিন্ট করা হয়।