BeautifulSoup হল একটি তৃতীয় পক্ষের পাইথন লাইব্রেরি যা ওয়েব পৃষ্ঠাগুলি থেকে ডেটা পার্স করতে ব্যবহৃত হয়৷ এটি ওয়েব স্ক্র্যাপিংয়ে সাহায্য করে, যা বিভিন্ন সংস্থান থেকে ডেটা আহরণ, ব্যবহার এবং ম্যানিপুলেট করার একটি প্রক্রিয়া৷
ওয়েব স্ক্র্যাপিং গবেষণার উদ্দেশ্যে ডেটা বের করতে, বাজারের প্রবণতা বোঝা/তুলনা করতে, এসইও মনিটরিং সম্পাদন করতে এবং আরও অনেক কিছু করতে ব্যবহার করা যেতে পারে।
Windows-
-এ BeautifulSoup ইনস্টল করতে নিচের লাইনটি চালানো যেতে পারেpip install beautifulsoup4
আসুন একটি উদাহরণ দেখি -
উদাহরণ
bs4 import BeautifulSoupfrom urllib.request import urlopenimport urlliburl ='https://en.wikipedia.org/wiki/Algorithm'html =urlopen(url).read()print("ওয়েবপৃষ্ঠা পড়া..." )স্যুপ =বিউটিফুল স্যুপ(html, features="html.parser")print("ওয়েবপৃষ্ঠা পার্সিং...")সুপে স্ক্রিপ্টের জন্য(["script", "style"]):script.extract() # rip it আউটপ্রিন্ট("ওয়েবপেজ থেকে পাঠ্য বের করা হচ্ছে...")টেক্সট =soup.get_text()print("ডেটা ক্লিনিং...")লাইন =(line.strip() text.splitlines()) খণ্ড =( phrase.split(""))টেক্সট ='\n'.join(খণ্ডে খণ্ডের জন্য খণ্ড খণ্ড হলে)টেক্সট =str(টেক্সট)প্রিন্ট (টেক্সট)
আউটপুট
<প্রে>ওয়েবপৃষ্ঠা পড়া...ওয়েবপৃষ্ঠাটি পার্স করা...ওয়েবপৃষ্ঠা থেকে পাঠ্য বের করা...ডেটা পরিষ্কার করা...উপরের ফ্লোচার্ট থেকে ইউক্লিডের অ্যালগরিদমের রিকার্সিভ সি বাস্তবায়ন বারবার একটি নির্দিষ্ট শর্ত (এছাড়াও পরিসমাপ্তি শর্ত হিসাবে পরিচিত) মেলে না হওয়া পর্যন্ত, যা কার্যকরী প্রোগ্রামিং-এর জন্য একটি সাধারণ পদ্ধতি…..DevelopersStatisticsCookie স্টেটমেন্টব্যাখ্যা
-
প্রয়োজনীয় প্যাকেজগুলি আমদানি করা হয়, এবং উপনামযুক্ত৷
৷ -
ওয়েবসাইটটি সংজ্ঞায়িত করা হয়েছে৷
৷ -
url খোলা হয়, এবং 'স্ক্রিপ্ট' ট্যাগ এবং অন্যান্য অপ্রাসঙ্গিক HTML ট্যাগগুলি সরানো হয়৷
-
'get_text' ফাংশনটি ওয়েবপৃষ্ঠা ডেটা থেকে পাঠ্য বের করতে ব্যবহৃত হয়।
-
অতিরিক্ত স্পেস এবং অকার্যকর শব্দ মুছে ফেলা হয়েছে।
-
পাঠ্যটি কনসোলে মুদ্রিত হয়৷
৷