কম্পিউটার

বিউটিফুল স্যুপের সাথে পাইথনে ওয়েব স্ক্র্যাপিং বাস্তবায়ন করছেন?


BeautifulSoup পাইথনের bs4 মডিউলের একটি ক্লাস। সুন্দরসুপ তৈরির মূল উদ্দেশ্য হল এইচটিএমএল বা এক্সএমএল ডকুমেন্ট পার্স করা।

BS4 ইনস্টল করা হচ্ছে (ইন-শর্ট বিউটিস্যুপ)

পিপ মডিউল ব্যবহার করে সুন্দর স্যুপ ইনস্টল করা সহজ। আপনার কমান্ড শেলে শুধু নিচের কমান্ডটি চালান।

পিপ ইনস্টল bs4

আপনার টার্মিনালে উপরের কমান্ডটি চালালে, আপনার স্ক্রীনটি এরকম কিছু দেখতে পাবে -

C:\Users\rajesh>pip ইনস্টল করুন bs4সংগ্রহ করা bs4ডাউনলোড হচ্ছে https://files.pythonhosted.org/packages/10/ed/7e8b97591f6f456174139ec089c769f89a94a1a1a4025134/reily.p.in. \python361\lib\সাইট-প্যাকেজগুলি (bs4 থেকে) (4.6.0)সংগৃহীত প্যাকেজগুলির জন্য বিল্ডিং হুইল:bs4 বিল্ডিং হুইল bs4 (setup.py) ... সম্পন্ন ডিরেক্টরিতে সংরক্ষিত:C:\Users\rajesh\AppData\Local\ pip\Cache\wheels\a0\b0\b2\4f80b9456b87abedbc0bf2d52235414c3467d8889be38dd472সফলভাবে নির্মিত bs4সংগৃহীত প্যাকেজ ইনস্টল করা হচ্ছে:bs4সফলভাবে bs4-0 ইনস্টল করা হয়েছে। 

আপনার মেশিনে BeautifulSoup সফলভাবে ইনস্টল করা আছে কি না তা যাচাই করতে, ঠিক একই টার্মিনালে নিচের কমান্ডটি চালান---

C:\Users\rajesh>pythonPython 3.6.1 (v3.6.1:69c0db5, মার্চ 21, 2017, 17:54:52) [MSC v.1900 32 bit (Intel)] win32-এ "help", "কপিরাইট" টাইপ করুন আরও তথ্যের জন্য ", "ক্রেডিট" বা "লাইসেন্স"৷>>> bs4 থেকে BeautifulSoup আমদানি করুন 

সফল, দারুণ!.

উদাহরণ 1

একটি html নথি থেকে সমস্ত লিঙ্ক খুঁজুন এখন, ধরে নিন আমাদের একটি HTML নথি আছে এবং আমরা নথিতে সমস্ত রেফারেন্স লিঙ্ক সংগ্রহ করতে চাই৷ তাই প্রথমে আমরা ডকুমেন্টটিকে নিচের মত একটি স্ট্রিং হিসাবে সংরক্ষণ করব −

html_doc=''''''

এখন আমরা beautifulSoup এর ইনিশিয়ালাইজার ফাংশনে উপরের ভেরিয়েবল html_doc পাস করে একটি স্যুপ অবজেক্ট তৈরি করব।

bs4 আমদানি থেকে BeautifulSoupsoup =BeautifulSoup(html_doc, 'html.parser')

এখন আমাদের কাছে স্যুপ অবজেক্ট আছে, আমরা এতে BeautifulSoup ক্লাসের পদ্ধতি প্রয়োগ করতে পারি। এখন আমরা html_doc-এ প্রদত্ত অ্যাট্রিবিউটে ট্যাগের সমস্ত বৈশিষ্ট্য এবং মান খুঁজে পেতে পারি।

soup.find_all('a') এ ট্যাগের জন্য:print(tag.get('href'))

উপরের কোড থেকে আমরা html_doc স্ট্রিং-এর সমস্ত লিঙ্ক লুপের মাধ্যমে পাওয়ার চেষ্টা করছি যাতে প্রতিটি নথিতে পাওয়া যায় এবং href অ্যাট্রিবিউট পাওয়া যায়।

html_doc স্ট্রিং থেকে সমস্ত লিঙ্ক পেতে আমাদের সম্পূর্ণ কোড নীচে রয়েছে৷

bs4 থেকে BeautifulSouphtml_doc=''''''sup =BeautifulSoup(html_doc, 'html.parser ') ট্যাগের জন্য soup.find_all('a'):print(tag.get('href'))

ফলাফল

www.Tutorialspoint.comwww.nseindia.com.comwww.codesdope.comwww.google.comwww.facebook.comwww.wikipedia.orgwww.twitter.comwww.microsoft.comwww.github.comwww.nytimes.comwww.youtube.comwww .reddit.comwww.python.orgwww.stackoverflow.comwww.amazon.comwww.rediff.com

উদাহরণ 2

লিঙ্কে উল্লিখিত নির্দিষ্ট উপাদান (উদাহরণস্বরূপ:পাইথন) সহ একটি ওয়েবসাইট থেকে সমস্ত লিঙ্ক প্রিন্ট করে।

নীচের প্রোগ্রামটি একটি নির্দিষ্ট ওয়েবসাইট থেকে সমস্ত URL প্রিন্ট করবে যার লিঙ্কে "পাইথন" রয়েছে৷

 থেকে bs4 ইম্পোর্ট BeautifulSoupfrom urllib.request import urlopenimport rehtml =urlopen("https://www.python.org")সামগ্রী =html.read()soup =BeautifulSoup(content) for a in soup.findAll('a) ',href=True):if re.findall('python', a['href']):print("Python URL:", a['href'])

ফলাফল

Python URL:https://docs.python.orgPython URL:https://pypi.python.org/Python URL:https://www.facebook.com/pythonlang?fref=tsPython URL:https:// /brochure.getpython.info/Python URL:https://docs.python.org/3/license.htmlPython URL:https://wiki.python.org/moin/BeginnersGuidePython URL:https://devguide.python। org/Python URL:https://docs.python.org/faq/Python URL:https://wiki.python.org/moin/LanguagesPython URL:https://python.org/dev/peps/Python URL:https://wiki.python.org/moin/PythonBooksPython URL:https://wiki.python.org/moin/Python URL:https://www.python.org/psf/codeofconduct/Python URL:https:// /planetpython.org/Python URL:/events/python-eventsPython URL:/events/python-user-group/Python URL:/events/python-events/past/Python URL:/events/python-user-group/past /Python URL:https://wiki.python.org/moin/PythonEventsCalendar#Submitting_an_EventPython URL://docs.python.org/3/tutorial/controlflow.html#defining-functionsPython URL://docs.python.org/ 3/tutorial/introduction.html#li stsPython URL:https://docs.python.org/3/tutorial/introduction.html#using-python-as-a-calculatorPython URL://docs.python.org/3/tutorial/Python URL://docs .python.org/3/tutorial/controlflow.htmlPython URL:/downloads/release/python-373/Python URL:https://docs.python.orgPython URL://jobs.python.orgPython URL:https:// blog.python.orgPython URL:https://feedproxy.google.com/~r/PythonInsider/~3/Joo0vg55HKo/python-373-is-now-available.htmlPython URL:https://feedproxy.google.com/ ~r/PythonInsider/~3/N5tvkDIQ47g/python-3410-is-now-available.htmlPython URL:https://feedproxy.google.com/~r/PythonInsider/~3/n0mOibtx6_A/python-3.htmlPython URL:/events/python-events/805/Python URL:/events/python-events/817/Python URL:/events/python-user-group/814/Python URL:/events/python-events/789/Python URL:/events/python-events/831/Python URL:/success-stories/building-an-open-source-and-cross-platform-azure-cli-with-python/Python URL:/success-stories/building-an -ওপেন-সোর্স-এবং-ক্রস-প্ল্যাটফর্ম-এজিউর-ক্লি-উইট h-python/Python URL:https://wiki.python.org/moin/TkInterPython URL:https://www.wxpython.org/Python URL:https://ipython.orgPython URL:#python-networkPython URL:https://brochure.getpython.info/Python URL:https://docs.python.org/3/license.htmlPython URL:https://wiki.python.org/moin/BeginnersGuidePython URL:https://devguide .python.org/Python URL:https://docs.python.org/faq/Python URL:https://wiki.python.org/moin/LanguagesPython URL:https://python.org/dev/peps/ Python URL:https://wiki.python.org/moin/PythonBooksPython URL:https://wiki.python.org/moin/Python URL:https://www.python.org/psf/codeofconduct/Python URL:https://planetpython.org/Python URL:/events/python-eventsPython URL:/events/python-user-group/Python URL:/events/python-events/past/Python URL:/events/python-user- group/past/Python URL:https://wiki.python.org/moin/PythonEventsCalendar#Submitting_an_EventPython URL:https://devguide.python.org/Python URL:https://bugs.python.org/Python URL:https://mail.python.org/mailman /listinfo/python-devPython URL:#python-networkPython URL:https://github.com/python/pythondotorg/issuesPython URL:https://status.python.org/

  1. পাইথন এবং স্ক্র্যাপি ব্যবহার করে ওয়েব স্ক্র্যাপিং?

  2. পাইথনে lxml ব্যবহার করে ওয়েব স্ক্র্যাপিং বাস্তবায়ন করছেন?

  3. পাইথনে ফটোমোজাইক প্রয়োগ করা

  4. ওয়েব স্ক্র্যাপিংয়ের জন্য পাইথন সরঞ্জাম