কম্পিউটার

html.parser — পাইথনে সাধারণ HTML এবং XHTML পার্সার


এই মডিউলে সংজ্ঞায়িত HTMLParser ক্লাসটি HTML এবং XHMTL নথি পার্স করার কার্যকারিতা প্রদান করে। এই ক্লাসে হ্যান্ডলার পদ্ধতি রয়েছে যা ট্যাগ, ডেটা, মন্তব্য এবং অন্যান্য HTML উপাদান সনাক্ত করতে পারে।

আমাদের একটি নতুন ক্লাস সংজ্ঞায়িত করতে হবে যা HTMLParser ক্লাসের উত্তরাধিকারী এবং feed() পদ্ধতি ব্যবহার করে HTML পাঠ্য জমা দিতে হবে।

from html.parser import HTMLParser
class parser(HTMLParser):
pass
p = parser()
p.feed('<a href = "www.tutorialspoint.com"></a>')

আমাদের এর নিম্নলিখিত পদ্ধতিগুলিকে ওভাররাইড করতে হবে

handle_starttag(tag, attrs):

HTML ট্যাগ সাধারণত শুরু এবং শেষ ট্যাগের জোড়ায় থাকে। যেমন এবং । এই পদ্ধতিটিকে একটি ট্যাগের শুরু পরিচালনা করতে বলা হয়।

ট্যাগের নাম ছোট হাতের অক্ষরে রূপান্তরিত করা হয়েছে। attrs আর্গুমেন্ট হল ট্যাগের <> বন্ধনীর মধ্যে পাওয়া বৈশিষ্ট্যগুলিকে বোঝায়৷

উদাহরণস্বরূপ, ট্যাগের জন্য , পার্সার অবজেক্টে খাওয়ানো হয়৷

from html.parser import HTMLParser
class parser(HTMLParser):
def handle_starttag(self, tag, attrs):
print("Start tag:", tag)
for attr in attrs:
print(" attr:", attr)
p = parser()
p.feed('<a href = "www.tutorialspoint.com">')

আউটপুট

Start tag: a
attr: ('href', 'www.tutorialspoint.com')
handle_endtag(tag):

এই পদ্ধতিটিকে একটি উপাদানের শেষ ট্যাগ পরিচালনা করার জন্য বলা হয়।

def handle_endtag(self, tag):
print ("end tag",tag)
handle_data(data):

ট্যাগগুলির মধ্যে নির্বিচারে ডেটা প্রক্রিয়া করার জন্য এই পদ্ধতিটিকে বলা হয়। যেমন:

def handle_data(self, data):
print (data)
p = parser()
html = '''
<html>
   <body>
      <h1>Tutorialspoint</h1>
      <b>Python standard library</b>
      <p>HTML module</p>
   </body>
</html>'''
p.feed(html)

আউটপুট

Start tag: h1
Tutorialspoint
end tag h1
Start tag: b
Python standard library
end tag b
Start tag: p
HTML module
end tag p

HTMLParser ক্লাসের অন্যান্য পদ্ধতিগুলি নিম্নরূপ:

get_starttag_text()

অতি সম্প্রতি খোলা স্টার্ট ট্যাগের পাঠ্যটি ফেরত দিন৷

getpos()

বর্তমান লাইন নম্বর এবং অফসেট ফেরত দিন।

handle_startendtag(ট্যাগ, attrs)

handle_starttag() এর মতো, কিন্তু যখন পার্সার একটি XHTML-শৈলীর খালি ট্যাগ (html.parser — পাইথনে সাধারণ HTML এবং XHTML পার্সার ) এর মুখোমুখি হয় তখন বলা হয়।

হ্যান্ডেল_মন্তব্য(ডেটা)

এই পদ্ধতিটি বলা হয় যখন একটি মন্তব্যের সম্মুখীন হয় (যেমন )।


  1. HTML <b> ট্যাগ

  2. HTML <address> ট্যাগ

  3. HTML <dl> ট্যাগ

  4. পাইথন প্রোগ্রামে সহজ আগ্রহ