এই মডিউলে সংজ্ঞায়িত HTMLParser ক্লাসটি HTML এবং XHMTL নথি পার্স করার কার্যকারিতা প্রদান করে। এই ক্লাসে হ্যান্ডলার পদ্ধতি রয়েছে যা ট্যাগ, ডেটা, মন্তব্য এবং অন্যান্য HTML উপাদান সনাক্ত করতে পারে।
আমাদের একটি নতুন ক্লাস সংজ্ঞায়িত করতে হবে যা HTMLParser ক্লাসের উত্তরাধিকারী এবং feed() পদ্ধতি ব্যবহার করে HTML পাঠ্য জমা দিতে হবে।
from html.parser import HTMLParser class parser(HTMLParser): pass p = parser() p.feed('<a href = "www.tutorialspoint.com"></a>')
আমাদের এর নিম্নলিখিত পদ্ধতিগুলিকে ওভাররাইড করতে হবে
handle_starttag(tag, attrs):
HTML ট্যাগ সাধারণত শুরু এবং শেষ ট্যাগের জোড়ায় থাকে। যেমন
এবং । এই পদ্ধতিটিকে একটি ট্যাগের শুরু পরিচালনা করতে বলা হয়।ট্যাগের নাম ছোট হাতের অক্ষরে রূপান্তরিত করা হয়েছে। attrs আর্গুমেন্ট হল ট্যাগের <> বন্ধনীর মধ্যে পাওয়া বৈশিষ্ট্যগুলিকে বোঝায়৷
উদাহরণস্বরূপ, ট্যাগের জন্য , পার্সার অবজেক্টে খাওয়ানো হয়৷
from html.parser import HTMLParser class parser(HTMLParser): def handle_starttag(self, tag, attrs): print("Start tag:", tag) for attr in attrs: print(" attr:", attr) p = parser() p.feed('<a href = "www.tutorialspoint.com">')
আউটপুট
Start tag: a attr: ('href', 'www.tutorialspoint.com') handle_endtag(tag):
এই পদ্ধতিটিকে একটি উপাদানের শেষ ট্যাগ পরিচালনা করার জন্য বলা হয়।
def handle_endtag(self, tag): print ("end tag",tag) handle_data(data):
ট্যাগগুলির মধ্যে নির্বিচারে ডেটা প্রক্রিয়া করার জন্য এই পদ্ধতিটিকে বলা হয়। যেমন:
def handle_data(self, data): print (data) p = parser() html = ''' <html> <body> <h1>Tutorialspoint</h1> <b>Python standard library</b> <p>HTML module</p> </body> </html>''' p.feed(html)
আউটপুট
Start tag: h1 Tutorialspoint end tag h1 Start tag: b Python standard library end tag b Start tag: p HTML module end tag p
HTMLParser ক্লাসের অন্যান্য পদ্ধতিগুলি নিম্নরূপ:
get_starttag_text()
অতি সম্প্রতি খোলা স্টার্ট ট্যাগের পাঠ্যটি ফেরত দিন৷
৷getpos()
বর্তমান লাইন নম্বর এবং অফসেট ফেরত দিন।
handle_startendtag(ট্যাগ, attrs)
handle_starttag() এর মতো, কিন্তু যখন পার্সার একটি XHTML-শৈলীর খালি ট্যাগ () এর মুখোমুখি হয় তখন বলা হয়।
হ্যান্ডেল_মন্তব্য(ডেটা)
এই পদ্ধতিটি বলা হয় যখন একটি মন্তব্যের সম্মুখীন হয় (যেমন )।