কম্পিউটার

lxml ব্যবহার করে পাইথন ওয়েব স্ক্র্যাপিং বাস্তবায়ন করছে


এই নিবন্ধে, আমরা পাইথনে উপলব্ধ lxml মডিউল ব্যবহার করে ওয়েব স্ক্র্যাপিং কৌশল সম্পর্কে শিখব।

ওয়েব স্ক্র্যাপিং কি?

ওয়েব স্ক্র্যাপিং একটি ক্রলার/স্ক্যানারের সাহায্যে একটি ওয়েবসাইট থেকে ডেটা প্রাপ্ত/ পেতে ব্যবহার করা হয়। ওয়েব স্ক্র্যাপিং এমন একটি ওয়েব পৃষ্ঠা থেকে ডেটা বের করতে সুবিধাজনক যা একটি API-এর কার্যকারিতা অফার করে না। পাইথনে, বিউটিফুল স্যুপ, স্ক্র্যাপি এবং এলএক্সএমএল নামক বিভিন্ন মডিউলের সাহায্যে ওয়েব স্ক্র্যাপিং করা যেতে পারে।

এখানে আমরা lxml মডিউল ব্যবহার করে ওয়েব স্ক্র্যাপিং নিয়ে আলোচনা করব।

এর জন্য, আমাদের প্রথমে lxml ইনস্টল করতে হবে .

টার্মিনাল বা কমান্ড প্রম্পটে টাইপ করুন -

>>> pip install lxml

এখানে xpath ডাটা অ্যাক্সেস করতে ব্যবহৃত হয়।

এই নিবন্ধে আমরা বিভিন্ন গেম সম্পর্কে তথ্য ধারণকারী স্টিম নামে পরিচিত ওয়েবসাইট থেকে ডেটা বের করব।

https://store.steampowered.com/genre/Free%20to%20Play/

পৃষ্ঠায়, আমরা জনপ্রিয় নতুন রিলিজ বিভাগ থেকে তথ্য বের করার চেষ্টা করব।

এখানে আমরা নাম, দাম, ট্যাগ সম্পর্কিত এবং লক্ষ্য প্ল্যাটফর্ম বের করব।

lxml ব্যবহার করে পাইথন ওয়েব স্ক্র্যাপিং বাস্তবায়ন করছে

পৃষ্ঠায় ক্রোমে পরিদর্শন উপাদান বৈশিষ্ট্য ব্যবহার করে নতুন রিলিজ ট্যাবের এইচটিএমএল কোড দেখুন। এখানে আমরা জানতে পারব কোন ট্যাগ প্রয়োজনীয় তথ্য সংরক্ষণ করছে।

এখানে এই ওয়েবসাইটে; প্রতিটি তালিকা উপাদান একটি div ট্যাগ id=tab_content-এ এনক্যাপসলেট করা হয় যা আরও এনক্যাপস্যুয়াল করা হয়

a div tag id=tab_select_newreleases

এখন এর বাস্তবায়ন দেখি


  1. পাইথনে lxml ব্যবহার করে ওয়েব স্ক্র্যাপিং বাস্তবায়ন করছেন?

  2. পাইথনে ফটোমোজাইক প্রয়োগ করা

  3. পাইথনে CX_Freeze ব্যবহার করা

  4. ওয়েব স্ক্র্যাপিংয়ের জন্য পাইথন সরঞ্জাম