কম্পিউটার

পাইথন প্রোগ্রামিং-এ lxml ব্যবহার করে ওয়েব স্ক্র্যাপিং বাস্তবায়ন করা


এই নিবন্ধে, আমরা পাইথনে উপলব্ধ lxml মডিউল ব্যবহার করে ওয়েব স্ক্র্যাপিং কৌশল সম্পর্কে শিখব।

ওয়েব স্ক্র্যাপিং কি?

ওয়েব স্ক্র্যাপিং একটি ক্রলার/স্ক্যানারের সাহায্যে একটি ওয়েবসাইট থেকে ডেটা প্রাপ্ত/ পেতে ব্যবহার করা হয়। ওয়েব স্ক্র্যাপিং এমন একটি ওয়েব পৃষ্ঠা থেকে ডেটা বের করতে সুবিধাজনক যা একটি API-এর কার্যকারিতা অফার করে না। পাইথনে, বিউটিফুল স্যুপ, স্ক্র্যাপি এবং lxml নামে বিভিন্ন মডিউলের সাহায্যে ওয়েব স্ক্র্যাপিং করা যেতে পারে।

এখানে আমরা lxml মডিউল ব্যবহার করে ওয়েব স্ক্র্যাপিং নিয়ে আলোচনা করব।

এর জন্য, আমাদের প্রথমে lxml ইনস্টল করতে হবে৷

টার্মিনাল বা কমান্ড প্রম্পটে টাইপ করুন -

>>> pip install lxml

এখানে এক্সপাথ ডেটা অ্যাক্সেস করতে ব্যবহৃত হয়।

এই নিবন্ধে, আমরা বিভিন্ন গেম সম্পর্কে তথ্য ধারণকারী স্টিম নামে পরিচিত ওয়েবসাইট থেকে ডেটা বের করব।

https://store.steampowered.com/genre/Free%20to%20Play/

পৃষ্ঠায়, আমরা জনপ্রিয় নতুন রিলিজ বিভাগ থেকে তথ্য বের করার চেষ্টা করব। এখানে আমরা নাম, দাম, ট্যাগ সম্পর্কিত এবং লক্ষ্য প্ল্যাটফর্ম বের করব।

পাইথন প্রোগ্রামিং-এ lxml ব্যবহার করে ওয়েব স্ক্র্যাপিং বাস্তবায়ন করা

পৃষ্ঠায় ক্রোমে পরিদর্শন উপাদান বৈশিষ্ট্য ব্যবহার করে নতুন রিলিজ ট্যাবের এইচটিএমএল কোড দেখুন। এখানে আমরা জানতে পারব কোন ট্যাগ প্রয়োজনীয় তথ্য সংরক্ষণ করছে।

এখানে এই ওয়েবসাইটে; প্রতিটি তালিকা উপাদান একটি div ট্যাগ id=tab_content-এ এনক্যাপসুলেট করা হয় যা আরও এনক্যাপসুলেট করা হয়

a div tag id=tab_select_newreleases

এখন এর বাস্তবায়ন দেখি


  1. পাইথন এবং স্ক্র্যাপি ব্যবহার করে ওয়েব স্ক্র্যাপিং?

  2. পাইথনে lxml ব্যবহার করে ওয়েব স্ক্র্যাপিং বাস্তবায়ন করছেন?

  3. পাইথনে CX_Freeze ব্যবহার করা

  4. ওয়েব স্ক্র্যাপিংয়ের জন্য পাইথন সরঞ্জাম