এই নিবন্ধে, আমরা পাইথনে উপলব্ধ lxml মডিউল ব্যবহার করে ওয়েব স্ক্র্যাপিং কৌশল সম্পর্কে শিখব।
ওয়েব স্ক্র্যাপিং কি?
ওয়েব স্ক্র্যাপিং একটি ক্রলার/স্ক্যানারের সাহায্যে একটি ওয়েবসাইট থেকে ডেটা প্রাপ্ত/ পেতে ব্যবহার করা হয়। ওয়েব স্ক্র্যাপিং এমন একটি ওয়েব পৃষ্ঠা থেকে ডেটা বের করতে সুবিধাজনক যা একটি API-এর কার্যকারিতা অফার করে না। পাইথনে, বিউটিফুল স্যুপ, স্ক্র্যাপি এবং এলএক্সএমএল নামক বিভিন্ন মডিউলের সাহায্যে ওয়েব স্ক্র্যাপিং করা যেতে পারে।
এখানে আমরা lxml মডিউল ব্যবহার করে ওয়েব স্ক্র্যাপিং নিয়ে আলোচনা করব।
এর জন্য, আমাদের প্রথমে lxml ইনস্টল করতে হবে .
টার্মিনাল বা কমান্ড প্রম্পটে টাইপ করুন -
>>> pip install lxml
এখানে xpath ডাটা অ্যাক্সেস করতে ব্যবহৃত হয়।
এই নিবন্ধে আমরা বিভিন্ন গেম সম্পর্কে তথ্য ধারণকারী স্টিম নামে পরিচিত ওয়েবসাইট থেকে ডেটা বের করব।
https://store.steampowered.com/genre/Free%20to%20Play/
পৃষ্ঠায়, আমরা জনপ্রিয় নতুন রিলিজ বিভাগ থেকে তথ্য বের করার চেষ্টা করব।
এখানে আমরা নাম, দাম, ট্যাগ সম্পর্কিত এবং লক্ষ্য প্ল্যাটফর্ম বের করব।
পৃষ্ঠায় ক্রোমে পরিদর্শন উপাদান বৈশিষ্ট্য ব্যবহার করে নতুন রিলিজ ট্যাবের এইচটিএমএল কোড দেখুন। এখানে আমরা জানতে পারব কোন ট্যাগ প্রয়োজনীয় তথ্য সংরক্ষণ করছে।
এখানে এই ওয়েবসাইটে; প্রতিটি তালিকা উপাদান একটি div ট্যাগ id=tab_content-এ এনক্যাপসলেট করা হয় যা আরও এনক্যাপস্যুয়াল করা হয়
a div tag id=tab_select_newreleases
এখন এর বাস্তবায়ন দেখি