কম্পিউটার

ScrapingHub এ স্ক্র্যাপি মাকড়সা স্থাপন করা হচ্ছে


স্ক্র্যাপি মাকড়সা

স্ক্র্যাপি স্পাইডার হল এমন একটি শ্রেণী যা ওয়েবসাইটের লিঙ্কগুলি অনুসরণ করার এবং ওয়েবপৃষ্ঠাগুলি থেকে তথ্য বের করার সুবিধা প্রদান করে৷

এটি হল প্রধান শ্রেণী যেখান থেকে অন্যান্য মাকড়সা অবশ্যই উত্তরাধিকার সূত্রে পাবেন।

স্ক্র্যাপিংহাব

স্ক্র্যাপিংহাব হল স্ক্র্যাপি স্পাইডার চালানোর জন্য একটি ওপেন সোর্স অ্যাপ্লিকেশন। স্ক্র্যাপিংহাব ওয়েব সামগ্রীকে কিছু দরকারী ডেটা বা তথ্যে পরিণত করে। এটি আমাদেরকে ওয়েবপেজ থেকে ডাটা বের করতে দেয়, এমনকি জটিল ওয়েবপেজগুলির জন্যও৷

আমরা ক্লাউডে স্ক্র্যাপি মাকড়সা স্থাপন করতে এবং এটি কার্যকর করতে স্ক্র্যাপিংহাব ব্যবহার করতে যাচ্ছি।

স্ক্র্যাপিংহাব −

-এ মাকড়সা স্থাপনের পদক্ষেপ

ধাপ1 −

একটি স্ক্র্যাপি প্রকল্প তৈরি করুন -

স্ক্র্যাপি ইনস্টল করার পরে, আপনার টার্মিনালে নিম্নলিখিত কমান্ডটি চালান -

$scrapy startproject <project_name>

আপনার ডিরেক্টরিকে আপনার নতুন প্রকল্পে পরিবর্তন করুন (project_name)।

ধাপ 2 −

আপনার টার্গেট ওয়েবসাইটের জন্য একটি স্ক্র্যাপি স্পাইডার লিখুন, আসুন একটি সাধারণ ওয়েবসাইট "quotes.toscrape.com" গ্রহণ করি।

নীচে আমার খুব সাধারণ স্ক্র্যাপি স্পাইডার -

কোড -

#import scrapy library
import scrapy

class AllSpider(scrapy.Spider):

crawled = set()
#Spider name
name = 'all'
#starting url
start_urls = ['https://www.tutorialspoint.com/']

def __init__(self):
   self.links = []

def parse(self, response):
   self.links.append(response.url)
   for href in response.css('a::attr(href)'):
      yield response.follow(href, self.parse)

ধাপ 3 -

আপনার স্পাইডার চালান এবং আপনার links.json ফাইলে আউটপুট সংরক্ষণ করুন −

উপরের কোডটি কার্যকর করার পরে, আপনি সমস্ত লিঙ্ক স্ক্র্যাপ করতে এবং links.json ফাইলের ভিতরে সংরক্ষণ করতে সক্ষম হবেন। এটি একটি দীর্ঘ প্রক্রিয়া নাও হতে পারে তবে এটিকে ক্রমাগতভাবে চব্বিশ ঘন্টা (24/7) চালানোর জন্য আমাদের এই মাকড়সাটিকে স্ক্র্যাপিংহাবে স্থাপন করতে হবে৷

ধাপ 4 −

স্ক্র্যাপিংহাবে অ্যাকাউন্ট তৈরি করা হচ্ছে

এর জন্য, আপনাকে শুধু আপনার Gmail অ্যাকাউন্ট বা Github ব্যবহার করে ScrapingHub লগইন পৃষ্ঠায় লগইন করতে হবে। এটি ড্যাশবোর্ডে পুনঃনির্দেশিত হবে৷

ScrapingHub এ স্ক্র্যাপি মাকড়সা স্থাপন করা হচ্ছে

এখন Create project এ ক্লিক করুন এবং প্রজেক্টের নাম উল্লেখ করুন। এখন আমরা কমান্ড লাইন (সিএলআই) ব্যবহার করে বা গিথুবের মাধ্যমে আমাদের প্রকল্পটি ক্লাউডে যুক্ত করতে পারি। এরপর আমরা shub CLI এর মাধ্যমে আমাদের কোড স্থাপন করতে যাচ্ছি, প্রথমে shub ইনস্টল করুন

$pip install shub

shub ইনস্টল করার পরে, অ্যাকাউন্ট তৈরি করার সময় তৈরি করা api কী ব্যবহার করে shub অ্যাকাউন্টে লগইন করুন (https://app.scrapinghub.com/account/apikey থেকে আপনার API কী লিখুন)।

$shub login

আপনার API কী ঠিক থাকলে, আপনি এখন লগ ইন করেছেন। এখন আমাদের ডিপ্লয় আইডি ব্যবহার করে এটি স্থাপন করতে হবে, যা আপনি "আপনার কোড স্থাপন করুন" বিভাগের কমান্ড লাইন বিভাগে দেখতে পাচ্ছেন (6 সংখ্যার নম্বর)।

$ shub deploy deploy_id

এটি কমান্ড লাইন থেকে, এখন স্পাইডার্স ড্যাশবোর্ড বিভাগে ফিরে যান, ব্যবহারকারী প্রস্তুত মাকড়সা দেখতে পারেন। শুধু মাকড়সার নাম এবং রান বোতামে ক্লিক করুন৷এটাই এখন আপনি আপনার ড্যাশবোর্ডে আপনার মাকড়সা দেখতে পাবেন, যেমন −

ScrapingHub এ স্ক্র্যাপি মাকড়সা স্থাপন করা হচ্ছে

এটি আমাদের দেখাবে, একটি ক্লিকের মাধ্যমে চলমান অগ্রগতি এবং আপনাকে আপনার স্থানীয় মেশিন 24/7 চালানোর প্রয়োজন নেই৷


  1. উইন্ডোজ 11/10-এ রিমোট অ্যাক্সেস সহ সর্বদা ভিপিএন-এ স্থাপন করা হচ্ছে

  2. রুবি দিয়ে Google ক্লাউড ফাংশন তৈরি করা, পরীক্ষা করা এবং স্থাপন করা

  3. রুবিতে AWS Lambda ফাংশন তৈরি করা, পরীক্ষা করা এবং স্থাপন করা

  4. AWS Lambda এ রেল স্থাপন করা হচ্ছে