ফোকাস করা ওয়েব ক্রলারের বিভিন্ন উপাদান রয়েছে যা নিম্নরূপ -
বীজ আবিষ্কারক − বীজ সনাক্তকারীর পরিষেবা হল প্রথম n URL গুলি এনে নির্দিষ্ট কীওয়ার্ডের জন্য বীজ URL গুলি নির্ধারণ করা৷ পেজ র্যাঙ্ক অ্যালগরিদম বা হিট অ্যালগরিদম বা অ্যালগরিদমের উপর নির্ভর করে বীজ পৃষ্ঠাগুলি চিহ্নিত করা হয় এবং একটি অগ্রাধিকার বরাদ্দ করা হয়৷
ক্রলার ম্যানেজার - ক্রলার ম্যানেজার হাইপারটেক্সট বিশ্লেষক অনুসরণকারী সিস্টেমের একটি অপরিহার্য উপাদান। কম্পোনেন্ট গ্লোবাল ওয়েব থেকে ফাইল ডাউনলোড করে। URL সংগ্রহস্থলের URLগুলি পুনরুদ্ধার করা হয় এবং ক্রলার ম্যানেজারের বাফারে তৈরি করা হয়৷
URL বাফার একটি অগ্রাধিকার সারি। এটি URL বাফারের আকারের উপর নির্ভর করে, ক্রলার ম্যানেজার গতিশীলভাবে ক্রলারগুলির জন্য একটি উদাহরণ তৈরি করে, যা ফাইলগুলি ডাউনলোড করবে৷
আরও কার্যকারিতার জন্য, ক্রলার ম্যানেজার একটি ক্রলার পুল তৈরি করতে পারে। ম্যানেজার ক্রলারের গতি সীমিত করার জন্য এবং তাদের মধ্যে ভারসাম্য বজায় রাখার জন্যও দায়ী। এটি ক্রলার পরিদর্শন করে সম্পন্ন হয়৷
৷ক্রলার − ক্রলার হল একটি মাল্টি-থ্রেড জাভা কোড, যা ওয়েব থেকে ওয়েব পৃষ্ঠাগুলি ডাউনলোড করতে এবং নথি সংগ্রহস্থলে ফাইলগুলি সংরক্ষণ করার জন্য পর্যাপ্ত৷ প্রতিটি ক্রলারের একটি সারি থাকে, যা ক্রল করা URLগুলির তালিকাকে প্রভাবিত করে৷ ক্রলার সারি থেকে URL পুনরুদ্ধার করেছে৷
৷বিভিন্ন ক্রলার একটি অনুরূপ সার্ভারে একটি অনুরোধ শেয়ার করবে. তাই অনুরূপ সার্ভারে অনুরোধ পাঠানোর ফলে সার্ভার ওভারলোড হবে। সার্ভারটি অনুরোধটি পূরণ করতে সক্রিয় রয়েছে যা অনুরোধটি শেয়ার করা ক্রলারদের থেকে উপস্থিত হতে হবে এবং প্রতিক্রিয়ার অপেক্ষায় রয়েছে৷
সার্ভারটি সিঙ্ক্রোনাইজ করা হয়েছে। যদি URL-এর জন্য অনুরোধটি আগে ভাগ করা না হয়, তাহলে অনুরোধটি HTTP কাঠামোতে ফরোয়ার্ড করা হয়। এটি প্রদান করে যে ক্রলার কিছু সার্ভারকে ওভারলোড করে না।
লিঙ্ক এক্সট্র্যাক্টর - লিঙ্ক এক্সট্র্যাক্টর নথি সংগ্রহস্থলে উপস্থিত ফাইলগুলি থেকে সংযোগ গ্রহণ করে। URL-এ থাকা URL-এর জন্য উপাদান পরীক্ষাগুলি পুনরুদ্ধার করা হয়েছে৷ আবিষ্কৃত না হলে, হাইপারলিঙ্কের পূর্ববর্তী এবং পরবর্তী পার্শ্ববর্তী পাঠ্য, শিরোনাম বা উপ-শিরোনাম যার অধীনে সংযোগটি উপস্থিত রয়েছে, বের করা হয়৷
হাইপারটেক্সট বিশ্লেষক − হাইপারটেক্সট বিশ্লেষক লিঙ্ক এক্সট্র্যাক্টর থেকে কীওয়ার্ডগুলি পায় এবং শ্রেণীবিন্যাস শ্রেণিবিন্যাস সংজ্ঞায়িত করে অনুসন্ধান কীওয়ার্ডের সাথে পদ্ধতিগুলির প্রাসঙ্গিকতা আবিষ্কার করে৷
HTTP প্রোটোকল মডিউল − HTTP প্রোটোকল মডিউল সেই ফাইলগুলির জন্য অনুরোধ শেয়ার করে যার URL সারি থেকে স্বীকার করা হয়েছে। ডকুমেন্ট পাওয়ার পর, ডাউনলোড করা ডকুমেন্টের ইউআরএল টাইমস্ট্যাম্পের সাথে আনা ইউআরএলে সংরক্ষণ করা হয় এবং ডকুমেন্টটি ডকুমেন্ট রিপোজিটরিতে সংরক্ষিত হয়।