কম্পিউটার

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

আপনি যদি ওয়েবপৃষ্ঠাগুলি থেকে জিনিসগুলি অনুলিপি এবং আটকান এবং ম্যানুয়ালি সেগুলিকে স্প্রেডশীটে রাখছেন, আপনি হয় ডেটা স্ক্র্যাপিং (বা ওয়েব স্ক্র্যাপিং) কী তা জানেন না, বা আপনি এটি কী তা জানেন তবে এর ধারণাটি নিয়ে সত্যিই আগ্রহী নন ক্লিক করার কয়েক ঘন্টা নিজেকে বাঁচাতে কীভাবে কোড করতে হয় তা শিখছি।

যেভাবেই হোক, অনেকগুলি নো-কোড ডেটা-স্ক্র্যাপিং টুল রয়েছে যা আপনাকে সাহায্য করতে পারে এবং ডেটা মাইনারের ক্রোম এক্সটেনশন হল আরও স্বজ্ঞাত বিকল্পগুলির মধ্যে একটি৷ আপনি যদি ভাগ্যবান হন, আপনি যে কাজটি করার চেষ্টা করছেন তা ইতিমধ্যেই টুলের রেসিপি বইতে অন্তর্ভুক্ত করা হবে, এবং এমনকি আপনার নিজের তৈরি করার জন্য আপনাকে পয়েন্ট-এন্ড-ক্লিক পদক্ষেপগুলিও অতিক্রম করতে হবে না।

ডেটা মাইনার কিভাবে কাজ করে?

ডেটা মাইনার আপনার লোড করা পৃষ্ঠাগুলির পাঠ্য দেখে ওয়েবপেজগুলি থেকে এবং সুন্দরভাবে ফর্ম্যাট করা Excel/CSV ফাইলগুলিতে ডেটা পেতে সহায়তা করে৷ এর অর্থ হল আপনাকে কয়েকটি প্যাটার্ন চিনতে HTML এর সাথে অন্তত যথেষ্ট স্বাচ্ছন্দ্য বোধ করতে হবে, তবে খুব বেশি কিছু নয়। উন্নত এইচটিএমএল এবং/অথবা জাভাস্ক্রিপ্ট দক্ষতা অবশ্যই কিছু কাজে সাহায্য করবে কিন্তু বেশিরভাগ জিনিসের জন্য প্রয়োজনীয় নয়। আপনার অন্তত মৌলিক স্প্রেডশীট দক্ষতা থাকতে হবে যাতে আপনি নিশ্চিত হতে পারেন যে আপনার আউটপুট পরিষ্কার এবং সংগঠিত।

1. ডেটা মাইনার সেট আপ করুন

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

ক্রোম বা অন্য ক্রোমিয়াম ব্রাউজার ব্যবহার করে, এক্সটেনশনটি ইনস্টল করুন। এক্সটেনশনের পিকএক্স আইকনটি আপনার টুলবারে উপস্থিত হবে এবং এটিতে ক্লিক করলে আপনাকে একটি পৃষ্ঠায় নিয়ে যাবে যেখানে আপনি একটি অ্যাকাউন্ট সেট আপ করতে পারবেন। বিনামূল্যের সংস্করণটি আপনাকে মাসে 500টি স্ক্র্যাপ দেয়, যা সম্ভবত আপনার জন্য যথেষ্ট যদি না আপনি প্রতিদিন এটি করেন৷

2. ডেটা লোড করুন

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

প্রথমে, আপনি যে পৃষ্ঠা থেকে ডেটা বের করতে চান সেখানে নেভিগেট করুন। আপনার যদি একাধিক পৃষ্ঠার ডেটা থাকে বা এর কিছু অংশ বোতামের পিছনে লুকানো থাকে, তাহলে ঠিক আছে - এটি মোকাবেলা করার উপায় রয়েছে। আপাতত, আপনার শুধুমাত্র একটি প্রতিনিধি নমুনা প্রয়োজন যাতে প্রোগ্রামটি জানতে পারে কী খুঁজতে হবে৷

3. একটি রেসিপি দেখুন

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

এরপরে, ডেটা মাইনার খুলুন এবং বিদ্যমান রেসিপিগুলির জন্য "পাবলিক" ট্যাবটি পরীক্ষা করুন৷ আপনি যদি একটি জনপ্রিয় সাইটে থাকেন, তাহলে আপনি যে ডেটা খুঁজছেন তা পাওয়ার জন্য অন্য কেউ ইতিমধ্যে একটি প্রক্রিয়া তৈরি করে থাকতে পারে, যা আপনার বেশ কিছুটা সময় বাঁচাতে পারে। উদাহরণস্বরূপ, গুগল, অ্যামাজন এবং টুইটারের মতো সাইটগুলিতে আপনাকে অবিলম্বে লিঙ্ক, মূল্য, পাঠ্য এবং অন্যান্য ডেটা ডাউনলোড করতে সহায়তা করার জন্য প্রচুর রেসিপি উপলব্ধ রয়েছে। আপনি স্প্রেডশীট ডেটা মাইনার তৈরির পূর্বরূপ দেখতে "রান" বোতামে ক্লিক করে রেসিপি পরীক্ষা করতে পারেন। আপনি "সম্পাদনা" বোতাম টিপে আপনার প্রয়োজন অনুসারে বিদ্যমান রেসিপিগুলিকেও পরিবর্তন করতে পারেন৷

4. পৃষ্ঠার ধরন

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

ঠিক আছে, তাই কোনো প্রিমেড রেসিপি আপনার জন্য কাজ করেনি। এটা ঠিক আছে, আপনি আপনার নিজের করতে পারেন. শুরু করতে শুধু "নতুন রেসিপি" বোতামে ক্লিক করুন৷

আপনার প্রথম পছন্দ হবে "তালিকা পৃষ্ঠা" বা "বিশদ পৃষ্ঠা।"

আপনি যদি একটি একক পৃষ্ঠা থেকে একাধিক সারি ডেটা পাওয়ার চেষ্টা করেন তবে "তালিকা পৃষ্ঠা" নির্বাচন করুন৷ উদাহরণস্বরূপ, আপনি প্রতিটি অনুসন্ধান ফলাফলের লিঙ্ক এবং পৃষ্ঠার শিরোনাম ডাউনলোড করতে বা একটি ফিডে পোস্টের তারিখ এবং বিষয়বস্তু পেতে চাইতে পারেন। এটি সম্ভবত সবচেয়ে সাধারণ প্রকার এবং আমরা এখানে ডেমো হিসাবে ব্যবহার করব। (একটি বিস্তারিত পৃষ্ঠার ধাপগুলি মূলত একই।)

একটি পৃষ্ঠায় একটি জিনিস সম্পর্কে আপনার কাছে অনেকগুলি ভিন্ন তথ্য থাকলে "বিশদ পৃষ্ঠা" নির্বাচন করুন – একটি পণ্যের পৃষ্ঠা, উদাহরণস্বরূপ, যেখানে আপনাকে এটির মূল্য, বিবরণ, লিঙ্ক এবং রেটিং নিতে হবে এবং এটিকে এক সারিতে রাখতে হবে .

ধাপ 5:আপনার সারি তৈরি করুন

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

"খুঁজুন" বোতামটি টিপুন এবং আপনার মাউসকে নাড়ান যতক্ষণ না হলুদ নির্বাচন বাক্সটি আপনার চূড়ান্ত স্প্রেডশীটে একটি একক প্রবেশের জন্য প্রয়োজনীয় সমস্ত ডেটা কভার করে। উদাহরণস্বরূপ, যদি আপনি অনুসন্ধানের ফলাফলগুলি ডাউনলোড করেন তবে আপনাকে শিরোনাম, URL এবং বিবরণ অন্তর্ভুক্ত করার জন্য যথেষ্ট বড় এলাকা হাইলাইট করতে হবে, যার প্রতিটি আপনি পরবর্তী ধাপে আলাদা কলামে রাখতে পারেন। আপনার নির্বাচন করতে, Shift টিপুন মূল. আপনি ভুলবশত ক্লিক করলে চিন্তা করবেন না; ডেটা মাইনার আপনার সমস্ত রেসিপি অগ্রগতি সংরক্ষণ করে এমনকি আপনি যদি পৃষ্ঠা থেকে দূরে যান।

তারপরে আপনি "এলিমেন্টের ক্লাস" বা "এইচটিএমএল এলিমেন্ট টাইপ" বিভাগে অন্তত একটি বাক্স চেক করতে চাইবেন। আদর্শভাবে, আপনি পৃষ্ঠার প্রতিটি উপাদানকে কভার করার জন্য নির্বাচনের প্রতিলিপি দেখতে পাবেন যেটি আপনার নির্বাচিতটির মতো একই বিভাগে রয়েছে।

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

আপনি যদি দেখেন যে নির্বাচক আপনার প্রয়োজনীয় সমস্ত কিছু কভার করছে না, তবে শুধুমাত্র একটি উপাদান নির্বাচন করার চেষ্টা করুন এবং "পিতা-মাতা নির্বাচন করুন" টিপুন। এটি বাক্সটিকে বড় করে তুলবে এবং সম্ভবত আপনার প্রয়োজনীয় সবকিছু ক্যাপচার করবে। যদি তা না হয়, তাহলে আপনাকে এইচটিএমএল-এ কিছুটা খনন করতে হবে এবং আপনার প্রয়োজনীয় উপাদানগুলির ক্লাস এবং প্রকারগুলি সনাক্ত করতে হবে। সন্দেহ হলে, "পিতা-মাতা নির্বাচন করুন" টিপুন যতক্ষণ না বাক্সটি একাধিক তালিকা এন্ট্রি কভার না করে যতটা বড় না হয়, কারণ এটি আপনাকে কলাম নির্বাচন করার সময় আরও নমনীয়তা দেবে৷

ডেটা মাইনার আপনাকে নীচে একটি "ভিউ এলিমেন্টস এইচটিএমএল" বিকল্প দেয় এবং আপনাকে কাস্টম নির্বাচক টাইপ করতে দেয়। আপনি যদি বলতে চান, "প্রোডাক্ট" ক্লাস সহ একটি পৃষ্ঠার সমস্ত লিঙ্ক ধরুন, আপনি শুধু a.product টাইপ করতে পারেন। . এখানেই কিছু মৌলিক HTML/CSS জ্ঞান সত্যিই কাজে আসবে।

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

একবার আপনি মূল সারি মেনুতে ফিরে গেলে, আপনার রেসিপিটি একটি স্প্রেডশীটে তৈরি করা এন্ট্রিগুলির সংখ্যা সহ একটি "সারি গণনা" দেখতে হবে। যদি এটি সবকিছু ধরতে না পারে, তাহলে আপনাকে আপনার সারি নির্বাচন দুবার চেক করতে হবে।

6. কলামে আপনার ডেটা বিভক্ত করুন

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

একবার আপনার সারিগুলির জন্য সমস্ত ডেটা নির্বাচিত হয়ে গেলে, এটিকে বিভিন্ন কলাম বিভাগে উপবিভক্ত করে সুন্দর দেখায়। এখানে আপনার করা প্রতিটি নির্বাচন আপনার সারিগুলির জন্য নির্বাচিত বাক্সের একটি উপবিভাগ হওয়া উচিত৷

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

একটি কলাম তৈরি করতে, শুধুমাত্র এটির জন্য একটি নাম টাইপ করুন এবং আপনি যা বের করতে চান তা নির্বাচন করতে খুঁজুন বোতামটি ব্যবহার করুন, ঠিক যেমন আপনি সারিগুলির জন্য করেছিলেন। সর্বাধিক সাধারণ ডেটা সম্ভবত পাঠ্য, URL, বা চিত্র URL হবে৷ টেক্সট লিঙ্কের উপর ঘোরাঘুরি করে ইউআরএল পাওয়া কিছুটা কঠিন হতে পারে; আপনি এমন একটি স্তরে না পৌঁছানো পর্যন্ত আপনাকে "অভিভাবক নির্বাচন করুন" টিপতে হতে পারে যেখানে উপাদানের ধরন <a> , যা লিঙ্কের জন্য HTML ট্যাগ।

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

আপনার কলামে সঠিক ধরনের ডেটা আছে তা নিশ্চিত করতে, প্রতিটি কলামের নামের ডান পাশের আইকনটি টিপুন, যে সংখ্যাটি আপনাকে দেখায় যে কতগুলি কলাম নির্বাচন করা হয়েছে। এটি আপনাকে সেই কলামের জন্য প্রতিটি সারি এন্ট্রির একটি পূর্বরূপ দেখাবে। যদি কিছু বন্ধ থাকে, তাহলে ফিরে যান এবং সারি শনাক্ত করতে বেছে নেওয়া ট্যাগ এবং প্রকারগুলিকে টুইক করুন৷ এইচটিএমএল ভিউয়ার খুলতে ভয় পাবেন না এবং আপনি যে ডেটা নেওয়ার চেষ্টা করছেন তার সাথে সম্পর্কিত প্যাটার্নগুলি পরীক্ষা করুন৷

7. ডেটা মাইনারকে বলুন কিভাবে পরবর্তী পৃষ্ঠায় যেতে হয়

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

যদি আপনার কাছে এক্সট্রাক্ট করার জন্য একাধিক পৃষ্ঠার ডেটা থাকে, তাহলে আপনি সম্ভবত প্রতিটিতে ক্লিক করতে এবং বারবার আপনার রেসিপি চালাতে চান না। এটির কাছাকাছি যেতে, শুধুমাত্র ডেটা মাইনারকে বলুন যেখানে নেভিগেশন বোতামটি খুঁজে পেতে হবে পরবর্তী পৃষ্ঠায় যাওয়ার জন্য এটিতে ক্লিক করতে হবে৷ এটিকে “পৃষ্ঠা 2”-এর মতো কিছুতে ক্লিক করতে না বলুন, কারণ এটি কেবল পৃষ্ঠা 2-এ চলে যাবে। আবার, নিশ্চিত হন যে আপনি একটি <a> নির্বাচন করছেন। উপাদান, এবং এটি কাজ করছে তা নিশ্চিত করতে পরীক্ষা নেভিগেশন বোতামটি ব্যবহার করুন।

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

8. ডেটা মাইনারকে বলুন কোথায় ক্লিক করতে হবে বা ডেটা লোড করতে স্ক্রোল করতে হবে

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

আপনি কিছু ক্লিক না করা বা নিচে স্ক্রোল না করা পর্যন্ত কিছু পৃষ্ঠা ডেটা লোড করে না। ভাগ্যক্রমে, ডেটা মাইনার এই জিনিসগুলিও করতে পারে! আপনার ম্যানিপুলেট করার জন্য প্রয়োজনীয় উপাদানটি নির্বাচন করতে উপরে "খুঁজুন" টুলটি ব্যবহার করুন (এখন আপনার এটিতে বেশ ভাল হওয়া উচিত) তারপরে নির্বাচকটিকে উপযুক্ত বাক্সে রাখুন এবং এটি কাজ করে তা নিশ্চিত করতে পরীক্ষা করুন৷

ঠিক কোন নির্বাচক উপাদান বা অসীম স্ক্রলবার সক্রিয় করবে তা খুঁজে বের করা কঠিন হতে পারে, তবে প্রাথমিক HTML জ্ঞান এবং কিছু পরীক্ষা এবং ত্রুটি আপনাকে এখানে বেশ দূরে নিয়ে যাবে। এখানে আপনার যা কিছু ম্যানিপুলেট করতে হবে তার বেশিরভাগই জাভাস্ক্রিপ্ট-ভিত্তিক, কিন্তু ডেটা মাইনারকে শুধুমাত্র এটি সক্রিয় করার জন্য অ্যাকশনের সাথে যুক্ত CSS নির্বাচককে জানতে হবে, তাই বেশিরভাগ ক্ষেত্রে আপনাকে কোনও কোডের সাথে গোলমাল করতে হবে না।

পরবর্তী ধাপটি আপনাকে কাস্টম JS-এ যোগ করার অনুমতি দেয় আপনি যা চান তাই করতে, কিন্তু এটি বেশ উন্নত এবং আমাদের মৌলিক স্ক্র্যাপিংয়ের জন্য যা প্রয়োজন তার থেকেও বেশি।

9. সংরক্ষণ করুন এবং রেসিপি চালান

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

অভিনন্দন! এখন দেখার পালা সব মিলে যায় কিনা। আপনি যে পৃষ্ঠায় আছেন সেই পৃষ্ঠায় রেসিপিটি চালান এবং আপনার সারি এবং কলামগুলি যা করা উচিত তা করছে কিনা তা দেখতে পূর্বরূপটি পরীক্ষা করুন। যদি না হয়, আপনি ফিরে যান এবং রেসিপি সম্পাদনা করতে পারেন।

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

যদি সবকিছু তার মতো আচরণ করে, তাহলে আপনি "পরবর্তী পৃষ্ঠা" বোতামটি ব্যবহার করে স্ক্র্যাপারকে বলতে পারেন যে এটি কতগুলি পৃষ্ঠা ক্রল করা উচিত এবং কত দ্রুত যেতে হবে/ (খুব দ্রুত যাওয়ার ফলে সিস্টেমটি আপনাকে বট হিসাবে চিহ্নিত করতে পারে৷)

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

আপনার প্রয়োজনীয় সমস্ত ডেটা হয়ে গেলে, আপনি এটি ডাউনলোড করতে কোন ফাইল ফর্ম্যাটটি ব্যবহার করতে চান তা চয়ন করতে পারেন৷

ওয়েবপৃষ্ঠাগুলি থেকে ডেটা বের করতে কীভাবে ডেটা-স্ক্র্যাপিং টুল ব্যবহার করবেন

আমার সমস্যা হচ্ছে; একটি সহজ উপায় আছে?

যদি ডেটা মাইনার প্রোগ্রামটি আপনার জন্য কাজ না করে, তবে প্রচুর অন্যান্য ডেটা-স্ক্র্যাপিং টুল উপলব্ধ রয়েছে:ParseHub, Scraper, Octoparse, Import.io, VisualScraper, ইত্যাদি। তাদের মধ্যে কিছু আরও স্বজ্ঞাত ইন্টারফেস এবং আরও অটোমেশন থাকতে পারে, কিন্তু আপনাকে এখনও এইচটিএমএল সম্পর্কে এবং কীভাবে ওয়েব সংগঠিত করা হয় সে সম্পর্কে কিছুটা জানতে হবে। নতুনদের জন্য যা ডেটা মাইনারকে বিশেষভাবে চমৎকার করে তোলে তা হল এর ক্রাউডসোর্সড রেসিপি লাইব্রেরি, যা আপনাকে কোডের সাথে সবচেয়ে ছোটখাটো সম্মুখীন হওয়া এড়াতেও সাহায্য করতে পারে। এটি, এটির মোটামুটি উদার বিনামূল্যের মাসিক স্ক্র্যাপ প্যাকেজের সাথে মিলিত, এটিকে বেশিরভাগ প্রয়োজনের জন্য একটি খুব শালীন হাতিয়ার করে তোলে৷


  1. এক্সেলের একাধিক মানদণ্ডের উপর ভিত্তি করে কীভাবে টেবিল থেকে ডেটা বের করবেন

  2. কীভাবে অন্য শীট থেকে ডেটা যাচাইকরণ তালিকা ব্যবহার করবেন (6 পদ্ধতি)

  3. কিভাবে PDF থেকে Excel এ ডেটা এক্সট্র্যাক্ট করবেন (4টি উপযুক্ত উপায়)

  4. কিভাবে এক্সএমএল ফাইল থেকে এক্সেলে ডেটা এক্সট্র্যাক্ট করবেন (2টি সহজ উপায়)