আপনি যদি ওয়েবপৃষ্ঠাগুলি থেকে জিনিসগুলি অনুলিপি এবং আটকান এবং ম্যানুয়ালি সেগুলিকে স্প্রেডশীটে রাখছেন, আপনি হয় ডেটা স্ক্র্যাপিং (বা ওয়েব স্ক্র্যাপিং) কী তা জানেন না, বা আপনি এটি কী তা জানেন তবে এর ধারণাটি নিয়ে সত্যিই আগ্রহী নন ক্লিক করার কয়েক ঘন্টা নিজেকে বাঁচাতে কীভাবে কোড করতে হয় তা শিখছি।
যেভাবেই হোক, অনেকগুলি নো-কোড ডেটা-স্ক্র্যাপিং টুল রয়েছে যা আপনাকে সাহায্য করতে পারে এবং ডেটা মাইনারের ক্রোম এক্সটেনশন হল আরও স্বজ্ঞাত বিকল্পগুলির মধ্যে একটি৷ আপনি যদি ভাগ্যবান হন, আপনি যে কাজটি করার চেষ্টা করছেন তা ইতিমধ্যেই টুলের রেসিপি বইতে অন্তর্ভুক্ত করা হবে, এবং এমনকি আপনার নিজের তৈরি করার জন্য আপনাকে পয়েন্ট-এন্ড-ক্লিক পদক্ষেপগুলিও অতিক্রম করতে হবে না।
ডেটা মাইনার কিভাবে কাজ করে?
ডেটা মাইনার আপনার লোড করা পৃষ্ঠাগুলির পাঠ্য দেখে ওয়েবপেজগুলি থেকে এবং সুন্দরভাবে ফর্ম্যাট করা Excel/CSV ফাইলগুলিতে ডেটা পেতে সহায়তা করে৷ এর অর্থ হল আপনাকে কয়েকটি প্যাটার্ন চিনতে HTML এর সাথে অন্তত যথেষ্ট স্বাচ্ছন্দ্য বোধ করতে হবে, তবে খুব বেশি কিছু নয়। উন্নত এইচটিএমএল এবং/অথবা জাভাস্ক্রিপ্ট দক্ষতা অবশ্যই কিছু কাজে সাহায্য করবে কিন্তু বেশিরভাগ জিনিসের জন্য প্রয়োজনীয় নয়। আপনার অন্তত মৌলিক স্প্রেডশীট দক্ষতা থাকতে হবে যাতে আপনি নিশ্চিত হতে পারেন যে আপনার আউটপুট পরিষ্কার এবং সংগঠিত।
1. ডেটা মাইনার সেট আপ করুন
ক্রোম বা অন্য ক্রোমিয়াম ব্রাউজার ব্যবহার করে, এক্সটেনশনটি ইনস্টল করুন। এক্সটেনশনের পিকএক্স আইকনটি আপনার টুলবারে উপস্থিত হবে এবং এটিতে ক্লিক করলে আপনাকে একটি পৃষ্ঠায় নিয়ে যাবে যেখানে আপনি একটি অ্যাকাউন্ট সেট আপ করতে পারবেন। বিনামূল্যের সংস্করণটি আপনাকে মাসে 500টি স্ক্র্যাপ দেয়, যা সম্ভবত আপনার জন্য যথেষ্ট যদি না আপনি প্রতিদিন এটি করেন৷
2. ডেটা লোড করুন
প্রথমে, আপনি যে পৃষ্ঠা থেকে ডেটা বের করতে চান সেখানে নেভিগেট করুন। আপনার যদি একাধিক পৃষ্ঠার ডেটা থাকে বা এর কিছু অংশ বোতামের পিছনে লুকানো থাকে, তাহলে ঠিক আছে - এটি মোকাবেলা করার উপায় রয়েছে। আপাতত, আপনার শুধুমাত্র একটি প্রতিনিধি নমুনা প্রয়োজন যাতে প্রোগ্রামটি জানতে পারে কী খুঁজতে হবে৷
৷3. একটি রেসিপি দেখুন
এরপরে, ডেটা মাইনার খুলুন এবং বিদ্যমান রেসিপিগুলির জন্য "পাবলিক" ট্যাবটি পরীক্ষা করুন৷ আপনি যদি একটি জনপ্রিয় সাইটে থাকেন, তাহলে আপনি যে ডেটা খুঁজছেন তা পাওয়ার জন্য অন্য কেউ ইতিমধ্যে একটি প্রক্রিয়া তৈরি করে থাকতে পারে, যা আপনার বেশ কিছুটা সময় বাঁচাতে পারে। উদাহরণস্বরূপ, গুগল, অ্যামাজন এবং টুইটারের মতো সাইটগুলিতে আপনাকে অবিলম্বে লিঙ্ক, মূল্য, পাঠ্য এবং অন্যান্য ডেটা ডাউনলোড করতে সহায়তা করার জন্য প্রচুর রেসিপি উপলব্ধ রয়েছে। আপনি স্প্রেডশীট ডেটা মাইনার তৈরির পূর্বরূপ দেখতে "রান" বোতামে ক্লিক করে রেসিপি পরীক্ষা করতে পারেন। আপনি "সম্পাদনা" বোতাম টিপে আপনার প্রয়োজন অনুসারে বিদ্যমান রেসিপিগুলিকেও পরিবর্তন করতে পারেন৷
4. পৃষ্ঠার ধরন
ঠিক আছে, তাই কোনো প্রিমেড রেসিপি আপনার জন্য কাজ করেনি। এটা ঠিক আছে, আপনি আপনার নিজের করতে পারেন. শুরু করতে শুধু "নতুন রেসিপি" বোতামে ক্লিক করুন৷
৷আপনার প্রথম পছন্দ হবে "তালিকা পৃষ্ঠা" বা "বিশদ পৃষ্ঠা।"
আপনি যদি একটি একক পৃষ্ঠা থেকে একাধিক সারি ডেটা পাওয়ার চেষ্টা করেন তবে "তালিকা পৃষ্ঠা" নির্বাচন করুন৷ উদাহরণস্বরূপ, আপনি প্রতিটি অনুসন্ধান ফলাফলের লিঙ্ক এবং পৃষ্ঠার শিরোনাম ডাউনলোড করতে বা একটি ফিডে পোস্টের তারিখ এবং বিষয়বস্তু পেতে চাইতে পারেন। এটি সম্ভবত সবচেয়ে সাধারণ প্রকার এবং আমরা এখানে ডেমো হিসাবে ব্যবহার করব। (একটি বিস্তারিত পৃষ্ঠার ধাপগুলি মূলত একই।)
একটি পৃষ্ঠায় একটি জিনিস সম্পর্কে আপনার কাছে অনেকগুলি ভিন্ন তথ্য থাকলে "বিশদ পৃষ্ঠা" নির্বাচন করুন – একটি পণ্যের পৃষ্ঠা, উদাহরণস্বরূপ, যেখানে আপনাকে এটির মূল্য, বিবরণ, লিঙ্ক এবং রেটিং নিতে হবে এবং এটিকে এক সারিতে রাখতে হবে .
ধাপ 5:আপনার সারি তৈরি করুন
"খুঁজুন" বোতামটি টিপুন এবং আপনার মাউসকে নাড়ান যতক্ষণ না হলুদ নির্বাচন বাক্সটি আপনার চূড়ান্ত স্প্রেডশীটে একটি একক প্রবেশের জন্য প্রয়োজনীয় সমস্ত ডেটা কভার করে। উদাহরণস্বরূপ, যদি আপনি অনুসন্ধানের ফলাফলগুলি ডাউনলোড করেন তবে আপনাকে শিরোনাম, URL এবং বিবরণ অন্তর্ভুক্ত করার জন্য যথেষ্ট বড় এলাকা হাইলাইট করতে হবে, যার প্রতিটি আপনি পরবর্তী ধাপে আলাদা কলামে রাখতে পারেন। আপনার নির্বাচন করতে, Shift টিপুন মূল. আপনি ভুলবশত ক্লিক করলে চিন্তা করবেন না; ডেটা মাইনার আপনার সমস্ত রেসিপি অগ্রগতি সংরক্ষণ করে এমনকি আপনি যদি পৃষ্ঠা থেকে দূরে যান।
তারপরে আপনি "এলিমেন্টের ক্লাস" বা "এইচটিএমএল এলিমেন্ট টাইপ" বিভাগে অন্তত একটি বাক্স চেক করতে চাইবেন। আদর্শভাবে, আপনি পৃষ্ঠার প্রতিটি উপাদানকে কভার করার জন্য নির্বাচনের প্রতিলিপি দেখতে পাবেন যেটি আপনার নির্বাচিতটির মতো একই বিভাগে রয়েছে।
আপনি যদি দেখেন যে নির্বাচক আপনার প্রয়োজনীয় সমস্ত কিছু কভার করছে না, তবে শুধুমাত্র একটি উপাদান নির্বাচন করার চেষ্টা করুন এবং "পিতা-মাতা নির্বাচন করুন" টিপুন। এটি বাক্সটিকে বড় করে তুলবে এবং সম্ভবত আপনার প্রয়োজনীয় সবকিছু ক্যাপচার করবে। যদি তা না হয়, তাহলে আপনাকে এইচটিএমএল-এ কিছুটা খনন করতে হবে এবং আপনার প্রয়োজনীয় উপাদানগুলির ক্লাস এবং প্রকারগুলি সনাক্ত করতে হবে। সন্দেহ হলে, "পিতা-মাতা নির্বাচন করুন" টিপুন যতক্ষণ না বাক্সটি একাধিক তালিকা এন্ট্রি কভার না করে যতটা বড় না হয়, কারণ এটি আপনাকে কলাম নির্বাচন করার সময় আরও নমনীয়তা দেবে৷
ডেটা মাইনার আপনাকে নীচে একটি "ভিউ এলিমেন্টস এইচটিএমএল" বিকল্প দেয় এবং আপনাকে কাস্টম নির্বাচক টাইপ করতে দেয়। আপনি যদি বলতে চান, "প্রোডাক্ট" ক্লাস সহ একটি পৃষ্ঠার সমস্ত লিঙ্ক ধরুন, আপনি শুধু a.product
টাইপ করতে পারেন। . এখানেই কিছু মৌলিক HTML/CSS জ্ঞান সত্যিই কাজে আসবে।
একবার আপনি মূল সারি মেনুতে ফিরে গেলে, আপনার রেসিপিটি একটি স্প্রেডশীটে তৈরি করা এন্ট্রিগুলির সংখ্যা সহ একটি "সারি গণনা" দেখতে হবে। যদি এটি সবকিছু ধরতে না পারে, তাহলে আপনাকে আপনার সারি নির্বাচন দুবার চেক করতে হবে।
6. কলামে আপনার ডেটা বিভক্ত করুন
একবার আপনার সারিগুলির জন্য সমস্ত ডেটা নির্বাচিত হয়ে গেলে, এটিকে বিভিন্ন কলাম বিভাগে উপবিভক্ত করে সুন্দর দেখায়। এখানে আপনার করা প্রতিটি নির্বাচন আপনার সারিগুলির জন্য নির্বাচিত বাক্সের একটি উপবিভাগ হওয়া উচিত৷
৷
একটি কলাম তৈরি করতে, শুধুমাত্র এটির জন্য একটি নাম টাইপ করুন এবং আপনি যা বের করতে চান তা নির্বাচন করতে খুঁজুন বোতামটি ব্যবহার করুন, ঠিক যেমন আপনি সারিগুলির জন্য করেছিলেন। সর্বাধিক সাধারণ ডেটা সম্ভবত পাঠ্য, URL, বা চিত্র URL হবে৷ টেক্সট লিঙ্কের উপর ঘোরাঘুরি করে ইউআরএল পাওয়া কিছুটা কঠিন হতে পারে; আপনি এমন একটি স্তরে না পৌঁছানো পর্যন্ত আপনাকে "অভিভাবক নির্বাচন করুন" টিপতে হতে পারে যেখানে উপাদানের ধরন <a>
, যা লিঙ্কের জন্য HTML ট্যাগ।
আপনার কলামে সঠিক ধরনের ডেটা আছে তা নিশ্চিত করতে, প্রতিটি কলামের নামের ডান পাশের আইকনটি টিপুন, যে সংখ্যাটি আপনাকে দেখায় যে কতগুলি কলাম নির্বাচন করা হয়েছে। এটি আপনাকে সেই কলামের জন্য প্রতিটি সারি এন্ট্রির একটি পূর্বরূপ দেখাবে। যদি কিছু বন্ধ থাকে, তাহলে ফিরে যান এবং সারি শনাক্ত করতে বেছে নেওয়া ট্যাগ এবং প্রকারগুলিকে টুইক করুন৷ এইচটিএমএল ভিউয়ার খুলতে ভয় পাবেন না এবং আপনি যে ডেটা নেওয়ার চেষ্টা করছেন তার সাথে সম্পর্কিত প্যাটার্নগুলি পরীক্ষা করুন৷
7. ডেটা মাইনারকে বলুন কিভাবে পরবর্তী পৃষ্ঠায় যেতে হয়
যদি আপনার কাছে এক্সট্রাক্ট করার জন্য একাধিক পৃষ্ঠার ডেটা থাকে, তাহলে আপনি সম্ভবত প্রতিটিতে ক্লিক করতে এবং বারবার আপনার রেসিপি চালাতে চান না। এটির কাছাকাছি যেতে, শুধুমাত্র ডেটা মাইনারকে বলুন যেখানে নেভিগেশন বোতামটি খুঁজে পেতে হবে পরবর্তী পৃষ্ঠায় যাওয়ার জন্য এটিতে ক্লিক করতে হবে৷ এটিকে “পৃষ্ঠা 2”-এর মতো কিছুতে ক্লিক করতে না বলুন, কারণ এটি কেবল পৃষ্ঠা 2-এ চলে যাবে। আবার, নিশ্চিত হন যে আপনি একটি <a>
নির্বাচন করছেন। উপাদান, এবং এটি কাজ করছে তা নিশ্চিত করতে পরীক্ষা নেভিগেশন বোতামটি ব্যবহার করুন।
8. ডেটা মাইনারকে বলুন কোথায় ক্লিক করতে হবে বা ডেটা লোড করতে স্ক্রোল করতে হবে
আপনি কিছু ক্লিক না করা বা নিচে স্ক্রোল না করা পর্যন্ত কিছু পৃষ্ঠা ডেটা লোড করে না। ভাগ্যক্রমে, ডেটা মাইনার এই জিনিসগুলিও করতে পারে! আপনার ম্যানিপুলেট করার জন্য প্রয়োজনীয় উপাদানটি নির্বাচন করতে উপরে "খুঁজুন" টুলটি ব্যবহার করুন (এখন আপনার এটিতে বেশ ভাল হওয়া উচিত) তারপরে নির্বাচকটিকে উপযুক্ত বাক্সে রাখুন এবং এটি কাজ করে তা নিশ্চিত করতে পরীক্ষা করুন৷
ঠিক কোন নির্বাচক উপাদান বা অসীম স্ক্রলবার সক্রিয় করবে তা খুঁজে বের করা কঠিন হতে পারে, তবে প্রাথমিক HTML জ্ঞান এবং কিছু পরীক্ষা এবং ত্রুটি আপনাকে এখানে বেশ দূরে নিয়ে যাবে। এখানে আপনার যা কিছু ম্যানিপুলেট করতে হবে তার বেশিরভাগই জাভাস্ক্রিপ্ট-ভিত্তিক, কিন্তু ডেটা মাইনারকে শুধুমাত্র এটি সক্রিয় করার জন্য অ্যাকশনের সাথে যুক্ত CSS নির্বাচককে জানতে হবে, তাই বেশিরভাগ ক্ষেত্রে আপনাকে কোনও কোডের সাথে গোলমাল করতে হবে না।
পরবর্তী ধাপটি আপনাকে কাস্টম JS-এ যোগ করার অনুমতি দেয় আপনি যা চান তাই করতে, কিন্তু এটি বেশ উন্নত এবং আমাদের মৌলিক স্ক্র্যাপিংয়ের জন্য যা প্রয়োজন তার থেকেও বেশি।
9. সংরক্ষণ করুন এবং রেসিপি চালান
অভিনন্দন! এখন দেখার পালা সব মিলে যায় কিনা। আপনি যে পৃষ্ঠায় আছেন সেই পৃষ্ঠায় রেসিপিটি চালান এবং আপনার সারি এবং কলামগুলি যা করা উচিত তা করছে কিনা তা দেখতে পূর্বরূপটি পরীক্ষা করুন। যদি না হয়, আপনি ফিরে যান এবং রেসিপি সম্পাদনা করতে পারেন।
যদি সবকিছু তার মতো আচরণ করে, তাহলে আপনি "পরবর্তী পৃষ্ঠা" বোতামটি ব্যবহার করে স্ক্র্যাপারকে বলতে পারেন যে এটি কতগুলি পৃষ্ঠা ক্রল করা উচিত এবং কত দ্রুত যেতে হবে/ (খুব দ্রুত যাওয়ার ফলে সিস্টেমটি আপনাকে বট হিসাবে চিহ্নিত করতে পারে৷)
আপনার প্রয়োজনীয় সমস্ত ডেটা হয়ে গেলে, আপনি এটি ডাউনলোড করতে কোন ফাইল ফর্ম্যাটটি ব্যবহার করতে চান তা চয়ন করতে পারেন৷
আমার সমস্যা হচ্ছে; একটি সহজ উপায় আছে?
যদি ডেটা মাইনার প্রোগ্রামটি আপনার জন্য কাজ না করে, তবে প্রচুর অন্যান্য ডেটা-স্ক্র্যাপিং টুল উপলব্ধ রয়েছে:ParseHub, Scraper, Octoparse, Import.io, VisualScraper, ইত্যাদি। তাদের মধ্যে কিছু আরও স্বজ্ঞাত ইন্টারফেস এবং আরও অটোমেশন থাকতে পারে, কিন্তু আপনাকে এখনও এইচটিএমএল সম্পর্কে এবং কীভাবে ওয়েব সংগঠিত করা হয় সে সম্পর্কে কিছুটা জানতে হবে। নতুনদের জন্য যা ডেটা মাইনারকে বিশেষভাবে চমৎকার করে তোলে তা হল এর ক্রাউডসোর্সড রেসিপি লাইব্রেরি, যা আপনাকে কোডের সাথে সবচেয়ে ছোটখাটো সম্মুখীন হওয়া এড়াতেও সাহায্য করতে পারে। এটি, এটির মোটামুটি উদার বিনামূল্যের মাসিক স্ক্র্যাপ প্যাকেজের সাথে মিলিত, এটিকে বেশিরভাগ প্রয়োজনের জন্য একটি খুব শালীন হাতিয়ার করে তোলে৷