এই টিউটোরিয়ালে, আপনি শিখবেন কিভাবে আপনি লিঙ্কে ক্লিক করতে, ফর্ম পূরণ করতে এবং ফাইল আপলোড করতে Mechanize ব্যবহার করতে পারেন। আপনি কীভাবে মেকানাইজ পৃষ্ঠার অবজেক্টগুলিকে টুকরো টুকরো করতে পারেন এবং কীভাবে একটি Google অনুসন্ধান স্বয়ংক্রিয় করতে এবং এর ফলাফলগুলি সংরক্ষণ করতে পারেন তাও আপনি শিখবেন৷
বিষয়
- একক পৃষ্ঠা বনাম পৃষ্ঠা সংখ্যা
- যান্ত্রিকীকরণ
- এজেন্ট
- পৃষ্ঠা
- নোকোগিরি পদ্ধতি
- লিঙ্কগুলি
- ক্লিক করুন
- ফর্ম
একক পৃষ্ঠা বনাম পৃষ্ঠা সংখ্যা
এখন পর্যন্ত আমরা নোকোগিরি ব্যবহার করে কীভাবে একটি একক পৃষ্ঠার স্ক্রিন স্ক্র্যাপ করতে পারি তা খুঁজে বের করতে কিছু সময় ব্যয় করেছি। এক ধাপ এগিয়ে যাওয়ার এবং একাধিক পৃষ্ঠা থেকে বিষয়বস্তু কীভাবে বের করতে হয় তা শিখতে এটি একটি ভাল ভিত্তি ছিল।
সর্বোপরি, আমরা যে সমস্যাটি সমাধান করার চেষ্টা করছি তার মধ্যে রয়েছে 140টিরও বেশি পর্ব থেকে বিষয়বস্তু পাওয়া-যা একটি একক ওয়েব পৃষ্ঠার সাথে যুক্তিসঙ্গতভাবে মানানসই বিষয়বস্তুর চেয়ে বেশি। আমাদের পেজিনেশন নিয়ে কাজ করতে হবে এবং খরগোশের গর্তের নিচে বিষয়বস্তু কীভাবে অনুসরণ করতে হয় তা বের করতে হবে।
এখানেই Nokogiri থেমে যায় এবং Mechanize নামে আরেকটি দরকারী রত্ন খেলায় আসে।
যান্ত্রিকীকরণ
মেকানাইজ হল আরেকটি শক্তিশালী টুল যার অফার করার জন্য প্রচুর গুডিজ রয়েছে। এটি মূলত আপনাকে যে ওয়েবসাইটগুলি থেকে সামগ্রী বের করতে হবে তার সাথে ইন্টারঅ্যাকশন স্বয়ংক্রিয় করতে সক্ষম করে৷ সেই অর্থে এটি আমাকে কিছু কার্যকারিতা মনে করিয়ে দেয় যা আপনি ক্যাপিবারার সাথে পরীক্ষা করে জানতে পারেন।
আমাকে ভুল বুঝবেন না, একক পৃষ্ঠায় নোকোগিরির সাথে খেলা নিজেই দুর্দান্ত, তবে আরও মশলাদার ডেটা নিষ্কাশন কাজের জন্য আমাদের আরও কিছুটা অশ্বশক্তি প্রয়োজন। আমরা মূলত আমাদের যতগুলি পৃষ্ঠা প্রয়োজন ততগুলি ক্রল করতে পারি এবং তাদের উপাদানগুলির সাথে ইন্টারঅ্যাক্ট করতে পারি—মানুষের আচরণের অনুকরণ এবং স্বয়ংক্রিয়। বেশ শক্তিশালী জিনিস!
এই রত্নটি আপনাকে লিঙ্কগুলি অনুসরণ করতে, ফর্ম ক্ষেত্রগুলি পূরণ করতে এবং সেই ডেটা জমা দিতে সক্ষম করে—এমনকি কুকিজ নিয়ে কাজ করাও টেবিলে রয়েছে৷ এর মানে হল আপনি ব্যক্তিগত সেশনে ব্যবহারকারীদের লগইন অনুকরণ করতে পারেন এবং শুধুমাত্র আপনার অ্যাক্সেস আছে এমন একটি সাইট থেকে সামগ্রী পেতে পারেন৷
আপনি আপনার শংসাপত্র দিয়ে লগইনটি পূরণ করুন এবং মেকানাইজকে বলুন কিভাবে অনুসরণ করতে হয়। যেহেতু আপনি লিঙ্কে ক্লিক করতে পারেন এবং ফর্ম জমা দিতে পারেন, তাই খুব কমই যা আপনি এই টুল দিয়ে করতে পারবেন না। এটি নোকোগিরির সাথে ঘনিষ্ঠ সম্পর্ক রয়েছে এবং এটির উপরও নির্ভর করে। অ্যারন প্যাটারসন আবার এই সুন্দর রত্নটির অন্যতম লেখক।
একটি মেকানাইজ এজেন্ট ইনস্ট্যান্টিয়েটিং
আমরা যান্ত্রিকীকরণ শুরু করার আগে, আমাদের একটি যান্ত্রিক এজেন্টকে ইনস্ট্যান্ট করতে হবে।
some_scraper.rb
require 'mechanize' agent = Mechanize.new
এই agent
আমরা নোকোগিরির সাথে যা করেছি তার অনুরূপ একটি পৃষ্ঠা আনার জন্য ব্যবহার করা হবে।
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url)
এখানে যা ঘটে তা হল মেকানাইজ এজেন্ট পডকাস্ট পৃষ্ঠা এবং এর কুকিজ পেয়েছে।
পৃষ্ঠা বিষয়বস্তু নিষ্কাশন
আমরা এখন নিষ্কাশনের জন্য প্রস্তুত একটি পৃষ্ঠা আছে. আমরা তা করার আগে, আমি সুপারিশ করি যে আমরা inspect
ব্যবহার করে হুডের নীচে একবার দেখে নিই পদ্ধতি।
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url) puts page.inspect
আউটপুট বেশ গুরুত্বপূর্ণ. একবার দেখুন এবং নিজেই দেখুন একটি Mechanize::Page
কি বস্তু নিয়ে গঠিত। এখানে আপনি সেই পৃষ্ঠার সমস্ত বৈশিষ্ট্য দেখতে পারেন।
আমার কাছে, আপনি যে ডেটা বের করতে চান তা কেটে ফেলার জন্য এটি সত্যিই একটি সহজ বস্তু।
আউটপুট
#<Mechanize::Page {url #https://betweenscreens.fm/>} {meta_refresh} {title "Between | Screens "} {iframes #<Mechanize::Page::Frame nil "https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/290328784&color=ff0000&auto...> #<Mechanize::Page::Frame nil "https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/290126141&color=ff0000&auto...> #<Mechanize::Page::Frame nil "https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/289018386&color=ff0000&auto...> #<Mechanize::Page::Frame nil "https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/287425105&color=ff0000&auto...> #<Mechanize::Page::Frame nil "https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/287105342&color=ff0000&auto...> #<Mechanize::Page::Frame nil "https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/221003494&color=ff0000&auto...> #<Mechanize::Page::Frame nil "">https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/218101809&color=ff0000&auto...} {frames} {links #<Mechanize::Page::Link "Logo cube" "/"> #https://github.com/vis-kid/betweenscreens"> #<Mechanize::Page::Link "about" "pages/about/"> #<Mechanize::Page::Link "design" "design/"> #<Mechanize::Page::Link "code" "code/"> #<Mechanize::Page::Link "Randy J. Hunt" "episodes/144/"> #<Mechanize::Page::Link "Jason Long" "episodes/143/"> #<Mechanize::Page::Link "David Heinemeier Hansson" "episodes/142/"> #<Mechanize::Page::Link "Zach Holman" "episodes/141/"> #<Mechanize::Page::Link "Joel Glovier" "episodes/140/"> #<Mechanize::Page::Link "João Ferreira" "episodes/139/"> #<Mechanize::Page::Link "Corwin Harrell" "episodes/138/"> #<Mechanize::Page::Link "Older Stuff »" "page/2/"> #<Mechanize::Page::Link "Exercise" "/tags/exercise/"> #<Mechanize::Page::Link "Company benefits" "/tags/company-benefits/"> #<Mechanize::Page::Link "Tmux" "/tags/tmux/"> #<Mechanize::Page::Link "FileTask" "/tags/filetask/"> #<Mechanize::Page::Link "Decision making" "/tags/decision-making/"> #<Mechanize::Page::Link "Favorite feature" "/tags/favorite-feature/"> #<Mechanize::Page::Link "Working out" "/tags/working-out/"> #<Mechanize::Page::Link "Scott Savarie" "/tags/scott-savarie/"> #<Mechanize::Page::Link "Titles" "/tags/titles/"> #<Mechanize::Page::Link "Erik Spiekermann" "/tags/erik-spiekermann/"> #<Mechanize::Page::Link "Newbie mistakes" "/tags/newbie-mistakes/"> #<Mechanize::Page::Link "Playbook" "/tags/playbook/"> #<Mechanize::Page::Link "Delegation" "/tags/delegation/"> #<Mechanize::Page::Link "Heat maps" "/tags/heat-maps/"> #<Mechanize::Page::Link "Europe" "/tags/europe/"> #<Mechanize::Page::Link "Sizing type" "/tags/sizing-type/"> #<Mechanize::Page::Link "Focus" "/tags/focus/"> #<Mechanize::Page::Link "Virtual assistants" "/tags/virtual-assistants/"> #<Mechanize::Page::Link "Writing" "/tags/writing/"> #<Mechanize::Page::Link "Hacking" "/tags/hacking/"> #<Mechanize::Page::Link "Joel Glovier" "/tags/joel-glovier/"> #<Mechanize::Page::Link "Corwin Harrell" "/tags/corwin-harrell/"> #<Mechanize::Page::Link "Mario C. Delgado" "/tags/mario-c-delgado/"> #<Mechanize::Page::Link "Tom Dale" "/tags/tom-dale/"> #<Mechanize::Page::Link "Obie Fernandez" "/tags/obie-fernandez/"> #<Mechanize::Page::Link "Chad Pytel" "/tags/chad-pytel/"> #<Mechanize::Page::Link "Zach Holman" "/tags/zach-holman/"> #<Mechanize::Page::Link "Max Luster" "/tags/max-luster/"> #<Mechanize::Page::Link "Kyle Fiedler" "/tags/kyle-fiedler/"> #<Mechanize::Page::Link "Roberto Machado" "/tags/roberto-machado/">} {forms}>
আপনি যদি HTML পৃষ্ঠাটি নিজেই দেখতে চান তবে আপনি body
ট্যাগ করতে পারেন অথবা content
পদ্ধতি
some_scraper.rb
... print page.body ...
আউটপুট
<!doctype html> <html> <head> <meta charset="utf-8" /> <meta http-equiv='X-UA-Compatible' content='IE=edge;chrome=1' /> <meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"> <meta name="viewport" content="initial-scale=1"> <title>Between | Screens </title> <link rel="alternate" type="application/atom+xml" title="Atom Feed" href="/feed.xml" /> <link href="stylesheets/all-11b45acc.css" rel="stylesheet" /> <script src="javascripts/all-4c20da82.js"></script> </head> <body> <header> <div id="logo"> <a href="/"><img src="images/Between_Screens_Logo_Cube_Up-539d6997.svg" alt="Logo cube" /></a> </div> <nav class="navigation"> <ul class="nav-list"> fork">https://github.com/vis-kid/betweenscreens">fork! <li><a href="pages/about/">about</a></li> <li><a href="design/">design</a></li> <li><a href="code/">code</a></li> </ul> </nav> </header> <div id="main" role="main"> <div class='posts'> <ul> <li> <article class="index-article"> <span class='post-date'>Oct 27 | 2016</span><h2 class='post-title'><a href="episodes/144/">Randy J. Hunt</a></h2> <h3 class='topic-list'>Organizing teams | Diversity | Desires | Pizza rule | Effective over clever | Novel solutions | Straightforwardness | Research | Coffeeshop test | Small changes | Reducing errors | Granular diffs</h3> <div class='soundcloud-player-small'> <iframe width="100%" height="166" scrolling="no" frameborder="no" src="https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/290328784&color=ff0000&...> </div> </article> </li> <li> <article class="index-article"> <span class='post-date'>Oct 25 | 2016</span><h2 class='post-title'><a href="episodes/143/">Jason Long</a></h2> <h3 class='topic-list'>Open source | Empathy | Lower barriers | Learning tool | Design contributions | Git website | Branding | GitHub | Neovim | Tmux | Design love | Knowing audiences | Showing work | Dribbble | Progressions | Ideas</h3> <div class='soundcloud-player-small'> <iframe width="100%" height="166" scrolling="no" frameborder="no" src="https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/290126141&color=ff0000&...> </div> </article> </li> <li> <article class="index-article"> <span class='post-date'>Oct 18 | 2016</span><h2 class='post-title'><a href="episodes/142/">David Heinemeier Hansson</a></h2> <h3 class='topic-list'>Rails community | Tone | Technical disagreements | Community policing | Ungratefulness | No assholes allowed | Basecamp | Open source persona | Aspirations | Guarding motivations | Dealing with audiences | Pressure | Honesty | Diverse opinions | Small talk</h3> <div class='soundcloud-player-small'> <iframe width="100%" height="166" scrolling="no" frameborder="no" src="https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/289018386&color=ff0000&...> </div> </article> </li> <li> <article class="index-article"> <span class='post-date'>Oct 12 | 2016</span><h2 class='post-title'><a href="episodes/141/">Zach Holman</a></h2> <h3 class='topic-list'>Getting Fired | Taboo | Transparency | Different Perspectives | Timing | Growth Stages | Employment & Dating | Managers | At-will Employment | Tech Industry | Europe | Low hanging Fruits | Performance Improvement Plans | Meeting Goals | Surprise Firings | Firing Fast | Mistakes | Company Culture | Communication</h3> <div class='soundcloud-player-small'> <iframe width="100%" height="166" scrolling="no" frameborder="no" src="https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/287425105&color=ff0000&...> </div> </article> </li> <li> <article class="index-article"> <span class='post-date'>Oct 10 | 2016</span><h2 class='post-title'><a href="episodes/140/">Joel Glovier</a></h2> <h3 class='topic-list'>Digital Product Design | Product Design @ GitHub | Loving Design | Order & Chaos | Drawing | Web Design | HospitalRun | Diversity | Startup Culture | Improving Lives | CURE International | Ember | Offline First | Hospital Information System | Designers & Open Source</h3> <div class='soundcloud-player-small'> <iframe width="100%" height="166" scrolling="no" frameborder="no" src="https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/287105342&color=ff0000&...> </div> </article> </li> <li> <article class="index-article"> <span class='post-date'>Aug 26 | 2015</span><h2 class='post-title'><a href="episodes/139/">João Ferreira</a></h2> <h3 class='topic-list'>Masters @ Work | Subvisual | Deadlines | Design personality | Design problems | Team | Pushing envelopes | Delightful experiences | Perfecting details | Company values</h3> <div class='soundcloud-player-small'> <iframe width="100%" height="166" scrolling="no" frameborder="no" src="https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/221003494&color=ff0000&...> </div> </article> </li> <li> <article class="index-article"> <span class='post-date'>Aug 06 | 2015</span><h2 class='post-title'><a href="episodes/138/">Corwin Harrell</a></h2> <h3 class='topic-list'>Q&A | 01 | University | Graphic design | Design setup | Sublime | Atom | thoughtbot | Working location | Collaboration & pairing | Vim advocates | Daily routine | Standups | Clients | Coffee walks | Investment Fridays |</h3> <div class='soundcloud-player-small'> <iframe width="100%" height="166" scrolling="no" frameborder="no" src="https://w.soundcloud.com/player/?url=https%3A//api.soundcloud.com/tracks/218101809&color=ff0000&...> </div> </article> </li> </ul> </div> <section> <div class='pagination-link'><a href="page/2/">Older Stuff »</a></div> </section> </div> <footer> <div class='footer-tags'> <h3>Random Tags</h3> <ul class='random-tag-list'> <li><a href="/tags/exercise/">Exercise</a></li> <li><a href="/tags/company-benefits/">Company benefits</a></li> <li><a href="/tags/tmux/">Tmux</a></li> <li><a href="/tags/filetask/">FileTask</a></li> <li><a href="/tags/decision-making/">Decision making</a></li> <li><a href="/tags/favorite-feature/">Favorite feature</a></li> <li><a href="/tags/working-out/">Working out</a></li> <li><a href="/tags/scott-savarie/">Scott Savarie</a></li> <li><a href="/tags/titles/">Titles</a></li> <li><a href="/tags/erik-spiekermann/">Erik Spiekermann</a></li> <li><a href="/tags/newbie-mistakes/">Newbie mistakes</a></li> <li><a href="/tags/playbook/">Playbook</a></li> <li><a href="/tags/delegation/">Delegation</a></li> <li><a href="/tags/heat-maps/">Heat maps</a></li> <li><a href="/tags/europe/">Europe</a></li> <li><a href="/tags/sizing-type/">Sizing type</a></li> <li><a href="/tags/focus/">Focus</a></li> <li><a href="/tags/virtual-assistants/">Virtual assistants</a></li> <li><a href="/tags/writing/">Writing</a></li> <li><a href="/tags/hacking/">Hacking</a></li> </ul> </div> <div class='recent-posts'> <h3>Random Interviewees</h3> <ul> <li><a href="/tags/joel-glovier/">Joel Glovier</a></li> <li><a href="/tags/corwin-harrell/">Corwin Harrell</a></li> <li><a href="/tags/mario-c-delgado/">Mario C. Delgado</a></li> <li><a href="/tags/tom-dale/">Tom Dale</a></li> <li><a href="/tags/obie-fernandez/">Obie Fernandez</a></li> <li><a href="/tags/chad-pytel/">Chad Pytel</a></li> <li><a href="/tags/zach-holman/">Zach Holman</a></li> <li><a href="/tags/max-luster/">Max Luster</a></li> <li><a href="/tags/kyle-fiedler/">Kyle Fiedler</a></li> <li><a href="/tags/roberto-machado/">Roberto Machado</a></li> </ul> </div> </footer> </body> </html>
যেহেতু এই পডকাস্টটির পৃষ্ঠায় শুধুমাত্র অল্প সংখ্যক বিভিন্ন উপাদান রয়েছে, তাই এখানে Mechanize::Page
যেটি github.com থেকে ফিরে আসে। এটি কটাক্ষপাত করার জন্য কন্টেন্ট একটি বড় বৈচিত্র্য আছে. আমি মনে করি এই জন্য একটি অনুভূতি পেতে গুরুত্বপূর্ণ.
আউটপুট github.com
#<Mechanize::Page {url #https://github.com/>} {meta_refresh} {title "How people build software · GitHub"} {iframes} {frames} {links #<Mechanize::Page::Link "Skip to content" "#start-of-content"> #https://github.com/"> #<Mechanize::Page::Link "\n Personal\n" "/personal"> #<Mechanize::Page::Link "\n Open source\n" "/open-source"> #<Mechanize::Page::Link "\n Business\n" "/business"> #<Mechanize::Page::Link "\n Explore\n" "/explore"> #<Mechanize::Page::Link "Sign up" "/join?source=header-home"> #<Mechanize::Page::Link "Sign in" "/login"> #<Mechanize::Page::Link "Pricing" "/pricing"> #<Mechanize::Page::Link "Blog" "/blog"> #https://help.github.com"> #https://github.com/search"> #https://help.github.com/terms"> #https://help.github.com/privacy"> #<Mechanize::Page::Link "Sign up for GitHub" "/join?source=button-home"> #<Mechanize::Page::Link "\n \n \n \n \n A whole new Universe\n \n Learn about the exciting features and announcements revealed at this year's GitHub Universe conference.\n \n \n " "/universe-2016"> #<Mechanize::Page::Link "Individuals " "/personal"> #<Mechanize::Page::Link "Communities " "/open-source"> #<Mechanize::Page::Link "Businesses " "/business"> #<Mechanize::Page::Link "NASA" "//github.com/nasa"> #<Mechanize::Page::Link "Sign up for GitHub" "/join?source=button-home"> #https://github.com/contact"> #https://developer.github.com"> #https://training.github.com"> #https://shop.github.com"> #https://github.com/blog"> #https://github.com/about"> #https://github.com"> #https://github.com/site/terms"> #https://github.com/site/privacy"> #https://github.com/security"> #https://status.github.com/"> #https://help.github.com"> #<Mechanize::Page::Link "Reload" ""> #<Mechanize::Page::Link "Reload" "">} {forms #<Mechanize::Form {name nil} {method "GET"} {action "/search"} {fields [hidden:0x3feb90f8297c type: hidden name: utf8 value: ✓] [text:0x3feb90f827d8 type: text name: q value: ]} {radiobuttons} {checkboxes} {file_uploads} {buttons}> #<Mechanize::Form {name nil} {method "POST"} {action "/join"} {fields [hidden:0x3feb90f7be38 type: hidden name: utf8 value: ✓] [hidden:0x3feb90f7bbb8 type: hidden name: authenticity_token value: vjRATKj7smXreq6Lt02r+MzW+ewWoi+fRzQXPedFAlOZgwzxQ0dZnChirhDfd7vyWZZZBO+ZFydLNedjIEDsrQ==] [text:0x3feb90f7b9d8 type: text name: user[login] value: ] [text:0x3feb90f7b7f8 type: text name: user[email] value: ] [field:0x3feb90f7b654 type: password name: user[password] value: ] [hidden:0x3feb90f7b474 type: hidden name: source value: form-home]} {radiobuttons} {checkboxes} {file_uploads} {buttons [button:0x3feb90f7a038 type: submit name: value: ]}>}>
পডকাস্টে ফিরে, আপনি এনকোডিং, HTTP প্রতিক্রিয়া কোড, ইউআরআই বা প্রতিক্রিয়া শিরোনামের মতো জিনিসগুলিও দেখতে পারেন।
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url) puts 'Encodings' puts page.encodings puts 'Repsonse Headers' puts page.response puts 'HTTP response code' puts page.code puts 'URI' puts page.uri
আউটপুট
Encodings EUC-JP utf-8 utf-8 Repsonse Headers {"server"=>"GitHub.com", "date"=>"Sat, 29 Oct 2016 17:56:00 GMT", "content-type"=>"text/html; charset=utf-8", "transfer-encoding"=>"chunked", "last-modified"=>"Fri, 28 Oct 2016 01:48:56 GMT", "access-control-allow-origin"=>"*", "expires"=>"Sat, 29 Oct 2016 18:06:00 GMT", "cache-control"=>"max-age=600", "content-encoding"=>"gzip", "x-github-request-id"=>"501C936D:C723:1631523C:5814E2B0"} HTTP response code 200 URI https://betweenscreens.fm/
আপনি যদি আরও গভীর খনন করতে চান তবে আরও অনেক কিছু রয়েছে। আমি এটা ছেড়ে দেব।
নোকোগিরি পদ্ধতি
at
search
মেকানাইজ পৃষ্ঠা থেকে ডেটা স্ক্র্যাপ করতে Nokogiri ব্যবহার করে। আপনি প্রথম নিবন্ধে নোকোগিরি সম্পর্কে যা শিখেছেন তা প্রয়োগ করতে পারেন এবং মেকানাইজ পৃষ্ঠাগুলিতেও এটি ব্যবহার করতে পারেন। এর মানে হল যে আপনি সাধারণত আপনার স্ক্র্যাপিং প্রয়োজনের জন্য পৃষ্ঠাগুলি এবং নোকোগিরি পদ্ধতিতে নেভিগেট করতে মেকানাইজ ব্যবহার করেন।
উদাহরণস্বরূপ, যদি আপনি একটি একক বস্তু অনুসন্ধান করতে চান, আপনি at
ব্যবহার করতে পারেন , যখন search
একটি নির্দিষ্ট পৃষ্ঠায় নির্বাচকের সাথে মেলে এমন সমস্ত বস্তু ফেরত দেয়। এটিকে পুনরায় বর্ণনা করার জন্য, এই পদ্ধতিগুলি নোকোগিরি নথি বস্তু এবং মেকানাইজ পৃষ্ঠা অবজেক্ট উভয় ক্ষেত্রেই কাজ করবে।
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url) first_title = page.at('h2.post-title') all_titles = page.search('h2.post-title') all_titles.each do |title| puts title end puts " * "*33 puts first_title
আউটপুট
<h2 class="post-title"><a href="episodes/144/">Randy J. Hunt</a></h2> <h2 class="post-title"><a href="episodes/143/">Jason Long</a></h2> <h2 class="post-title"><a href="episodes/142/">David Heinemeier Hansson</a></h2> <h2 class="post-title"><a href="episodes/141/">Zach Holman</a></h2> <h2 class="post-title"><a href="episodes/140/">Joel Glovier</a></h2> <h2 class="post-title"><a href="episodes/139/">João Ferreira</a></h2> <h2 class="post-title"><a href="episodes/138/">Corwin Harrell</a></h2> * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * <h2 class="post-title"><a href="episodes/144/">Randy J. Hunt</a></h2>
লিঙ্কগুলি
৷links
link_with
links_with
আমরা আমাদের পছন্দ অনুযায়ী পুরো সাইটটি নেভিগেট করতে পারি। সম্ভবত মেকানাইজের সবচেয়ে গুরুত্বপূর্ণ অংশ হল আপনাকে লিঙ্কগুলির সাথে খেলতে দেওয়ার ক্ষমতা। অন্যথায় আপনি নোকোগিরির সাথে একাই লেগে থাকতে পারেন। আসুন দেখে নেওয়া যাক আমরা যদি একটি পৃষ্ঠার লিঙ্কগুলির জন্য জিজ্ঞাসা করি তবে আমরা কী ফিরে পাব।
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url) puts "#{page.links}"
আউটপুট
[#<Mechanize::Page::Link "Logo cube" "/"> , #https://github.com/vis-kid/betweenscreens"> , #<Mechanize::Page::Link "about" "pages/about/"> , #<Mechanize::Page::Link "design" "design/"> , #<Mechanize::Page::Link "code" "code/"> , #<Mechanize::Page::Link "Randy J. Hunt" "episodes/144/"> , #<Mechanize::Page::Link "Jason Long" "episodes/143/"> , #<Mechanize::Page::Link "David Heinemeier Hansson" "episodes/142/"> , #<Mechanize::Page::Link "Zach Holman" "episodes/141/"> , #<Mechanize::Page::Link "Joel Glovier" "episodes/140/"> , #<Mechanize::Page::Link "João Ferreira" "episodes/139/"> , #<Mechanize::Page::Link "Corwin Harrell" "episodes/138/"> , #<Mechanize::Page::Link "Older Stuff »" "page/2/"> , #<Mechanize::Page::Link "Exercise" "/tags/exercise/"> , #<Mechanize::Page::Link "Company benefits" "/tags/company-benefits/"> , #<Mechanize::Page::Link "Tmux" "/tags/tmux/"> , #<Mechanize::Page::Link "FileTask" "/tags/filetask/"> , #<Mechanize::Page::Link "Decision making" "/tags/decision-making/"> , #<Mechanize::Page::Link "Favorite feature" "/tags/favorite-feature/"> , #<Mechanize::Page::Link "Working out" "/tags/working-out/"> , #<Mechanize::Page::Link "Scott Savarie" "/tags/scott-savarie/"> , #<Mechanize::Page::Link "Titles" "/tags/titles/"> , #<Mechanize::Page::Link "Erik Spiekermann" "/tags/erik-spiekermann/"> , #<Mechanize::Page::Link "Newbie mistakes" "/tags/newbie-mistakes/"> , #<Mechanize::Page::Link "Playbook" "/tags/playbook/"> , #<Mechanize::Page::Link "Delegation" "/tags/delegation/"> , #<Mechanize::Page::Link "Heat maps" "/tags/heat-maps/"> , #<Mechanize::Page::Link "Europe" "/tags/europe/"> , #<Mechanize::Page::Link "Sizing type" "/tags/sizing-type/"> , #<Mechanize::Page::Link "Focus" "/tags/focus/"> , #<Mechanize::Page::Link "Virtual assistants" "/tags/virtual-assistants/"> , #<Mechanize::Page::Link "Writing" "/tags/writing/"> , #<Mechanize::Page::Link "Hacking" "/tags/hacking/"> , #<Mechanize::Page::Link "Joel Glovier" "/tags/joel-glovier/"> , #<Mechanize::Page::Link "Corwin Harrell" "/tags/corwin-harrell/"> , #<Mechanize::Page::Link "Mario C. Delgado" "/tags/mario-c-delgado/"> , #<Mechanize::Page::Link "Tom Dale" "/tags/tom-dale/"> , #<Mechanize::Page::Link "Obie Fernandez" "/tags/obie-fernandez/"> , #<Mechanize::Page::Link "Chad Pytel" "/tags/chad-pytel/"> , #<Mechanize::Page::Link "Zach Holman" "/tags/zach-holman/"> , #<Mechanize::Page::Link "Max Luster" "/tags/max-luster/"> , #<Mechanize::Page::Link "Kyle Fiedler" "/tags/kyle-fiedler/"> , #<Mechanize::Page::Link "Roberto Machado" "/tags/roberto-machado/"> ]
পবিত্র মলি, আসুন এটি ভেঙে ফেলি। যেহেতু আমরা মেকানাইজকে অন্য কোথাও দেখতে বলিনি, তাই আমরা শুধুমাত্র সেই প্রথম পৃষ্ঠা থেকে লিঙ্কগুলির একটি অ্যারে পেয়েছি। মেকানাইজ নিচের ক্রমানুসারে সেই পৃষ্ঠার মধ্য দিয়ে যায় এবং আপনাকে উপরের থেকে নীচের লিঙ্কগুলির এই তালিকাটি ফেরত দেয়। আপনি আউটপুটে দেখতে পাচ্ছেন এমন বিভিন্ন লিঙ্কগুলিতে আমি সবুজ পয়েন্টার সহ একটি ছোট চিত্র তৈরি করেছি।
যাইহোক, এটি ইতিমধ্যেই আপনাকে আমার পডকাস্টের পুনরায় ডিজাইনের শেষ ফলাফল দেখাচ্ছে। আমি মনে করি এই সংস্করণটি প্রদর্শনের উদ্দেশ্যে একটু ভাল। চূড়ান্ত ফলাফলটি কেমন দেখায় এবং কেন আমার পুরানো সিনাত্রা সাইট স্ক্র্যাপ করার প্রয়োজন হয়েছিল তার একটি আভাসও আপনি পাবেন।
স্ক্রিনশট
সর্বদা হিসাবে, আমরা এটি থেকে শুধু পাঠ্য বের করতে পারি।
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url) page.links.each do |link| puts link.text endরাখে
আউটপুট
Logo cube fork! about design code Randy J. Hunt Jason Long David Heinemeier Hansson Zach Holman Joel Glovier João Ferreira Corwin Harrell Older Stuff » Exercise Company benefits Tmux FileTask Decision making Favorite feature Working out Scott Savarie Titles Erik Spiekermann Newbie mistakes Playbook Delegation Heat maps Europe Sizing type Focus Virtual assistants Writing Hacking Joel Glovier Corwin Harrell Mario C. Delgado Tom Dale Obie Fernandez Chad Pytel Zach Holman Max Luster Kyle Fiedler Roberto Machado
এই সমস্ত লিঙ্ক বাল্ক পাওয়া খুব দরকারী বা সহজভাবে ক্লান্তিকর হতে পারে। সৌভাগ্যবশত আমাদের জন্য, আমাদের যা প্রয়োজন তা ঠিক করার জন্য আমাদের কাছে কয়েকটি সরঞ্জাম রয়েছে।
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url) focus_link = agent.page.links.find { |link| link.text == 'Focus' } puts focus_link
আউটপুট
Focus
বুম! এখন আমরা কোথাও পাচ্ছি! আমরা যে মত নির্দিষ্ট লিঙ্ক জুম করতে পারেন. আমরা একটি নির্দিষ্ট মানদণ্ডের সাথে মেলে এমন লিঙ্কগুলিকে টার্গেট করতে পারি—যেমন এর পাঠ্য, উদাহরণস্বরূপ—একটি সুন্দর API এর সাথে যেমন links_with
অথবা link_with
. এছাড়াও, যদি আমাদের একাধিক Focus
থাকে লিঙ্ক, আমরা বন্ধনী []
ব্যবহার করে পৃষ্ঠার একটি নির্দিষ্ট সংখ্যা জুম করতে পারি .
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url) focus_link = agent.page.links_with(:text => 'Focus')[2] puts focus_link
আপনি যদি লিঙ্কের পাঠ্যের পরে না হন তবে লিঙ্কটি নিজেই, আপনাকে শুধুমাত্র একটি নির্দিষ্ট href
উল্লেখ করতে হবে যে লিঙ্ক খুঁজে পেতে. যান্ত্রিকতা আপনার পথে দাঁড়াবে না। text
এর পরিবর্তে , আপনি href
দিয়ে পদ্ধতিগুলি ফিড করেন .
some_scraper.rb
page = agent.page.link_with(href: '/episodes/95/') page = agent.page.links_with(href: '/episodes/95/')
আপনি যদি শুধুমাত্র পছন্দসই পাঠ্যের সাথে প্রথম লিঙ্কটি খুঁজে পেতে চান তবে আপনি এই সিনট্যাক্সটি ব্যবহার করতে পারেন। খুব সুবিধাজনক এবং একটু বেশি পঠনযোগ্য।
some_scraper.rb
focus_links = agent.page.link_with(:text => 'Focus')
সেই ছেলেটিকে অনুসরণ করা এবং এই Focus
এর পিছনে কী লুকিয়ে আছে তা দেখার বিষয়ে কী লিঙ্ক? চলুন click
এটা!
ক্লিক করুন
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url) focus_links = agent.page.links.find { |link| link.text == 'Focus' }.click.links puts focus_links
এটি আমাদের আগের মতো লিঙ্কগুলির আরেকটি দীর্ঘ তালিকা পাবে। .click.links
একত্রিত করা কত সহজ ছিল দেখুন . মেকানাইজ আপনার জন্য লিঙ্কে ক্লিক করে এবং নতুন গন্তব্যে পৃষ্ঠাটি অনুসরণ করে। যেহেতু আমরা লিঙ্কগুলির একটি তালিকার জন্য অনুরোধ করেছি, তাই আমরা সেই নতুন পৃষ্ঠায় মেকানাইজ পাওয়া যায় এমন সমস্ত লিঙ্ক পাব।
ধরা যাক আমার কাছে একই সাক্ষাত্কারের দুটি পাঠ্য লিঙ্ক রয়েছে - একটি যা ট্যাগগুলির সাথে লিঙ্ক করে এবং একটি সাম্প্রতিক পর্বের সাথে - এবং আমি এই প্রতিটি পৃষ্ঠা থেকে লিঙ্কগুলি পেতে চাই৷
some_scraper.rb
require 'mechanize' agent = Mechanize.new podcast_url = "https://betweenscreens.fm/" page = agent.get(podcast_url) links = agent.page.links_with(text: "Some interviewee") links.each do |link| puts link.click.links endরাখে
এটি আপনাকে উভয় পৃষ্ঠার লিঙ্কগুলির একটি তালিকা দেবে। আপনি ইন্টারভিউয়ের জন্য প্রতিটি লিঙ্কের উপর পুনরাবৃত্তি করেন এবং মেকানাইজ ক্লিক করা লিঙ্কটি অনুসরণ করে এবং আপনার জন্য নতুন পৃষ্ঠায় পাওয়া লিঙ্কগুলি সংগ্রহ করে। নীচে আপনি কয়েকটি উদাহরণ খুঁজে পেতে পারেন যেখানে আপনি শুরু করার জন্য সংমিশ্রণের তুলনা করতে পারেন।
some_scraper.rb
agent.page.links.find { |l| l.text == 'Focus' } agent.page.links.find { |l| l.text == 'Focus' }.click agent.page.link_with(text: 'Focus') agent.page.links_with(text: 'Focus')[0] agent.page.links_with(text: 'Focus')[1].click agent.page.links_with(text: 'Focus')[2].click.links agent.page.link_with(href: '/some-href') agent.page.link_with(href: '/some-href').click agent.page.links_with(href: '/some-href') agent.page.links_with(href: '/some-href').click
ফর্ম
submit
field_with
checkbox_with
radiobuttons_with
file_uploads
চলুন ফর্ম এক নজর আছে!
some_scraper.rb
require 'mechanize' agent = Mechanize.new google_url = "https://google.com/" page = agent.get(google_url) forms = page.forms puts forms.inspect
আউটপুট
[#<Mechanize::Form # Attention!! {name "f"} # Attention!! {method "GET"} {action "/search"} {fields [hidden:0x3fea91d2eb08 type: hidden name: ie value: ISO-8859-1] [hidden:0x3fea91d2e964 type: hidden name: hl value: es] [hidden:0x3fea91d2e7e8 type: hidden name: source value: hp] [hidden:0x3fea91d2e5f4 type: hidden name: biw value: ] [hidden:0x3fea91d2e428 type: hidden name: bih value: ] # Attention!! [text:0x3fea91d2e248 type: name: q value: ] # Attention!! [hidden:0x3fea91d2bcb4 type: hidden name: gbv value: 1]} {radiobuttons} {checkboxes} {file_uploads} {buttons [submit:0x3fea91d2e0f4 type: submit name: btnG value: Buscar con Google] [submit:0x3fea91d2be80 type: submit name: btnI value: Voy a tener suerte]}> ]
Because we use the forms
method, we get an array returned—even when we only have one form returned to us. Now that we know that the form has the name "f"
, we can use the singular version form
to hone in on that one.
... {name "f"} ...
some_scraper.rb
require 'mechanize' agent = Mechanize.new google_url = "https://google.com/" page = agent.get(google_url) search_form = page.form('f') puts search_form.inspect
Using form('f')
, we singled out the particular form we want to work with. As a result, we will not get an array returned.
আউটপুট
#<Mechanize::Form # Attention!! {name "f"} # Attention!! {method "GET"} {action "/search"} {fields [hidden:0x3ffe9ce85ba4 type: hidden name: ie value: ISO-8859-1] [hidden:0x3ffe9ce859d8 type: hidden name: hl value: es] [hidden:0x3ffe9ce857bc type: hidden name: source value: hp] [hidden:0x3ffe9ce85618 type: hidden name: biw value: ] [hidden:0x3ffe9ce853e8 type: hidden name: bih value: ] # Attention!! [text:0x3ffe9ce851cc type: name: q value: ] # Attention!! [hidden:0x3ffe9ce84bdc type: hidden name: gbv value: 1]} {radiobuttons} {checkboxes} {file_uploads} {buttons [submit:0x3ffe9ce85078 type: submit name: btnG value: Buscar con Google] [submit:0x3ffe9ce84e48 type: submit name: btnI value: Voy a tener suerte]}>
We can also identify the name of the text input field (q
)।
... [text:0x3ffe9ce851cc type: name: q value: ] ...
We can target it by that name and set its value like Ruby attributes. All we need to do is provide it with a new value. You can see from the output example above that it is empty by default.
some_scraper.rb
require 'mechanize' agent = Mechanize.new google_url = "https://google.com/" page = agent.get(google_url) search_form = page.form('f') search_form.q = 'New Google Search' puts search_form.inspect
আউটপুট
#<Mechanize::Form {name "f"} {method "GET"} {action "/search"} {fields [hidden:0x3fcb85b6a784 type: hidden name: ie value: ISO-8859-1] [hidden:0x3fcb85b6a57c type: hidden name: hl value: es] [hidden:0x3fcb85b6a3b0 type: hidden name: source value: hp] [hidden:0x3fcb85b6a16c type: hidden name: biw value: ] [hidden:0x3fcb85b67f20 type: hidden name: bih value: ] # Attention!! [text:0x3fcb85b67d18 type: name: q value: New Google Search] # Attention!! [hidden:0x3fcb85b67728 type: hidden name: gbv value: 1]} {radiobuttons} {checkboxes} {file_uploads} {buttons [submit:0x3fcb85b67b9c type: submit name: btnG value: Buscar con Google] [submit:0x3fcb85b67994 type: submit name: btnI value: Voy a tener suerte]}>
As you can observe above, the value for the text field has changed to New Google Search
. Now we only need to submit
the form and collect the results from the page that Google returns. It couldn’t be any easier. Let’s search for something else this time!
some_scraper.rb
require 'mechanize' agent = Mechanize.new google_url = "https://google.com/" page = agent.get(google_url) search_form = page.form('f') search_form.q = 'GitHub TouchFart' page = agent.submit(search_form) pp page.search('h3.r').map(&:text)
Here I identified the search results header using a CSS selector h3.r
, mapped its text
, and pretty printed the results. Wasn’t that hard, was it? That is an easy example, sure, but think about the endless possibilities you have at your disposal with this!
আউটপুট
["GitHub - hungtruong/TouchFart: A fart app for the new Macbook ...", "TouchFart/TouchFart at master · hungtruong/TouchFart · GitHub", "Commits · hungtruong/TouchFart · GitHub", "Projects · hungtruong/TouchFart · GitHub", "Pull Requests · hungtruong/TouchFart · GitHub", "Issues · hungtruong/TouchFart · GitHub", "TouchFart/license.txt at master · hungtruong/TouchFart · GitHub", "Add autoplay attribute to <audio> tag and touchfart (er ... - GitHub", "Find file - File Finder · GitHub", "Fart app for the new Macbook Pro's Touch... #3860 on topic touchfart ..."]
Mechanize has different input fields available for you to play with. You can even upload files!
field_with
checkbox_with
radiobuttons_with
file_uploads
You can also identify radio buttons and checkboxes by their name and check them with—you guessed it—check
.
some_scraper.rb
form.radiobuttons_with(:name => 'gender')[3].check form.checkbox_with(:name => 'coder').check
Option tags offer users to select one item from a drop-down list. Again, we target them by name and select the option number we want.
some_scraper.rb
form.field_with(:name => 'countries').options[22].select
File uploads work similar to inputing text into forms by setting it like Ruby attributes. You identify the upload field and then specify the file path (file name) you want to transfer. It sounds more complicated than it is. Let’s have a look!
some_scraper.rb
form.file_uploads.first.file_name = "some-path/some-image.jpg"
চূড়ান্ত চিন্তা
See, no magic after all! You are now well equipped to have some fun on your own. There is certainly a bit more to learn about Nokogiri and Mechanize, but instead of spending too much time on unnecessary aspects, play around with it and look into some more documentation when you run into problems beyond the scope of a beginner article.
I hope you can see how beautifully simple this gem is and how much power it offers. As we all know from popular culture by now, this also bears responsibilities. Use it within legal frameworks and when you have no access to an API. You probably won’t have a frequent use for these tools, but boy do they come in handy when you have some real scraping needs ahead of you.
As promised, in the next article we will cover a real-world example where I will scrape data from my podcast site. I will extract it from an old Sinatra site and transfer it over to my new Middleman site that uses .markdown
files for each episode. We will extract the dates, episodes numbers, interviewee names, headers, subheaders, and so on. See you there!