পার্সিং হল একগুচ্ছ স্ট্রিংকে বোঝানো এবং আমরা বুঝতে পারি এমন কিছুতে রূপান্তর করার শিল্প। আপনি রেগুলার এক্সপ্রেশন ব্যবহার করতে পারেন, কিন্তু সেগুলো সবসময় কাজের জন্য উপযুক্ত হয় না।
উদাহরণস্বরূপ, এটা সাধারণ জ্ঞান যে রেগুলার এক্সপ্রেশন সহ HTML পার্স করা সম্ভবত একটি ভাল ধারণা নয়।
রুবিতে আমাদের নোকোগিরি রয়েছে যা আমাদের জন্য এই কাজটি করতে পারে, তবে আপনি নিজের পার্সার তৈরি করে অনেক কিছু শিখতে পারেন। চলুন শুরু করা যাক!
রুবির সাথে পার্সিং
আমাদের পার্সারের মূল হল স্ট্রিংস্ক্যানার ক্লাস।
এই ক্লাসে একটি স্ট্রিং এবং একটি অবস্থান পয়েন্টারের একটি অনুলিপি রয়েছে। পয়েন্টার আমাদের নির্দিষ্ট টোকেনের সন্ধানে স্ট্রিংটি অতিক্রম করার অনুমতি দেবে।
আমরা যে পদ্ধতিগুলি ব্যবহার করব তা হল:
- .পিক
- .স্ক্যান_এখন পর্যন্ত
- .পান
আরেকটি দরকারী পদ্ধতি হল .স্ক্যান (এখন পর্যন্ত ছাড়া)।
দ্রষ্টব্য :
স্ট্রিংস্ক্যানার আপনার কাছে উপলব্ধ না হলে require 'strscan'
যোগ করার চেষ্টা করুন
আমি ডকুমেন্টেশন হিসাবে দুটি পরীক্ষা লিখেছি যাতে আমরা বুঝতে পারি যে এই ক্লাসটি কীভাবে কাজ করবে:
describe StringScanner do let (:buff) { StringScanner.new "testing" } it "can peek one step ahead" do expect(buff.peek 1).to eq "t" end it "can read one char and return it" do expect(buff.getch).to eq "t" expect(buff.getch).to eq "e" end end
এই ক্লাস সম্পর্কে একটি গুরুত্বপূর্ণ বিষয় লক্ষ্য করা যায় যে কিছু পদ্ধতি পজিশন পয়েন্টারকে অগ্রসর করে (গেট, স্ক্যান ), অন্যরা করে না (উঁকি ) যেকোনো সময়ে আপনি আপনার স্ক্যানার পরিদর্শন করতে পারেন (.inspect ব্যবহার করে অথবা p এটি কোথায় আছে তা দেখতে৷
৷পার্সার ক্লাস
পার্সার ক্লাস হল যেখানে বেশিরভাগ কাজ হয়, আমরা এটিকে টেক্সটের স্নিপেট দিয়ে শুরু করব যা আমরা পার্স করতে চাই এবং এটি তার জন্য একটি স্ট্রিংস্ক্যানার তৈরি করবে এবং পার্স পদ্ধতিতে কল করবে:
def initialize(str) @buffer = StringScanner.new(str) @tags = [] parse end
পরীক্ষায় আমরা এটিকে এভাবে সংজ্ঞায়িত করি:
let(:parser) { Parser.new "<body>testing</body> <title>parsing with ruby</title>" }
এই ক্লাসটি কীভাবে কাজ করে তা আমরা একটু পরে দেখব, তবে প্রথমে আমাদের প্রোগ্রামের শেষ অংশটি একবার দেখে নেওয়া যাক।
ট্যাগ ক্লাস
এই ক্লাসটি খুবই সহজ, এটি মূলত পার্সিং ফলাফলের জন্য একটি ধারক এবং ডেটা ক্লাস হিসেবে কাজ করে।
class Tag attr_reader :name attr_accessor :content def initialize(name) @name = name end end
পার্স করা যাক!
কিছু পার্স করার জন্য প্যাটার্ন খুঁজে পেতে আমাদের ইনপুট টেক্সট দেখতে হবে। উদাহরণস্বরূপ, আমরা জানি HTML কোডের নিম্নলিখিত ফর্ম রয়েছে:
<tag>contents</tag>
স্পষ্টতই দুটি ভিন্ন উপাদান রয়েছে যা আমরা এখানে সনাক্ত করতে পারি, ট্যাগের নাম এবং ট্যাগের ভিতরের পাঠ্য। আমরা যদি BNF স্বরলিপি ব্যবহার করে একটি আনুষ্ঠানিক ব্যাকরণ সংজ্ঞায়িত করি তবে এটি দেখতে এরকম কিছু হবে:
tag = <opening_tag> <contents> <closing_tag> opening_tag = "<" <tag_name> ">" closing_tag = "</" <tag_name> ">"
আমরা StringScanners এর পিক ব্যবহার করতে যাচ্ছি আমাদের ইনপুট বাফারের পরবর্তী চিহ্নটি একটি খোলার ট্যাগ কিনা তা দেখতে। যদি তা হয় তাহলে আমরা ফাইন্ড_ট্যাগকে কল করব এবং find_content আমাদের পার্সার ক্লাসে পদ্ধতি:
def parse_element if @buffer.peek(1) == '<' @tags << find_tag last_tag.content = find_content end end
ফাইন্ড_ট্যাগ পদ্ধতি হবে:
- 'Consume' ওপেনিং ট্যাগ ক্যারেক্টার
- ক্লোজিং চিহ্ন (“>”) না পাওয়া পর্যন্ত স্ক্যান করুন
- ট্যাগ নামের একটি নতুন ট্যাগ অবজেক্ট তৈরি করুন এবং ফেরত দিন
এখানে কোড আছে, লক্ষ্য করুন কিভাবে আমাদের কাপ করতে হবে শেষ চরিত্র। এর কারণ স্ক্যান_অন্তত ফলাফলে '>' অন্তর্ভুক্ত করে, এবং আমরা তা চাই না।
def find_tag @buffer.getch tag = @buffer.scan_until />/ Tag.new(tag.chop) end
পরবর্তী ধাপ হল ট্যাগের ভেতরের বিষয়বস্তু খুঁজে বের করা, এটি খুব বেশি কঠিন হওয়া উচিত নয় কারণ scan_until পদ্ধতি পজিশন পয়েন্টারকে সঠিক জায়গায় নিয়ে যায়। আমরা ক্লোজিং ট্যাগ খুঁজতে এবং ট্যাগের বিষয়বস্তু ফেরত দিতে আবার scan_until ব্যবহার করতে যাচ্ছি।
def find_content tag = last_tag.name content = @buffer.scan_until /<\/#{tag}>/ content.sub("</#{tag}>", "") end
এখন :
আমাদের যা করতে হবে তা হল parse_element
একটি লুপে যতক্ষণ না আমরা আমাদের ইনপুট বাফারে আরও ট্যাগ খুঁজে পাই না৷
def parse until @buffer.eos? skip_spaces parse_element end end
আপনি এখানে সম্পূর্ণ কোডটি খুঁজে পেতে পারেন: https://github.com/matugm/simple-parser। আপনি বর্ধিত সংস্করণের জন্য 'নেস্টেড_ট্যাগস' শাখাটিও দেখতে পারেন যা অন্য ট্যাগের ভিতরে ট্যাগগুলির সাথে ডিল করতে পারে৷
উপসংহার
একটি পার্সার লেখা একটি আকর্ষণীয় বিষয় এবং এটি মাঝে মাঝে বেশ জটিলও হতে পারে৷
আপনি যদি স্ক্র্যাচ থেকে নিজের পার্সার তৈরি করতে না চান তবে আপনি তথাকথিত 'পার্সার জেনারেটর'গুলির একটি ব্যবহার করতে পারেন। রুবিতে আমাদের ট্রিটপ এবং পার্সলেট আছে।