পাইথনে UTF-8 স্ট্রিংগুলিকে বিভক্ত করতে Tensorflow পাঠ্য কীভাবে ব্যবহার করা যেতে পারে?

UTF-8 স্ট্রিংগুলি Tensorflow পাঠ্য ব্যবহার করে বিভক্ত করা যেতে পারে। এটি ‘UnicodeScriptTokenizer’-এর সাহায্যে করা যেতে পারে। 'UnicodeScriptTokenizer' হল একটি টোকেনাইজার যা তৈরি করা হয়, যার পরে 'UnicodeScriptTokenizer'-এ উপস্থিত 'টোকেনাইজ' পদ্ধতিটিকে স্ট্রিং-এ বলা হয়।

আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?

আমরা কেরাস সিকোয়েন্সিয়াল এপিআই ব্যবহার করব, যা একটি অনুক্রমিক মডেল তৈরি করতে সহায়ক যা স্তরগুলির একটি প্লেইন স্ট্যাকের সাথে কাজ করতে ব্যবহৃত হয়, যেখানে প্রতিটি স্তরে একটি ইনপুট টেনসর এবং একটি আউটপুট টেনসর রয়েছে৷

একটি নিউরাল নেটওয়ার্ক যা অন্তত একটি স্তর ধারণ করে একটি কনভোলিউশনাল স্তর হিসাবে পরিচিত। আমরা শেখার মডেল তৈরি করতে কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করতে পারি।

টেনসরফ্লো টেক্সটে টেক্সট সম্পর্কিত ক্লাস এবং অপ্সের সংগ্রহ রয়েছে যা টেনসরফ্লো 2.0 এর সাথে ব্যবহার করা যেতে পারে। টেনসরফ্লো টেক্সটটি সিকোয়েন্স মডেলিং প্রিপ্রসেস করতে ব্যবহার করা যেতে পারে।

নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

টোকেনাইজেশন হল একটি স্ট্রিংকে টোকেনে বিভক্ত করার পদ্ধতি। এই টোকেনগুলি শব্দ, সংখ্যা বা বিরাম চিহ্ন হতে পারে।

গুরুত্বপূর্ণ ইন্টারফেসের মধ্যে রয়েছে টোকেনাইজার এবং টোকেনাইজার উইথঅফসেট যার প্রতিটির একটি একক পদ্ধতি রয়েছে যথাক্রমে টোকেনাইজ এবং টোকেনাইজ_সাথ_অফসেট। একাধিক টোকেনাইজার রয়েছে, যার প্রত্যেকটি টোকেনাইজার উইথঅফসেট (যা টোকেনাইজার ক্লাসকে প্রসারিত করে) প্রয়োগ করে। এতে মূল স্ট্রিংয়ে বাইট অফসেট পাওয়ার একটি বিকল্প রয়েছে। এটি মূল স্ট্রিংয়ের বাইটগুলি জানতে সাহায্য করে যে টোকেনটি তৈরি করা হয়েছিল।

সমস্ত টোকেনাইজার টোকেনগুলির অভ্যন্তরীণ-সর্বাধিক মাত্রা সহ RaggedTensors ফেরত দেয় যা মূল পৃথক স্ট্রিংগুলিতে ম্যাপ করা হয়। ফলে আকৃতির র‍্যাঙ্ক এক দ্বারা বৃদ্ধি পায়।

উদাহরণ

print("Unicode script tokenizer is being called")
tokenizer = text.UnicodeScriptTokenizer()
tokens = tokenizer.tokenize(['everything not saved will be lost.', u'Sad☹'.encode('UTF-8')])
print("The tokenized data is converted to a list")
print(tokens.to_list())

কোড ক্রেডিট −https://www.tensorflow.org/tutorials/tensorflow_text/intro

আউটপুট

Unicode script tokenizer is being called
The tokenized data is converted to a list
[[b'everything', b'not', b'saved', b'will', b'be', b'lost', b'.'], [b'Sad', b'\xe2\x98\xb9']]

ব্যাখ্যা

টোকেনাইজার ইউনিকোড স্ক্রিপ্ট সীমানার উপর ভিত্তি করে UTF-8 স্ট্রিংগুলিকে বিভক্ত করে।
স্ক্রিপ্ট কোডগুলি ইউনিকোড (ICU) UScriptCode মানগুলির জন্য আন্তর্জাতিক উপাদানগুলির সাথে মিলে যায়৷
এটি হোয়াইটস্পেস টোকেনাইজারের মত পার্থক্যের সাথে যে এটি ভাষার পাঠ্য থেকে বিরাম চিহ্ন (USCRIPT_COMMON) বিভক্ত করবে পাশাপাশি একে অপরের থেকে আলাদা ভাষা পাঠ্য।