Python এ unicode_split() ব্যবহার করে অক্ষর দ্বারা স্ট্রিংগুলিকে বিভক্ত করতে Tensorflow পাঠ্য কীভাবে ব্যবহার করা যেতে পারে?

টেনসরফ্লো টেক্সটটি 'ইউনিকোড_স্প্লিট' পদ্ধতি ব্যবহার করে স্ট্রিংগুলিকে অক্ষর অনুসারে বিভক্ত করতে ব্যবহার করা যেতে পারে, প্রথমে বিভক্ত স্ট্রিংগুলিকে এনকোড করে এবং তারপরে একটি ভেরিয়েবলে ফাংশন কল নির্ধারণ করে। এই ভেরিয়েবলটি ফাংশন কলের ফলাফল ধারণ করে।

আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?

আমরা কেরাস সিকোয়েন্সিয়াল এপিআই ব্যবহার করব, যা একটি অনুক্রমিক মডেল তৈরি করতে সহায়ক যা স্তরগুলির একটি প্লেইন স্ট্যাকের সাথে কাজ করতে ব্যবহৃত হয়, যেখানে প্রতিটি স্তরে একটি ইনপুট টেনসর এবং একটি আউটপুট টেনসর রয়েছে৷

একটি নিউরাল নেটওয়ার্ক যা অন্তত একটি স্তর ধারণ করে একটি কনভোলিউশনাল স্তর হিসাবে পরিচিত। আমরা শেখার মডেল তৈরি করতে কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করতে পারি।

টেনসরফ্লো টেক্সটে টেক্সট সম্পর্কিত ক্লাস এবং অপ্সের সংগ্রহ রয়েছে যা টেনসরফ্লো 2.0 এর সাথে ব্যবহার করা যেতে পারে। টেনসরফ্লো টেক্সটটি সিকোয়েন্স মডেলিং প্রিপ্রসেস করতে ব্যবহার করা যেতে পারে।

নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

টোকেনাইজেশন হল একটি স্ট্রিংকে টোকেনে বিভক্ত করার পদ্ধতি। এই টোকেনগুলি শব্দ, সংখ্যা বা বিরাম চিহ্ন হতে পারে।

গুরুত্বপূর্ণ ইন্টারফেসের মধ্যে রয়েছে টোকেনাইজার এবং টোকেনাইজার উইথঅফসেট যার প্রতিটির একটি একক পদ্ধতি রয়েছে যথাক্রমে টোকেনাইজ এবং টোকেনাইজ_সাথ_অফসেট। একাধিক টোকেনাইজার রয়েছে, যার প্রত্যেকটি টোকেনাইজার উইথঅফসেট (যা টোকেনাইজার ক্লাসকে প্রসারিত করে) প্রয়োগ করে। এতে মূল স্ট্রিংয়ে বাইট অফসেট পাওয়ার একটি বিকল্প রয়েছে। এটি মূল স্ট্রিংয়ের বাইটগুলি জানতে সাহায্য করে যে টোকেনটি তৈরি করা হয়েছিল।

উদাহরণ

print("The encoded characters are split")
tokens = tf.strings.unicode_split([u"仅今年前".encode('UTF-8')], 'UTF-8')
print("The tokenized data is converted to a list")
print(tokens.to_list())

কোড ক্রেডিট −https://www.tensorflow.org/tutorials/tensorflow_text/intro

আউটপুট

The encoded characters are split
The tokenized data is converted to a list
[[b'\xe4\xbb\x85', b'\xe4\xbb\x8a', b'\xe5\xb9\xb4', b'\xe5\x89\x8d']]

ব্যাখ্যা

সমস্ত টোকেনাইজার মূল পৃথক স্ট্রিংগুলিতে ম্যাপ করা টোকেনগুলির অভ্যন্তরীণ মাত্রা সহ RaggedTensors ফেরত দেয়৷
ফলে আকৃতির র‍্যাঙ্ক এক দ্বারা বৃদ্ধি পায়।
শব্দগুলিকে ভাগ করার জন্য সাদা স্থান ব্যবহার না করে ভাষাকে টোকেনাইজ করার সময়, এটি অক্ষর দ্বারা বিভক্ত করা সাধারণ।
এটি টেনসরফ্লো কোরে পাওয়া unicode_split op ব্যবহার করে করা যেতে পারে।
একবার ইউনিকোড_স্প্লিট কল করা হলে, টোকেনাইজড ডেটা একটি তালিকায় যোগ করা হয়।