কিভাবে ইউনিকোড স্ট্রিং বিভক্ত করা যায়, এবং বাইট অফসেট Tensorflow এবং Python এর সাথে নির্দিষ্ট করা যায়?

ইউনিকোড স্ট্রিং বিভক্ত করা যেতে পারে, এবং বাইট অফসেট যথাক্রমে 'ইউনিকোড_স্প্লিট' পদ্ধতি এবং 'ইউনিকোড_ডিকোড_ওয়াইথ_অফসেট' পদ্ধতি ব্যবহার করে নির্দিষ্ট করা যেতে পারে। এই পদ্ধতিগুলি 'টেনসরফ্লো' মডিউলের 'স্ট্রিং' ক্লাসে উপস্থিত।

আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?

শুরু করার জন্য, পাইথন ব্যবহার করে ইউনিকোড স্ট্রিংগুলিকে উপস্থাপন করুন এবং ইউনিকোড সমতুল্য ব্যবহারকারীগুলিকে ম্যানিপুলেট করুন। স্ট্যান্ডার্ড স্ট্রিং অপ্সের ইউনিকোড সমতুল্যের সাহায্যে স্ক্রিপ্ট সনাক্তকরণের উপর ভিত্তি করে ইউনিকোড স্ট্রিংগুলিকে টোকেনে আলাদা করুন৷

নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

print("Split unicode strings")
tf.strings.unicode_split(thanks, 'UTF-8').numpy()
codepoints, offsets = tf.strings.unicode_decode_with_offsets(u"🎈🎉🎊", 'UTF-8')
print("Printing byte offset for characters")
for (codepoint, offset) in zip(codepoints.numpy(), offsets.numpy()):
   print("At byte offset {}: codepoint {}".format(offset, codepoint))

কোড ক্রেডিট:https://www.tensorflow.org/tutorials/load_data/unicode

আউটপুট

Split unicode strings
Printing byte offset for characters
At byte offset 0: codepoint 127880
At byte offset 4: codepoint 127881
At byte offset 8: codepoint 127882

ব্যাখ্যা

tf.strings.unicode_split অপারেশন ইউনিকোড স্ট্রিংগুলিকে পৃথক অক্ষরের সাবস্ট্রিংগুলিতে বিভক্ত করে৷
যে ক্যারেক্টার টেনসর তৈরি করা হয়েছে সেটিকে tf.strings.unicode_decode দ্বারা মূল স্ট্রিং এর সাথে সারিবদ্ধ করতে হবে।
এই উদ্দেশ্যে, প্রতিটি অক্ষর যেখানে শুরু হয় সেই অফসেটটি জানা প্রয়োজন৷
পদ্ধতি tf.strings.unicode_decode_with_offsets unicode_decode পদ্ধতির অনুরূপ, পূর্ববর্তীটি একটি দ্বিতীয় টেনসর প্রদান করে যাতে প্রতিটি অক্ষরের স্টার্ট অফসেট থাকে।