ইউনিকোড স্ট্রিং বিভক্ত করা যেতে পারে, এবং বাইট অফসেট যথাক্রমে 'ইউনিকোড_স্প্লিট' পদ্ধতি এবং 'ইউনিকোড_ডিকোড_ওয়াইথ_অফসেট' পদ্ধতি ব্যবহার করে নির্দিষ্ট করা যেতে পারে। এই পদ্ধতিগুলি 'টেনসরফ্লো' মডিউলের 'স্ট্রিং' ক্লাসে উপস্থিত।
আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?
শুরু করার জন্য, পাইথন ব্যবহার করে ইউনিকোড স্ট্রিংগুলিকে উপস্থাপন করুন এবং ইউনিকোড সমতুল্য ব্যবহারকারীগুলিকে ম্যানিপুলেট করুন। স্ট্যান্ডার্ড স্ট্রিং অপ্সের ইউনিকোড সমতুল্যের সাহায্যে স্ক্রিপ্ট সনাক্তকরণের উপর ভিত্তি করে ইউনিকোড স্ট্রিংগুলিকে টোকেনে আলাদা করুন৷
নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।
print("Split unicode strings") tf.strings.unicode_split(thanks, 'UTF-8').numpy() codepoints, offsets = tf.strings.unicode_decode_with_offsets(u"🎈🎉🎊", 'UTF-8') print("Printing byte offset for characters") for (codepoint, offset) in zip(codepoints.numpy(), offsets.numpy()): print("At byte offset {}: codepoint {}".format(offset, codepoint))
কোড ক্রেডিট:https://www.tensorflow.org/tutorials/load_data/unicode
আউটপুট
Split unicode strings Printing byte offset for characters At byte offset 0: codepoint 127880 At byte offset 4: codepoint 127881 At byte offset 8: codepoint 127882
ব্যাখ্যা
- tf.strings.unicode_split অপারেশন ইউনিকোড স্ট্রিংগুলিকে পৃথক অক্ষরের সাবস্ট্রিংগুলিতে বিভক্ত করে৷
- যে ক্যারেক্টার টেনসর তৈরি করা হয়েছে সেটিকে tf.strings.unicode_decode দ্বারা মূল স্ট্রিং এর সাথে সারিবদ্ধ করতে হবে।
- এই উদ্দেশ্যে, প্রতিটি অক্ষর যেখানে শুরু হয় সেই অফসেটটি জানা প্রয়োজন৷ ৷
- পদ্ধতি tf.strings.unicode_decode_with_offsets unicode_decode পদ্ধতির অনুরূপ, পূর্ববর্তীটি একটি দ্বিতীয় টেনসর প্রদান করে যাতে প্রতিটি অক্ষরের স্টার্ট অফসেট থাকে।