প্রতিটি ইউনিকোড কোড পয়েন্ট কোডপয়েন্টের একক সংগ্রহের অন্তর্গত যা একটি স্ক্রিপ্ট হিসাবে পরিচিত। একটি চরিত্রের স্ক্রিপ্ট নির্ধারণ করে যে চরিত্রটি কোন ভাষার সাথে যুক্ত হবে। TensorFlow 'strings.unicode_script' পদ্ধতির সাথে আসে যা একটি প্রদত্ত কোডপয়েন্ট দ্বারা কোন স্ক্রিপ্ট ব্যবহার করা হবে তা খুঁজে পেতে সহায়তা করে। স্ক্রিপ্ট কোডগুলি হল int32 মান যা ইউনিকোড (ICU) UScriptCode মানগুলির জন্য আন্তর্জাতিক উপাদানগুলিতে ম্যাপ করা যেতে পারে
আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?
পাইথন ব্যবহার করে ইউনিকোড স্ট্রিংগুলিকে কীভাবে উপস্থাপন করা যায় এবং ইউনিকোড সমতুল্য ব্যবহার করে তাদের ম্যানিপুলেট করা যায় তা আমরা দেখব না। প্রথমে, স্ট্যান্ডার্ড স্ট্রিং অপ্সের ইউনিকোড সমতুল্যের সাহায্যে স্ক্রিপ্ট সনাক্তকরণের উপর ভিত্তি করে ইউনিকোড স্ট্রিংগুলিকে টোকেনে আলাদা করুন৷
নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।
print("The below represent '芸' and 'Б' respectively") uscript = tf.strings.unicode_script([33464, 1041]) print(uscript.numpy()) # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC] print("Applying to multidimensional strings") print(tf.strings.unicode_script(batch_chars_ragged))
কোড ক্রেডিট:https://www.tensorflow.org/tutorials/load_data/unicode
আউটপুট
The below represent '芸' and 'Б' respectively [17 8] Applying to multidimensional strings <tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>
ব্যাখ্যা
- প্রতিটি ইউনিকোড কোড পয়েন্ট কোডপয়েন্টগুলির একটি একক সংগ্রহের অন্তর্গত যা একটি স্ক্রিপ্ট হিসাবে পরিচিত৷
- একটি অক্ষরের স্ক্রিপ্ট নির্ধারণ করতে সাহায্য করে অক্ষরটি কোন ভাষার অন্তর্গত হতে পারে।
- প্রদত্ত কোডপয়েন্ট কোন স্ক্রিপ্ট ব্যবহার করবে তা খুঁজে বের করার জন্য TensorFlow tf.strings.unicode_script অপারেশন প্রদান করে।
- স্ক্রিপ্ট কোডগুলি হল int32 মান যা ইউনিকোড (ICU) UScriptCode মানগুলির জন্য আন্তর্জাতিক উপাদানগুলিতে মানচিত্র তৈরি করে৷
- tf.strings.unicode_script অপারেশনটি কোডপয়েন্টের বহুমাত্রিক tf.Tensors বা tf.RaggedTensors-এও প্রয়োগ করা যেতে পারে।