কম্পিউটার

টেনসরফ্লো এবং পাইথনের ক্ষেত্রে আনসাইড স্ক্রিপ্টগুলি কী কী?


প্রতিটি ইউনিকোড কোড পয়েন্ট কোডপয়েন্টের একক সংগ্রহের অন্তর্গত যা একটি স্ক্রিপ্ট হিসাবে পরিচিত। একটি চরিত্রের স্ক্রিপ্ট নির্ধারণ করে যে চরিত্রটি কোন ভাষার সাথে যুক্ত হবে। TensorFlow 'strings.unicode_script' পদ্ধতির সাথে আসে যা একটি প্রদত্ত কোডপয়েন্ট দ্বারা কোন স্ক্রিপ্ট ব্যবহার করা হবে তা খুঁজে পেতে সহায়তা করে। স্ক্রিপ্ট কোডগুলি হল int32 মান যা ইউনিকোড (ICU) UScriptCode মানগুলির জন্য আন্তর্জাতিক উপাদানগুলিতে ম্যাপ করা যেতে পারে

আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?

পাইথন ব্যবহার করে ইউনিকোড স্ট্রিংগুলিকে কীভাবে উপস্থাপন করা যায় এবং ইউনিকোড সমতুল্য ব্যবহার করে তাদের ম্যানিপুলেট করা যায় তা আমরা দেখব না। প্রথমে, স্ট্যান্ডার্ড স্ট্রিং অপ্সের ইউনিকোড সমতুল্যের সাহায্যে স্ক্রিপ্ট সনাক্তকরণের উপর ভিত্তি করে ইউনিকোড স্ট্রিংগুলিকে টোকেনে আলাদা করুন৷

নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

print("The below represent '芸' and 'Б' respectively")
uscript = tf.strings.unicode_script([33464, 1041])  
print(uscript.numpy())   # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC]
print("Applying to multidimensional strings")
print(tf.strings.unicode_script(batch_chars_ragged))

কোড ক্রেডিট:https://www.tensorflow.org/tutorials/load_data/unicode

আউটপুট

The below represent '芸' and 'Б' respectively
[17   8]
Applying to multidimensional strings
<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>

ব্যাখ্যা

  • প্রতিটি ইউনিকোড কোড পয়েন্ট কোডপয়েন্টগুলির একটি একক সংগ্রহের অন্তর্গত যা একটি স্ক্রিপ্ট হিসাবে পরিচিত৷
  • একটি অক্ষরের স্ক্রিপ্ট নির্ধারণ করতে সাহায্য করে অক্ষরটি কোন ভাষার অন্তর্গত হতে পারে।
  • প্রদত্ত কোডপয়েন্ট কোন স্ক্রিপ্ট ব্যবহার করবে তা খুঁজে বের করার জন্য TensorFlow tf.strings.unicode_script অপারেশন প্রদান করে।
  • স্ক্রিপ্ট কোডগুলি হল int32 মান যা ইউনিকোড (ICU) UScriptCode মানগুলির জন্য আন্তর্জাতিক উপাদানগুলিতে মানচিত্র তৈরি করে৷
  • tf.strings.unicode_script অপারেশনটি কোডপয়েন্টের বহুমাত্রিক tf.Tensors বা tf.RaggedTensors-এও প্রয়োগ করা যেতে পারে।

  1. টেনসরফ্লোতে পাঠ্য ডেটা সম্পর্কিত বিভাজন কী?

  2. পাইথনে সংরক্ষিত শব্দগুলি কী কী?

  3. পাইথন শনাক্তকারী কি?

  4. পাইথন এবং আর ব্যতীত ডেটা সায়েন্সকে সমর্থন করার সরঞ্জামগুলি কী কী?