কম্পিউটার

পাইথন ব্যবহার করে টেনসরফ্লোতে কীভাবে ইউনিকোড অপারেশন করা যায়?


ইউনিকোড অপারেশনগুলি প্রথমে স্ট্রিংগুলির দৈর্ঘ্য আনয়ন করে এবং এটিকে অন্যান্য মানগুলিতে সেট করে সঞ্চালিত হতে পারে (ডিফল্ট মান হল 'বাইট')। কোড পয়েন্টের ভেক্টরকে এনকোডেড স্ট্রিং স্কেলারে রূপান্তর করতে 'এনকোড' পদ্ধতি ব্যবহার করা হয়। প্রতিটি এনকোড করা স্ট্রিং-এ ইউনিকোড কোড পয়েন্ট নির্ধারণ করার জন্য এটি করা হয়।

আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?

যে মডেলগুলি প্রাকৃতিক ভাষা প্রক্রিয়া করে সেগুলি বিভিন্ন ভাষা পরিচালনা করে যেগুলির বিভিন্ন অক্ষর সেট রয়েছে৷ ইউনিকোডকে স্ট্যান্ডার্ড এনকোডিং সিস্টেম হিসাবে বিবেচনা করা হয় যা প্রায় সমস্ত ভাষার অক্ষর উপস্থাপন করতে ব্যবহৃত হয়। প্রতিটি অক্ষর একটি অনন্য পূর্ণসংখ্যা কোড পয়েন্টের সাহায্যে এনকোড করা হয় যা 0 এবং 0x10FFFF এর মধ্যে। একটি ইউনিকোড স্ট্রিং হল শূন্য বা তার বেশি কোড মানের একটি ক্রম।

আসুন আমরা বুঝতে পারি কিভাবে পাইথন ব্যবহার করে ইউনিকোড স্ট্রিংগুলিকে উপস্থাপন করা যায় এবং ইউনিকোড সমতুল্য ব্যবহার করে সেগুলিকে ম্যানিপুলেট করা যায়। প্রথমত, আমরা স্ট্যান্ডার্ড স্ট্রিং অপ্সের ইউনিকোড সমতুল্যের সাহায্যে স্ক্রিপ্ট সনাক্তকরণের উপর ভিত্তি করে ইউনিকোড স্ট্রিংগুলিকে টোকেনে আলাদা করি৷

নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

print("The final character takes about 4 bytes in UTF-8 encoding")
thanks = u'Hello 😊'.encode('UTF-8')
num_bytes = tf.strings.length(thanks).numpy()
num_chars = tf.strings.length(thanks, unit='UTF8_CHAR').numpy()
print('{} bytes; {} UTF-8 characters'.format(num_bytes, num_chars))

কোড ক্রেডিট:https://www.tensorflow.org/tutorials/load_data/unicode

আউটপুট

The final character takes about 4 bytes in UTF-8 encoding
10 bytes; 7 UTF-8 characters

ব্যাখ্যা

  • tf.strings.length অপারেশনটির একটি প্যারামিটার ইউনিট রয়েছে যা নির্দেশ করে যে পদ্ধতিতে দৈর্ঘ্য গণনা করা দরকার৷
  • ইউনিট ডিফল্ট হল "BYTE", কিন্তু এটি অন্যান্য মানগুলিতে সেট করা যেতে পারে, যেমন "UTF8_CHAR" বা "UTF16_CHAR"৷
  • প্রতিটি এনকোড করা স্ট্রিংয়ে ইউনিকোড কোডপয়েন্টের সংখ্যা খুঁজে বের করার জন্য এটি করা হয়।

  1. পাইথন ব্যবহার করে ডেটা ভিজ্যুয়ালাইজ করতে টেনসরফ্লো কীভাবে ব্যবহার করা যেতে পারে?

  2. কিভাবে TensorFlow পাইথন ব্যবহার করে একটি রৈখিক মডেল প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে?

  3. পাইথন ব্যবহার করে টেনসরফ্লোতে উপাদান অনুসারে গুণ কীভাবে করা যেতে পারে?

  4. পাইথন ব্যবহার করে দুটি ম্যাট্রিক্সকে গুন করার জন্য Tensorflow কিভাবে ব্যবহার করা যেতে পারে?