কম্পিউটার

টেনসরফ্লো এবং পাইথন ব্যবহার করে ইউনিকোড স্ট্রিংগুলিকে UTF-8 এনকোডেড স্ট্রিং হিসাবে কীভাবে উপস্থাপন করবেন?


ইউনিকোড স্ট্রিংগুলির একটি সেটকে 'এনকোড' পদ্ধতি ব্যবহার করে UTF8-এনকোডেড স্ট্রিং হিসাবে উপস্থাপন করা যেতে পারে।

আরও পড়ুন:টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?

যে মডেলগুলি প্রাকৃতিক ভাষা প্রক্রিয়া করে সেগুলি বিভিন্ন ভাষা পরিচালনা করে যার বিভিন্ন অক্ষর সেট রয়েছে। ইউনিকোডকে স্ট্যান্ডার্ড এনকোডিং সিস্টেম হিসাবে বিবেচনা করা হয় যা প্রায় সমস্ত ভাষার অক্ষর উপস্থাপন করতে ব্যবহৃত হয়। প্রতিটি অক্ষর একটি অনন্য পূর্ণসংখ্যা কোড পয়েন্টের সাহায্যে এনকোড করা হয় যা 0 এবং 0x10FFFF এর মধ্যে। একটি ইউনিকোড স্ট্রিং হল শূন্য বা তার বেশি কোড মানের একটি ক্রম।

আসুন আমরা বুঝতে পারি কিভাবে পাইথন ব্যবহার করে ইউনিকোড স্ট্রিংগুলিকে উপস্থাপন করা যায় এবং ইউনিকোড সমতুল্য ব্যবহার করে সেগুলিকে ম্যানিপুলেট করা যায়। প্রথমত, আমরা স্ট্যান্ডার্ড স্ট্রিং অপ্সের ইউনিকোড সমতুল্যের সাহায্যে স্ক্রিপ্ট সনাক্তকরণের উপর ভিত্তি করে ইউনিকোড স্ট্রিংগুলিকে টোকেনে আলাদা করি৷

নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

মুদ্রণ("ইউনিকোড স্ট্রিংগুলির একটি সেট যা একটি UTF8-এনকোডেড স্ট্রিং হিসাবে উপস্থাপিত হয়")batch_utf8 =[s.encode('UTF-8') s in[u'hÃllo', u'আবহাওয়া কী কাল',u'Göödnight', u'😊']]batch_chars_ragged =tf.strings.unicode_decode(batch_utf8,input_encoding='UTF-8')batch_chars_ragged.to_list():print(sentence_chars)মুদ্রণ("Dense_chars)প্রিন্ট প্যাডিং এর সাথে প্রিন্ট করা হয় 

কোড ক্রেডিট:https://www.tensorflow.org/tutorials/load_data/unicode

আউটপুট

ইউনিকোড স্ট্রিংগুলির একটি সেট যা একটি UTF8-এনকোডেড স্ট্রিং [104, 195, 108, 108, 111][87, 104, 97, 116, 32, 105, 115, 32, 116, 014, , 32, 119, 101, 97, 116, 104, 101, 114, 32, 116, 111, 109, 111, 114, 114, 111, 119][71, 246, 246, 2010, 010,510 104, 116][128522]প্যাডিং সহ ঘন টেনসর প্রিন্ট করা হয়েছে[[ 104 195 108 108 111 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1][87 104 97 116 32 105 115 32 116 104 101 32 119 101 97 116 104 101 114 32 116 11114 1114 11114 246 100 110 105 103 104 116 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1][128522 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 - 1 -1 -1 -1 -1 -1 -1 -1 -1]]স্পার্স ম্যাট্রিক্সে রূপান্তর করা হচ্ছে

ব্যাখ্যা

  • যখন একাধিক স্ট্রিং ডিকোড করা হয়, তখন প্রতিটি স্ট্রিংয়ের অক্ষরের সংখ্যা সমান নাও হতে পারে।
  • ফলাফলটি হবে একটি tf.RaggedTensor, যেখানে অন্তরতম মাত্রার দৈর্ঘ্য পরিবর্তিত হয় এবং এই পরিবর্তনটি প্রতিটি স্ট্রিং-এর অক্ষরের সংখ্যার উপর নির্ভর করে।
  • এই tf.RaggedTensor সরাসরি ব্যবহার করা যেতে পারে, অথবা এটিকে tf.RaggedTensor.to_tensor পদ্ধতি ব্যবহার করে প্যাডিং সহ একটি ঘন tf.টেনসরে বা tf.RaggedTensor.to_sparse ব্যবহার করে একটি tf.SparseTensor-এ রূপান্তরিত করা যেতে পারে।

  1. পাইথন ব্যবহার করে স্তরগুলি রচনা করতে টেনসরফ্লো কীভাবে ব্যবহার করা যেতে পারে?

  2. পাইথন ব্যবহার করে ডেটার মূল্যায়ন এবং ভবিষ্যদ্বাণী করার জন্য টেনসরফ্লো এবং প্রাক-প্রশিক্ষিত মডেল কীভাবে ব্যবহার করা যেতে পারে?

  3. পাইথন ব্যবহার করে ডেটা ভিজ্যুয়ালাইজ করার জন্য টেনসরফ্লো এবং প্রাক-প্রশিক্ষিত মডেল কীভাবে ব্যবহার করা যেতে পারে?

  4. কিভাবে TensorFlow একটি টেনসর তৈরি করতে এবং পাইথন ব্যবহার করে একটি বার্তা প্রদর্শন করতে ব্যবহার করা যেতে পারে?