কিভাবে Tensorflow ইলিয়াড ডেটাসেটকে পাইথনে প্রশিক্ষণ এবং পরীক্ষার ডেটাতে বিভক্ত করতে ব্যবহার করা যেতে পারে?

Tensorflow হল একটি মেশিন লার্নিং ফ্রেমওয়ার্ক যা Google প্রদান করে। এটি একটি ওপেন সোর্স ফ্রেমওয়ার্ক যা পাইথনের সাথে অ্যালগরিদম, গভীর শিক্ষার অ্যাপ্লিকেশন এবং আরও অনেক কিছু বাস্তবায়নের জন্য ব্যবহৃত হয়। এটি গবেষণা এবং উৎপাদন উদ্দেশ্যে ব্যবহৃত হয়।

'টেনসরফ্লো' প্যাকেজটি নীচের কোড-

লাইনটি ব্যবহার করে উইন্ডোজে ইনস্টল করা যেতে পারে

pip install tensorflow

টেনসর হল টেনসরফ্লোতে ব্যবহৃত একটি ডেটা স্ট্রাকচার। এটি একটি প্রবাহ চিত্রে প্রান্তগুলিকে সংযুক্ত করতে সহায়তা করে। এই ফ্লো ডায়াগ্রামটি 'ডেটা ফ্লো গ্রাফ' নামে পরিচিত। টেনসরগুলি একটি বহুমাত্রিক অ্যারে বা একটি তালিকা ছাড়া কিছুই নয়৷

তিনটি প্রধান বৈশিষ্ট্য −

ব্যবহার করে তাদের চিহ্নিত করা যায়

র্যাঙ্ক - এটি টেনসরের মাত্রিকতা সম্পর্কে বলে। এটি টেনসরের ক্রম বা টেনসরের মাত্রার সংখ্যা হিসাবে বোঝা যায় যা সংজ্ঞায়িত করা হয়েছে।
টাইপ করুন৷ - এটি টেনসরের উপাদানগুলির সাথে যুক্ত ডেটা টাইপ সম্পর্কে বলে। এটি এক মাত্রিক, দ্বিমাত্রিক বা এন-ডাইমেনশনাল টেনসর হতে পারে।
আকৃতি − এটি সারি এবং কলামের একসাথে সংখ্যা।

আমরা ইলিয়াডের ডেটাসেট ব্যবহার করব, যাতে উইলিয়াম কাউপার, এডওয়ার্ড (আর্ল অফ ডার্বি) এবং স্যামুয়েল বাটলারের তিনটি অনুবাদ কাজের পাঠ্য ডেটা রয়েছে৷ যখন পাঠ্যের একটি লাইন দেওয়া হয় তখন মডেলটিকে অনুবাদক সনাক্ত করতে প্রশিক্ষিত করা হয়। ব্যবহৃত টেক্সট ফাইল প্রিপ্রসেসিং করা হয়েছে. এর মধ্যে রয়েছে নথির শিরোনাম এবং ফুটার, লাইন নম্বর এবং অধ্যায়ের শিরোনাম অপসারণ৷

আমরা নিচের কোডটি চালানোর জন্য Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

উদাহরণ

নিম্নলিখিত কোড স্নিপেট -

train_data = all_encoded_data.skip(VALIDATION_SIZE).shuffle(BUFFER_SIZE)
validation_data = all_encoded_data.take(VALIDATION_SIZE)

train_data = train_data.padded_batch(BATCH_SIZE)
validation_data = validation_data.padded_batch(BATCH_SIZE)

sample_text, sample_labels = next(iter(validation_data))
print("The text batch shape is : ", sample_text.shape)
print("The label batch shape is : ", sample_labels.shape)
print("A text example is : ", sample_text[5])
print("A label example is: ", sample_labels[5])

কোড ক্রেডিট - https://www.tensorflow.org/tutorials/load_data/text

আউটপুট

The text batch shape is : (64, 18)
The label batch shape is : (64,)
A text example is : tf.Tensor(
[ 20 391 2 11 144 787 2 3498 16 49 2 0 0 0
   0 0 0 0], shape=(18,), dtype=int64)
A label example is: tf.Tensor(1, shape=(), dtype=int64)

ব্যাখ্যা

কেরাস টেক্সটভেক্টরাইজেশন লেয়ারটি গ্রুপ/ব্যাচ করতে এবং ভেক্টরাইজড ডেটাতে প্যাডিং প্রদান করতে ব্যবহৃত হয়।
প্যাডিং প্রয়োজন যেহেতু একটি ব্যাচের ভিতরের উদাহরণগুলি একই আকার এবং আকৃতির হওয়া প্রয়োজন, কিন্তু ডেটাসেটের উদাহরণগুলি একই আকারের নাও হতে পারে৷
পাঠ্যের প্রতিটি লাইনে আলাদা সংখ্যক শব্দ থাকতে পারে।
'tf.data.Dataset' পদ্ধতি ডেটাসেটগুলিকে বিভক্ত করতে এবং প্যাড-ব্যাচিং করতে সাহায্য করে৷
'validation_data' এবং 'train_data' হল ব্যাচ ডেটার সংগ্রহ৷
প্রতিটি ব্যাচ হল এক জোড়া (অনেক উদাহরণ, অনেক লেবেল) অ্যারে হিসাবে উপস্থাপিত৷