পাইথন ব্যবহার করে ইলিয়াড ডেটাসেট লোড করতে Tensorflow কিভাবে ব্যবহার করা যেতে পারে?

Tensorflow হল একটি মেশিন লার্নিং ফ্রেমওয়ার্ক যা Google প্রদান করে। এটি একটি ওপেন সোর্স ফ্রেমওয়ার্ক যা পাইথনের সাথে অ্যালগরিদম, গভীর শিক্ষার অ্যাপ্লিকেশন এবং আরও অনেক কিছু বাস্তবায়নের জন্য ব্যবহৃত হয়। এটি গবেষণা এবং উৎপাদন উদ্দেশ্যে ব্যবহৃত হয়।

টেনসর হল টেনসরফ্লোতে ব্যবহৃত একটি ডেটা স্ট্রাকচার। এটি একটি প্রবাহ চিত্রে প্রান্তগুলিকে সংযুক্ত করতে সহায়তা করে। এই ফ্লো ডায়াগ্রামটি 'ডেটা ফ্লো গ্রাফ' নামে পরিচিত। টেনসরগুলি একটি বহুমাত্রিক অ্যারে বা একটি তালিকা ছাড়া কিছুই নয়৷

তিনটি প্রধান বৈশিষ্ট্য −

ব্যবহার করে তাদের চিহ্নিত করা যায়

র্যাঙ্ক - এটি টেনসরের মাত্রিকতা সম্পর্কে বলে। এটি টেনসরের ক্রম বা টেনসরের মাত্রার সংখ্যা হিসাবে বোঝা যায় যা সংজ্ঞায়িত করা হয়েছে।
টাইপ করুন৷ - এটি টেনসরের উপাদানগুলির সাথে যুক্ত ডেটা টাইপ সম্পর্কে বলে। এটি এক মাত্রিক, দ্বিমাত্রিক বা এন-ডাইমেনশনাল টেনসর হতে পারে।
আকৃতি − এটি সারি এবং কলামের একসাথে সংখ্যা।

আমরা ইলিয়াডের ডেটাসেট ব্যবহার করব, যাতে উইলিয়াম কাউপার, এডওয়ার্ড (আর্ল অফ ডার্বি) এবং স্যামুয়েল বাটলারের তিনটি অনুবাদ কাজের পাঠ্য ডেটা রয়েছে৷ যখন পাঠ্যের একটি লাইন দেওয়া হয় তখন মডেলটিকে অনুবাদক সনাক্ত করতে প্রশিক্ষিত করা হয়। ব্যবহৃত টেক্সট ফাইল প্রিপ্রসেসিং করা হয়েছে. এর মধ্যে রয়েছে নথির শিরোনাম এবং ফুটার, লাইন নম্বর এবং অধ্যায়ের শিরোনাম অপসারণ৷

আমরা নিচের কোডটি চালানোর জন্য Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

উদাহরণ

নিম্নলিখিত কোড স্নিপেট -

def labeler(example, index):
   return example, tf.cast(index, tf.int64)
print(“An empty list has been created”)
labeled_data_sets = []
print(“Iterate through the file names and create a dataset from text file using ‘TextLineDataset’
method”)
for i, file_name in enumerate(FILE_NAMES):
   lines_dataset = tf.data.TextLineDataset(str(parent_dir/file_name))
   labeled_dataset = lines_dataset.map(lambda ex: labeler(ex, i))
   labeled_data_sets.append(labeled_dataset)

কোড ক্রেডিট - https://www.tensorflow.org/tutorials/load_data/text

আউটপুট

An empty list has been created
Iterate through the file names and create a dataset from text file using ‘TextLineDataset’ method

ব্যাখ্যা

'TextLineDataset' ব্যবহার করা হয়, যা একটি টেক্সট ফাইল থেকে একটি tf.data.A ডেটাসেট তৈরি করে।
প্রতিটি উদাহরণ হল মূল ফাইলের পাঠ্যের একটি লাইন
'text_dataset_from_directory' একটি ফাইলের বিষয়বস্তুকে একটি একক উদাহরণ হিসেবে বিবেচনা করে।
TextLineDataset উপযোগী যখন টেক্সট ডেটার সাথে কাজ করে যা লাইন-ভিত্তিক।
এই ফাইলগুলির মাধ্যমে পুনরাবৃত্তি করুন এবং প্রতিটি সারিকে নিজস্ব ডেটাসেটে লোড করুন৷
৷
প্রতিটি উদাহরণ পৃথকভাবে লেবেল করা উচিত, তাই 'tf.data.Dataset.map' প্রতিটি সারিতে একটি লেবেলার ফাংশন প্রয়োগ করতে ব্যবহার করা হয়৷
এটি ডেটাসেটের প্রতিটি উদাহরণে পুনরাবৃত্তি করবে এবং আউটপুট হিসাবে জোড়া (উদাহরণ, লেবেল) প্রদান করবে।