পাইথন ব্যবহার করে প্রশিক্ষণের জন্য ইলিয়াড ডেটাসেট কীভাবে প্রস্তুত করা যেতে পারে?

Tensorflow হল একটি মেশিন লার্নিং ফ্রেমওয়ার্ক যা Google প্রদান করে। এটি একটি ওপেন সোর্স ফ্রেমওয়ার্ক যা পাইথনের সাথে অ্যালগরিদম, গভীর শিক্ষার অ্যাপ্লিকেশন এবং আরও অনেক কিছু বাস্তবায়নের জন্য ব্যবহৃত হয়। এটি গবেষণা এবং উৎপাদন উদ্দেশ্যে ব্যবহৃত হয়।

'টেনসরফ্লো' প্যাকেজটি নীচের কোড-

লাইনটি ব্যবহার করে উইন্ডোজে ইনস্টল করা যেতে পারে

পিপ ইনস্টল টেনসরফ্লো

টেনসর হল টেনসরফ্লোতে ব্যবহৃত একটি ডেটা স্ট্রাকচার। এটি একটি প্রবাহ চিত্রে প্রান্তগুলিকে সংযুক্ত করতে সহায়তা করে। এই ফ্লো ডায়াগ্রামটি 'ডেটা ফ্লো গ্রাফ' নামে পরিচিত। টেনসরগুলি একটি বহুমাত্রিক অ্যারে বা একটি তালিকা ছাড়া কিছুই নয়৷

আমরা ইলিয়াডের ডেটাসেট ব্যবহার করব, যাতে উইলিয়াম কাউপার, এডওয়ার্ড (ডার্বির আর্ল) এবং স্যামুয়েল বাটলারের তিনটি অনুবাদ কাজের পাঠ্য ডেটা রয়েছে৷ যখন পাঠ্যের একটি লাইন দেওয়া হয় তখন মডেলটিকে অনুবাদক সনাক্ত করতে প্রশিক্ষিত করা হয়। ব্যবহৃত টেক্সট ফাইল প্রিপ্রসেসিং করা হয়েছে. এর মধ্যে রয়েছে নথির শিরোনাম এবং ফুটার, লাইন নম্বর এবং অধ্যায়ের শিরোনাম অপসারণ৷

আমরা নিচের কোডটি চালানোর জন্য Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

উদাহরণ

নিম্নলিখিত কোড স্নিপেট -

মুদ্রণ("প্রশিক্ষণের জন্য ডেটাসেট প্রস্তুত করুন")টোকেনাইজার =tf_text.UnicodeScriptTokenizer()প্রিন্ট ("টেক্সট ডেটা টোকেনাইজ করতে 'টোকেনাইজ' নামের একটি ফাংশন সংজ্ঞায়িত করা")ডিএফ টোকেনাইজ(টেক্সট, অব্যবহৃত_লেবেল):Lower_case =tf_text.case_foldut8 (টেক্সট) tokenizer.tokenize(lower_case)tokenized_ds =all_labeled_data.map(tokenize)মুদ্রণ("ডেটাসেটের উপর পুনরাবৃত্তি করুন এবং কয়েকটি নমুনা প্রিন্ট করুন") tokenized_ds.take(6) এ text_batch এর জন্য:print("টোকেন:", text_batch) .numpy())

কোড ক্রেডিট - https://www.tensorflow.org/tutorials/load_data/text

আউটপুট

টেক্সট ডেটাকে টোকেনাইজ করতে 'টোকেনাইজ' নামের একটি ফাংশন সংজ্ঞায়িত করার জন্য প্রশিক্ষণের জন্য ডেটাসেট প্রস্তুত করুনWARNING:tensorflow:From /usr/local/lib/python3.6/distpackages/tensorflow/python/util/dispatch.py:201:batch_gather ( fromtensorflow.python.ops.array_ops) বাতিল করা হয়েছে এবং 2017-10-25-এর পরে সরানো হবে। আপডেট করার নির্দেশাবলী:`tf.batch_gather` অবচয়, অনুগ্রহ করে এর পরিবর্তে `batch_dims=-1` এর সাথে `tf.gather` ব্যবহার করুন। পুনরাবৃত্তি করুন ডেটাসেটের উপরে এবং কয়েকটি নমুনা টোকেন প্রিন্ট করুন:[b'but' b'i' b'have' b'now' b'both' b'sasted' b'food' b', 'b'and' b'given' ]টোকেন:[b'all' b'thes' b'shall' b'now' b'be' b'thine' b':'b'but' b'if' b'the'b'gods']টোকেন :[b'their' b'spiry' b'summits' b'waved' b'. b'there' b',' b'unperceived']টোকেন:[b'"' b'i' b'pray' b'you' b', 'b'would' b'you' b'show' b' তোমার 'b'love'b','b'dear' b'friends' b',']টোকেন:[b'entering' b'neath' b'the' b'clavicle' b'the' b'point' ]টোকেনস:[b'but' b'grief' b', 'b'his' b'father' b'lost' b', 'b'awaits' b'him'b'now' b','] ব্যাখ্যা
   
 একটি 'টোকেনাইজ' ফাংশন সংজ্ঞায়িত করা হয় যা ডেটাসেটের বাক্যগুলিকে স্পেস বাদ দিয়ে শব্দগুলিতে বিভক্ত করে।
 
  
 এই ফাংশনটিকে সম্পূর্ণরূপে ডেটাসেটে বলা হয়৷
৷ 
  
 টোকেনাইজ করার পরে ডেটাসেটের একটি নমুনা কনসোলে প্রদর্শিত হয়।