পাইথন ব্যবহার করে ইলিয়াড ডেটাসেটের জন্য টোকেনাইজড শব্দ থেকে শব্দভাণ্ডার তৈরি করতে Tensorflow কীভাবে ব্যবহার করা যেতে পারে?

Tensorflow হল একটি মেশিন লার্নিং ফ্রেমওয়ার্ক যা Google প্রদান করে। এটি একটি ওপেন সোর্স ফ্রেমওয়ার্ক যা পাইথনের সাথে অ্যালগরিদম, গভীর শিক্ষার অ্যাপ্লিকেশন এবং আরও অনেক কিছু বাস্তবায়নের জন্য ব্যবহৃত হয়। এটি গবেষণা এবং উত্পাদন উদ্দেশ্যে ব্যবহৃত হয়। এটিতে অপ্টিমাইজেশন কৌশল রয়েছে যা জটিল গাণিতিক ক্রিয়াকলাপগুলি দ্রুত সম্পাদন করতে সহায়তা করে। কারণ এটি NumPy এবং বহুমাত্রিক অ্যারে ব্যবহার করে। এই বহুমাত্রিক অ্যারেগুলি 'টেনসর' নামেও পরিচিত। ফ্রেমওয়ার্ক গভীর নিউরাল নেটওয়ার্কের সাথে কাজ করতে সহায়তা করে।

টেনসর হল টেনসরফ্লোতে ব্যবহৃত একটি ডেটা স্ট্রাকচার। এটি একটি প্রবাহ চিত্রে প্রান্তগুলিকে সংযুক্ত করতে সহায়তা করে। এই ফ্লো ডায়াগ্রামটি 'ডেটা ফ্লো গ্রাফ' নামে পরিচিত। টেনসরগুলি একটি বহুমাত্রিক অ্যারে বা একটি তালিকা ছাড়া কিছুই নয়৷

আমরা ইলিয়াডের ডেটাসেট ব্যবহার করব, যাতে উইলিয়াম কাউপার, এডওয়ার্ড (আর্ল অফ ডার্বি) এবং স্যামুয়েল বাটলারের তিনটি অনুবাদ কাজের পাঠ্য ডেটা রয়েছে৷ যখন পাঠ্যের একটি লাইন দেওয়া হয় তখন মডেলটিকে অনুবাদক সনাক্ত করতে প্রশিক্ষিত করা হয়। ব্যবহৃত টেক্সট ফাইল প্রিপ্রসেসিং করা হয়েছে. এর মধ্যে রয়েছে নথির শিরোনাম এবং ফুটার, লাইন নম্বর এবং অধ্যায়ের শিরোনাম অপসারণ৷

আমরা নিচের কোডটি চালানোর জন্য Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

উদাহরণ

নিম্নলিখিত কোড স্নিপেট -

print("Build a vocabulary using the tokens")
tokenized_ds = configure_dataset(tokenized_ds)
vocab_dict = collections.defaultdict(lambda: 0)
for toks in tokenized_ds.as_numpy_iterator():
   for tok in toks:
   vocab_dict[tok] += 1
print("Sort the vocabulary")
vocab = sorted(vocab_dict.items(), key=lambda x: x[1], reverse=True)
vocab = [token for token, count in vocab]
vocab = vocab[:VOCAB_SIZE]
vocab_size = len(vocab)
print("The vocabulary size is : ", vocab_size)
print("First six vocabulary entries are :", vocab[:6])

কোড ক্রেডিট - https://www.tensorflow.org/tutorials/load_data/text

আউটপুট

Build a vocabulary using the tokens
Sort the vocabulary
The vocabulary size is : 10000
First six vocabulary entries are : [b',', b'the', b'and', b"'", b'of', b'.']

এরপর, আপনি ফ্রিকোয়েন্সি অনুসারে টোকেন বাছাই করে এবং শীর্ষ VOCAB_SIZE টোকেন রেখে একটি শব্দভাণ্ডার তৈরি করবেন।

ব্যাখ্যা

টোকেনগুলিকে তাদের ফ্রিকোয়েন্সির উপর ভিত্তি করে সাজানোর পরে একটি শব্দভান্ডার তৈরি করা হয়৷
কিছু শব্দভান্ডার এন্ট্রি কনসোলে প্রদর্শিত হয়।