Tensorflow হল একটি মেশিন লার্নিং ফ্রেমওয়ার্ক যা Google প্রদান করে। এটি একটি ওপেন সোর্স ফ্রেমওয়ার্ক যা পাইথনের সাথে অ্যালগরিদম, গভীর শিক্ষার অ্যাপ্লিকেশন এবং আরও অনেক কিছু বাস্তবায়নের জন্য ব্যবহৃত হয়। এটি গবেষণা এবং উত্পাদন উদ্দেশ্যে ব্যবহৃত হয়। এটিতে অপ্টিমাইজেশন কৌশল রয়েছে যা জটিল গাণিতিক ক্রিয়াকলাপগুলি দ্রুত সম্পাদন করতে সহায়তা করে। কারণ এটি NumPy এবং বহুমাত্রিক অ্যারে ব্যবহার করে। এই বহুমাত্রিক অ্যারেগুলি 'টেনসর' নামেও পরিচিত। ফ্রেমওয়ার্ক গভীর নিউরাল নেটওয়ার্কের সাথে কাজ করতে সহায়তা করে।
টেনসর হল টেনসরফ্লোতে ব্যবহৃত একটি ডেটা স্ট্রাকচার। এটি একটি প্রবাহ চিত্রে প্রান্তগুলিকে সংযুক্ত করতে সহায়তা করে। এই ফ্লো ডায়াগ্রামটি 'ডেটা ফ্লো গ্রাফ' নামে পরিচিত। টেনসরগুলি একটি বহুমাত্রিক অ্যারে বা একটি তালিকা ছাড়া কিছুই নয়৷
আমরা ইলিয়াডের ডেটাসেট ব্যবহার করব, যাতে উইলিয়াম কাউপার, এডওয়ার্ড (আর্ল অফ ডার্বি) এবং স্যামুয়েল বাটলারের তিনটি অনুবাদ কাজের পাঠ্য ডেটা রয়েছে৷ যখন পাঠ্যের একটি লাইন দেওয়া হয় তখন মডেলটিকে অনুবাদক সনাক্ত করতে প্রশিক্ষিত করা হয়। ব্যবহৃত টেক্সট ফাইল প্রিপ্রসেসিং করা হয়েছে. এর মধ্যে রয়েছে নথির শিরোনাম এবং ফুটার, লাইন নম্বর এবং অধ্যায়ের শিরোনাম অপসারণ৷
আমরা নিচের কোডটি চালানোর জন্য Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।
উদাহরণ
নিম্নলিখিত কোড স্নিপেট -
print("Build a vocabulary using the tokens") tokenized_ds = configure_dataset(tokenized_ds) vocab_dict = collections.defaultdict(lambda: 0) for toks in tokenized_ds.as_numpy_iterator(): for tok in toks: vocab_dict[tok] += 1 print("Sort the vocabulary") vocab = sorted(vocab_dict.items(), key=lambda x: x[1], reverse=True) vocab = [token for token, count in vocab] vocab = vocab[:VOCAB_SIZE] vocab_size = len(vocab) print("The vocabulary size is : ", vocab_size) print("First six vocabulary entries are :", vocab[:6])
কোড ক্রেডিট - https://www.tensorflow.org/tutorials/load_data/text
আউটপুট
Build a vocabulary using the tokens Sort the vocabulary The vocabulary size is : 10000 First six vocabulary entries are : [b',', b'the', b'and', b"'", b'of', b'.']
এরপর, আপনি ফ্রিকোয়েন্সি অনুসারে টোকেন বাছাই করে এবং শীর্ষ VOCAB_SIZE টোকেন রেখে একটি শব্দভাণ্ডার তৈরি করবেন।
ব্যাখ্যা
-
টোকেনগুলিকে তাদের ফ্রিকোয়েন্সির উপর ভিত্তি করে সাজানোর পরে একটি শব্দভান্ডার তৈরি করা হয়৷
-
কিছু শব্দভান্ডার এন্ট্রি কনসোলে প্রদর্শিত হয়।