'শব্দ আকার' পদ্ধতিটি নির্দিষ্ট শর্তগুলির সাথে ব্যবহার করা যেতে পারে যেমন 'HAS_TITLE_CASE', 'IS_NUMERIC_VALUE', বা 'HAS_SOME_PUNCT_OR_SYMBOL' একটি স্ট্রিং একটি নির্দিষ্ট বৈশিষ্ট্য আছে কিনা তা দেখতে৷
আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?
আমরা কেরাস সিকোয়েন্সিয়াল এপিআই ব্যবহার করব, যা একটি অনুক্রমিক মডেল তৈরি করতে সহায়ক যা স্তরগুলির একটি প্লেইন স্ট্যাকের সাথে কাজ করতে ব্যবহৃত হয়, যেখানে প্রতিটি স্তরে একটি ইনপুট টেনসর এবং একটি আউটপুট টেনসর রয়েছে৷
একটি নিউরাল নেটওয়ার্ক যা অন্তত একটি স্তর ধারণ করে একটি কনভোলিউশনাল স্তর হিসাবে পরিচিত। আমরা শেখার মডেল তৈরি করতে কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করতে পারি।
টেনসরফ্লো টেক্সটে টেক্সট সম্পর্কিত ক্লাস এবং অপ্সের সংগ্রহ রয়েছে যা টেনসরফ্লো 2.0 এর সাথে ব্যবহার করা যেতে পারে। টেনসরফ্লো টেক্সটটি সিকোয়েন্স মডেলিং প্রিপ্রসেস করতে ব্যবহার করা যেতে পারে।
নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।
টোকেনাইজেশন হল একটি স্ট্রিংকে টোকেনে বিভক্ত করার পদ্ধতি। এই টোকেনগুলি শব্দ, সংখ্যা বা বিরাম চিহ্ন হতে পারে। মূল ইন্টারফেসগুলির মধ্যে রয়েছে টোকেনাইজার এবং টোকেনাইজার উইথঅফসেট যার প্রতিটির একটি একক পদ্ধতি রয়েছে যথাক্রমে টোকেনাইজ এবং টোকেনাইজ_সাথ_অফসেট। একাধিক টোকেনাইজার রয়েছে, যার প্রত্যেকটি টোকেনাইজার উইথঅফসেট (যা টোকেনাইজার ক্লাসকে প্রসারিত করে) প্রয়োগ করে। এতে মূল স্ট্রিংয়ে বাইট অফসেট পাওয়ার একটি বিকল্প রয়েছে। এটি মূল স্ট্রিংয়ের বাইটগুলি জানতে সাহায্য করে যে টোকেনটি তৈরি করা হয়েছিল।
নির্দিষ্ট প্রাকৃতিক ভাষা বোঝার মডেলগুলিতে ব্যবহৃত একটি সাধারণ বৈশিষ্ট্য হল পাঠ্য স্ট্রিংয়ের একটি নির্দিষ্ট বৈশিষ্ট্য আছে কিনা তা দেখা। Wordshape আপনার ইনপুট টেক্সটে বিভিন্ন প্রাসঙ্গিক নিদর্শন মেলানোর জন্য বিভিন্ন দরকারী রেগুলার এক্সপ্রেশন ভিত্তিক সহায়ক ফাংশন সংজ্ঞায়িত করে। এখানে কয়েকটি উদাহরণ দেওয়া হল৷
৷উদাহরণ
print("Whitespace tokenizer is being called") tokenizer = text.WhitespaceTokenizer() print("Tokens being generated") tokens = tokenizer.tokenize(['Everything that is not saved will be lost.', u'Sad☹'.encode('UTF-8')]) print("Checking if it is capitalized") f1 = text.wordshape(tokens, text.WordShape.HAS_TITLE_CASE) print("Checking if all the letters are uppercase") f2 = text.wordshape(tokens, text.WordShape.IS_UPPERCASE) print("Checking if the tokens contain punctuation") f3 = text.wordshape(tokens, text.WordShape.HAS_SOME_PUNCT_OR_SYMBOL) print("Checking if the token is a number") f4 = text.wordshape(tokens, text.WordShape.IS_NUMERIC_VALUE) print("Printing the results") print(f1.to_list()) print(f2.to_list()) print(f3.to_list()) print(f4.to_list())
কোড ক্রেডিট −https://www.tensorflow.org/tutorials/tensorflow_text/intro
আউটপুট
Whitespace tokenizer is being called Tokens being generated Checking if it is capitalized Checking if all the letters are uppercase Checking if the tokens contain punctuation Checking if the token is a number Printing the results [[True, False, False, False, False, False, False, False], [True]] [[False, False, False, False, False, False, False, False], [False]] [[False, False, False, False, False, False, False, True], [True]] [[False, False, False, False, False, False, False, False], [False]]
ব্যাখ্যা
- 'হোয়াইটস্পেস টোকেনাইজার' বলা হয়, এবং টোকেন তৈরি করা হয়।
- অক্ষরগুলো বড় হাতের কিনা তা পরীক্ষা করা হয়।
- এটি বিরাম চিহ্নের জন্যও পরীক্ষা করা হয় এবং এটি একটি সংখ্যা কি না।
- এই গণনার পরে, বুল মানগুলি প্রদর্শিত হয়