পাইথনে একটি স্ট্রিং এর একটি নির্দিষ্ট সম্পত্তি আছে কিনা তা দেখতে কিভাবে tf.text ব্যবহার করা যেতে পারে?

'শব্দ আকার' পদ্ধতিটি নির্দিষ্ট শর্তগুলির সাথে ব্যবহার করা যেতে পারে যেমন 'HAS_TITLE_CASE', 'IS_NUMERIC_VALUE', বা 'HAS_SOME_PUNCT_OR_SYMBOL' একটি স্ট্রিং একটি নির্দিষ্ট বৈশিষ্ট্য আছে কিনা তা দেখতে৷

আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?

আমরা কেরাস সিকোয়েন্সিয়াল এপিআই ব্যবহার করব, যা একটি অনুক্রমিক মডেল তৈরি করতে সহায়ক যা স্তরগুলির একটি প্লেইন স্ট্যাকের সাথে কাজ করতে ব্যবহৃত হয়, যেখানে প্রতিটি স্তরে একটি ইনপুট টেনসর এবং একটি আউটপুট টেনসর রয়েছে৷

একটি নিউরাল নেটওয়ার্ক যা অন্তত একটি স্তর ধারণ করে একটি কনভোলিউশনাল স্তর হিসাবে পরিচিত। আমরা শেখার মডেল তৈরি করতে কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করতে পারি।

টেনসরফ্লো টেক্সটে টেক্সট সম্পর্কিত ক্লাস এবং অপ্সের সংগ্রহ রয়েছে যা টেনসরফ্লো 2.0 এর সাথে ব্যবহার করা যেতে পারে। টেনসরফ্লো টেক্সটটি সিকোয়েন্স মডেলিং প্রিপ্রসেস করতে ব্যবহার করা যেতে পারে।

নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

টোকেনাইজেশন হল একটি স্ট্রিংকে টোকেনে বিভক্ত করার পদ্ধতি। এই টোকেনগুলি শব্দ, সংখ্যা বা বিরাম চিহ্ন হতে পারে। মূল ইন্টারফেসগুলির মধ্যে রয়েছে টোকেনাইজার এবং টোকেনাইজার উইথঅফসেট যার প্রতিটির একটি একক পদ্ধতি রয়েছে যথাক্রমে টোকেনাইজ এবং টোকেনাইজ_সাথ_অফসেট। একাধিক টোকেনাইজার রয়েছে, যার প্রত্যেকটি টোকেনাইজার উইথঅফসেট (যা টোকেনাইজার ক্লাসকে প্রসারিত করে) প্রয়োগ করে। এতে মূল স্ট্রিংয়ে বাইট অফসেট পাওয়ার একটি বিকল্প রয়েছে। এটি মূল স্ট্রিংয়ের বাইটগুলি জানতে সাহায্য করে যে টোকেনটি তৈরি করা হয়েছিল।

নির্দিষ্ট প্রাকৃতিক ভাষা বোঝার মডেলগুলিতে ব্যবহৃত একটি সাধারণ বৈশিষ্ট্য হল পাঠ্য স্ট্রিংয়ের একটি নির্দিষ্ট বৈশিষ্ট্য আছে কিনা তা দেখা। Wordshape আপনার ইনপুট টেক্সটে বিভিন্ন প্রাসঙ্গিক নিদর্শন মেলানোর জন্য বিভিন্ন দরকারী রেগুলার এক্সপ্রেশন ভিত্তিক সহায়ক ফাংশন সংজ্ঞায়িত করে। এখানে কয়েকটি উদাহরণ দেওয়া হল৷

৷

উদাহরণ

print("Whitespace tokenizer is being called")
tokenizer = text.WhitespaceTokenizer()
print("Tokens being generated")
tokens = tokenizer.tokenize(['Everything that is not saved will be lost.', u'Sad☹'.encode('UTF-8')])
print("Checking if it is capitalized")
f1 = text.wordshape(tokens, text.WordShape.HAS_TITLE_CASE)
print("Checking if all the letters are uppercase")
f2 = text.wordshape(tokens, text.WordShape.IS_UPPERCASE)
print("Checking if the tokens contain punctuation")
f3 = text.wordshape(tokens, text.WordShape.HAS_SOME_PUNCT_OR_SYMBOL)
print("Checking if the token is a number")
f4 = text.wordshape(tokens, text.WordShape.IS_NUMERIC_VALUE)
print("Printing the results")
print(f1.to_list())
print(f2.to_list())
print(f3.to_list())
print(f4.to_list())

কোড ক্রেডিট −https://www.tensorflow.org/tutorials/tensorflow_text/intro

আউটপুট

Whitespace tokenizer is being called
Tokens being generated
Checking if it is capitalized
Checking if all the letters are uppercase
Checking if the tokens contain punctuation
Checking if the token is a number
Printing the results
[[True, False, False, False, False, False, False, False], [True]]
[[False, False, False, False, False, False, False, False], [False]]
[[False, False, False, False, False, False, False, True], [True]]
[[False, False, False, False, False, False, False, False], [False]]

ব্যাখ্যা

'হোয়াইটস্পেস টোকেনাইজার' বলা হয়, এবং টোকেন তৈরি করা হয়।
অক্ষরগুলো বড় হাতের কিনা তা পরীক্ষা করা হয়।
এটি বিরাম চিহ্নের জন্যও পরীক্ষা করা হয় এবং এটি একটি সংখ্যা কি না।
এই গণনার পরে, বুল মানগুলি প্রদর্শিত হয়