টেনসরফ্লোতে পাঠ্য ডেটা সম্পর্কিত বিভাজন কী?

বিভাজন শব্দের মতো এককগুলিতে পাঠ্যকে বিভক্ত করার কাজকে বোঝায়। এটি এমন ক্ষেত্রে ব্যবহৃত হয় যেখানে স্পেস অক্ষরগুলি শব্দগুলিকে আলাদা করার জন্য ব্যবহার করা হয়, কিন্তু কিছু ভাষা যেমন চীনা এবং জাপানি স্পেস ব্যবহার করে না। জার্মানির মতো কিছু ভাষায় দীর্ঘ যৌগ থাকে যেগুলোর অর্থ বিশ্লেষণ করার জন্য বিভক্ত করা প্রয়োজন।

আরো পড়ুন: টেনসরফ্লো কী এবং নিউরাল নেটওয়ার্ক তৈরি করতে টেনসরফ্লো-এর সাথে কেরাস কীভাবে কাজ করে?

যে মডেলগুলি প্রাকৃতিক ভাষা প্রক্রিয়া করে সেগুলি বিভিন্ন ভাষা পরিচালনা করে যার বিভিন্ন অক্ষর সেট রয়েছে। ইউনিকোডকে স্ট্যান্ডার্ড এনকোডিং সিস্টেম হিসাবে বিবেচনা করা হয় যা প্রায় সমস্ত ভাষার অক্ষর উপস্থাপন করতে ব্যবহৃত হয়। প্রতিটি অক্ষর একটি অনন্য পূর্ণসংখ্যা কোড পয়েন্টের সাহায্যে এনকোড করা হয় যা 0 এবং 0x10FFFF এর মধ্যে। একটি ইউনিকোড স্ট্রিং হল শূন্য বা তার বেশি কোড মানের একটি ক্রম।

আসুন আমরা বুঝতে পারি কিভাবে পাইথন ব্যবহার করে ইউনিকোড স্ট্রিংগুলিকে উপস্থাপন করা যায় এবং ইউনিকোড সমতুল্য ব্যবহার করে সেগুলিকে ম্যানিপুলেট করা যায়। প্রথমত, আমরা স্ট্যান্ডার্ড স্ট্রিং অপ্সের ইউনিকোড সমতুল্যের সাহায্যে স্ক্রিপ্ট সনাক্তকরণের উপর ভিত্তি করে ইউনিকোড স্ট্রিংগুলিকে টোকেনে আলাদা করি৷

নিচের কোডটি চালানোর জন্য আমরা Google Colaboratory ব্যবহার করছি। Google Colab বা Colaboratory ব্রাউজারে Python কোড চালাতে সাহায্য করে এবং এর জন্য শূন্য কনফিগারেশন এবং GPUs (গ্রাফিক্যাল প্রসেসিং ইউনিট) তে বিনামূল্যে অ্যাক্সেস প্রয়োজন। জুপিটার নোটবুকের উপরে কোলাবোরেটরি তৈরি করা হয়েছে।

প্রিন্ট ("নীচে যে বাক্যটি প্রক্রিয়া করা হয়েছে") বাক্য_টেক্সট =[u'Hello, there.', u'世界こんにちは']প্রিন্ট("বাক্যের অক্ষরের জন্য কোড পয়েন্টের মান") বাক্য_চার_কোডপয়েন্ট =tf। strings.unicode_decode(sentence_texts, 'UTF-8')print(sentence_char_codepoint)print("বাক্যে অক্ষরের জন্য ইউনিকোড স্ক্রিপ্ট মান")sentence_char_script =tf.strings.unicode_script(sentence_char_codepoint)print(sentence_char_script)

কোড ক্রেডিট:https://www.tensorflow.org/tutorials/load_data/unicode

আউটপুট

নিচে যে বাক্যটি প্রক্রিয়া করা হয়েছে, বাক্যের অক্ষরের জন্য কোড পয়েন্টের মান রয়েছে বাক্যটিতে অক্ষরের জন্য ইউনিকোড স্ক্রিপ্টের মান রয়েছে

ব্যাখ্যা

সেগমেন্টেশন বলতে বোঝায় টেক্সটকে শব্দের মতো ইউনিটে বিভক্ত করার কাজ।
এটি ব্যবহার করা হয় যখন স্পেস অক্ষরগুলি শব্দগুলিকে আলাদা করার জন্য ব্যবহার করা হয়, কিন্তু কিছু ভাষা যেমন চীনা এবং জাপানি স্পেস ব্যবহার করে না৷
জার্মানির মতো কিছু ভাষায় দীর্ঘ যৌগ রয়েছে যেগুলিকে তাদের অর্থ বিশ্লেষণ করার জন্য বিভক্ত করা প্রয়োজন৷
ওয়েবে পাঠ্যের জন্য, বিভিন্ন ভাষা এবং স্ক্রিপ্টগুলি সাধারণত একসাথে মিশ্রিত হয়, যেমন "NY株価" (নিউ ইয়র্ক স্টক এক্সচেঞ্জ)।
আনুমানিক শব্দ সীমানায় স্ক্রিপ্ট পরিবর্তন করে, ML মডেল ব্যবহার না করেই রুক্ষ বিভাজন করা যেতে পারে।
এটি স্ট্রিংগুলির জন্য কাজ করবে যেমন "NY株価"। এটি বেশিরভাগ ভাষার জন্য কাজ করে যেগুলি স্পেস ব্যবহার করে, যেহেতু বিভিন্ন স্ক্রিপ্টের স্পেস অক্ষরগুলিকে USCRIPT_COMMON হিসাবে শ্রেণীবদ্ধ করা হয়, যা একটি বিশেষ স্ক্রিপ্ট কোড যা যেকোন প্রকৃত পাঠ্যের থেকে আলাদা৷
উপরের কোডে, প্রতিটি বাক্যের প্রতিটি অক্ষরের জন্য কোডপয়েন্ট তৈরি করা হয়েছে।
এরপর, প্রতিটি বাক্যে প্রতিটি অক্ষরের ইউনিকোড স্ক্রিপ্ট তৈরি হয়৷