কম্পিউটার

Python এ NLTK ব্যবহার করে স্টপ শব্দ সহ স্পিচ ট্যাগিং এর অংশ?


ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং এর পিছনে মূল ধারণা হল যন্ত্র মানুষের হস্তক্ষেপ ছাড়াই কিছু ধরণের বিশ্লেষণ বা প্রক্রিয়াকরণ করতে পারে, যেমন পাঠ্যের অর্থের কিছু অংশ বোঝা বা বলার চেষ্টা করা।

পাঠ্য প্রক্রিয়া করার চেষ্টা করার সময়, কম্পিউটারগুলিকে পাঠ্য থেকে অকেজো বা কম-গুরুত্বপূর্ণ ডেটা (শব্দ) ফিল্টার করতে হবে। NLTK-তে, অকেজো শব্দ (ডেটা) স্টপ শব্দ হিসাবে উল্লেখ করা হয়।

প্রয়োজনীয় লাইব্রেরি ইনস্টল করা হচ্ছে

প্রথমে আপনার প্রয়োজন nltk লাইব্রেরি, শুধু আপনার টার্মিনালে নিচের কমান্ডটি চালান:

$pip nltk ইনস্টল করুন

তাই আমরা এই স্টপ শব্দগুলি সরিয়ে ফেলতে যাচ্ছি, যাতে তারা আমাদের ডাটাবেসে স্থান না নেয় বা মূল্যবান প্রক্রিয়াকরণের সময় নেয় না।

আপনি আপনার নিজের শব্দের তালিকা তৈরি করতে পারেন যা আপনি বিবেচনা করতে পারেন স্টপ শব্দ। ডিফল্টরূপে, NLTK-এ এমন কিছু শব্দ থাকে যেগুলিকে তারা স্টপ শব্দ বলে মনে করে, আপনি NLTK কর্পাসের মাধ্যমে এটি অ্যাক্সেস করতে পারেন:

>>> nltk আমদানি করুন>>> nltk.corpus আমদানি স্টপওয়ার্ড থেকে

এখানে NLTK স্টপ শব্দের তালিকা রয়েছে:

সেট ', 'করবে', "সেটা হবে", "ছিল না", 'আপনার', "উচিত", "থাকনি", 'নিজেকে', 'উচিত', 'কারণ', 'ছিল', 'কি', 'থেকে', 'এই', 'ছিল', 'আরো', 'y', 'আবার', "প্রয়োজন নেই", 'এ', 'উপরে', 'নিজেদের', 'ডি', "হবে না", 'সময়ে', 'হ্যাভেন', 'উভয়', "শানট", 'তাদের', 'চালু', 'হাদন', 'আপ', 'একবার', 'তার', 'বিরুদ্ধে' ', 'আগে', 't', 'যখন', 'প্রয়োজন', 'করছেন', "করবেন না", 'নিজেদের', 'যতক্ষণ', 'আছে', 'সব', 'স', 'করবে' ', "আপনি করেছেন", 'হচ্ছে', 'নীচে', 'তারা', 'আমাদের', 'wouldn', 'of', 'didn', 'নীচে', 'শুধু', 'মা', 'আপনার ', "আপনি করবেন", 'mightn', 'কোথায়', 'আছে', 'সেই', 'সেই', 'সবচেয়ে', 'তাদের', 'যদি', 'আপনি', "উচিত নয়", 'বন্ধ', 'এর জন্য', 'তার', 'যেমন', 'এখন', 'এর চেয়ে', 'পুনরায়', 'না', 'মি', 'বা', "না', 'আরো', 'এখানে', "ছিল না", 'পরে', "হয়নি", 'আমার', 'নিজেকে', 'এতে', 'হয়েছিল', 'নিজেকে', 'দ্বারা', 'ছিলে', 'শুধুমাত্র ',' আছে', 'আমরা', 'করছি', 'একই', "এটি নয়", 'নিজেকে', 'হবে', 'নিচে', 'তারপর', 'কেন', 'নিজের', 'তাকে ', 'তাই', 'থাকছে', ' বা', 'isn', 'কয়েকটি', 'কীভাবে', 'প্রত্যেক', 'সেখানে', 'সহ', 'পারিতে', 'সম্পর্কে', 'খুব', 'আমি', 'আমি', "করেনি' t", "না হয়", 'যা', "সে', 'করে', 'হয়', 'সে', 'ইন', "হয়তো না", 'কখন', 'আমাদের', 'কে' , 'তার', "পারিনি", 'দি', "তুমি চাইবে", 'হবে', 'তার', 'হাসন', 'এর মধ্যে', ​​'এটি', 'মাস্টন', 'কিন্তু', ' আউট', 'পারি', "হবে না", 'নিজেরা', 'কাকে', 'হয়েছি', 'এইস', 'আরেন', 'ওভার', 'নিজেল্ফ', 'এ', 'আমি', ' too', 'তাদের', 'কিছু', "আপনি", 'যেমন', 'জিতেছেন', "এটি'স", 'থেকে', 'ও', 'ডন', 'কোন', 'ভে', ' ain', 'has', 'an', " must not", ' shouldn'

নীচে একটি সম্পূর্ণ প্রোগ্রাম যা আপনার পাঠ্য থেকে স্টপ শব্দগুলি সরাতে স্টপওয়ার্ডগুলি কীভাবে ব্যবহার করবেন তা প্রদর্শন করবে:

উদাহরণ কোড

from nltk.corpus import stopwordsfrom nltk.tokenize import word_tokenizeexample_sent ="পাইথন একটি শক্তিশালী উচ্চ-স্তরের, অবজেক্ট-ওরিয়েন্টেড প্রোগ্রামিং ভাষা যা Guido van Rossum দ্বারা তৈরি করা হয়েছে।"\"এতে সহজে ব্যবহারযোগ্য সিনট্যাক্স রয়েছে, এটি তৈরি করে যে কেউ প্রথমবারের মতো কম্পিউটার প্রোগ্রামিং শেখার চেষ্টা করছেন তার জন্য নিখুঁত ভাষা৷""এটি পাইথনে কীভাবে শুরু করবেন, কেন এটি শিখতে হবে এবং কীভাবে এটি শিখতে হবে তার একটি বিস্তৃত নির্দেশিকা৷ তবে, যদি আপনি জানেন "\ "অন্যান্য প্রোগ্রামিং ভাষার এবং পাইথন দিয়ে দ্রুত শুরু করতে চাই।"stop_words =set(stopwords.words('english'))word_tokens =word_tokenize(example_sent)filtered_sentence =[w এর জন্য w word_tokens-এ w যদি না হয় তাহলে stop_words]filtered_sentence =[]Word_tokens-এর জন্য:যদি w stop_words:filtered_sentence.append(w)print(word_tokens)print(filtered_sentence)

আউটপুট

টেক্সট আউটপুট:ফিল্টার ছাড়া (স্টপওয়ার্ড সহ)

<প্রে> ', 'Guido', 'van', 'Rossum.It', 'has', 'Simple', 'Easy to use', 'syntax', ',', 'making', 'it', 'the' ', 'পারফেক্ট', 'ভাষা', 'এর জন্য', 'কেউ', 'চেষ্টা করা', 'প্রথম', 'শিখুন', 'কম্পিউটার', 'প্রোগ্রামিং', 'ফর', 'দ্য', 'প্রথম', 'সময় ',', 'কেন', 'আপনি', 'উচিত', 'শিখুন', 'এটি', 'এবং', 'কিভাবে', 'আপনি', 'পারি পারেন', 'শিখুন', 'এটি', '। ', 'তবে', ',', 'যদি', 'আপনি', 'জ্ঞান', 'এর', 'অন্য', 'প্রোগ্রামিং', 'ভাষা', 'এবং', 'চাই', 'প্রতি', 'দ্রুত', 'পাও', 'শুরু', 'সাথে', 'পাইথন', '।']

টেক্সট আউটপুট:ফিল্টার সহ (স্টপওয়ার্ডগুলি সরান)

<প্রি> .এটি', 'সহজ', 'ব্যবহারে সহজ', 'সিনট্যাক্স', ',', 'মেকিং', 'পারফেক্ট', 'ভাষা', 'কেউ', 'চেষ্টা করা', 'শিখুন', 'কম্পিউটার ', 'প্রোগ্রামিং', 'প্রথম', 'সময়। এই', 'বিস্তৃত', 'গাইড', 'পেট', 'শুরু', 'পাইথন', ',', 'শিখুন', 'শিখুন', '। ', 'তবে', ',', 'জ্ঞান', 'প্রোগ্রামিং', 'ভাষা', 'চাই', 'দ্রুত', 'পাও', 'শুরু', 'পাইথন', '।']
  1. পাইথন প্রোগ্রাম একটি স্ট্রিং বিভক্ত করে এবং কমা দিয়ে যোগ দেয়

  2. regex ব্যবহার করে একটি সাবস্ট্রিং দিয়ে একটি স্ট্রিং শুরু হয় কিনা তা পরীক্ষা করার জন্য পাইথন প্রোগ্রাম

  3. পাইথন ব্যবহার করে সর্বাধিক সম্ভাব্যতার সাথে পথ খুঁজে বের করার প্রোগ্রাম

  4. পাইথনে পাইল্যাবের সাথে দূরবর্তীভাবে একটি চিত্র কীভাবে সংরক্ষণ করবেন?