কম্পিউটার

পাইথনে পাঠযোগ্যতা সূচক (এনএলপি)?


প্রাকৃতিক ভাষা প্রক্রিয়াকরণ হল স্বয়ংক্রিয় প্রজন্মের অধ্যয়ন এবং প্রাকৃতিক মানুষের ভাষা বোঝা। এটি সমাধানের জন্য আরও বেশি আকর্ষণীয় কাজ হয়ে উঠছে, কারণ কম্পিউটার প্রযুক্তি আজকাল প্রায় প্রতিটি শিল্পে একত্রিত হয়েছে। আমরা প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মধ্যে একটি নির্দিষ্ট ক্ষেত্র অধ্যয়ন করতে যাচ্ছি; পঠনযোগ্যতা এটি একটি পাঠ্যের পাঠযোগ্যতা নির্ধারণের বিষয় জড়িত। এটি নির্দেশ করে যে একটি পাঠ্য পড়া বা বোঝা কতটা কঠিন।

একটি পঠনযোগ্যতা সূচক একটি সংখ্যাসূচক মান যা নির্দেশ করে যে একটি পাঠ্য পড়া এবং বোঝা কতটা কঠিন (বা সহজ)। পঠনযোগ্যতা নির্ধারণের জন্য বিভিন্ন পরীক্ষা রয়েছে এবং তাদের ব্যবহারের বিভিন্ন ক্ষেত্র রয়েছে।

"পঠনযোগ্যতা বর্ণনা করে যে সহজে একটি নথি পড়া যায়" [১৩]। পঠনযোগ্যতা গণনা করার জন্য অনেকগুলি বিভিন্ন পরীক্ষা রয়েছে [9]। পঠনযোগ্যতা পরীক্ষাগুলিকে "পড়ার সহজতার পূর্বাভাস হিসাবে বিবেচনা করা হয় তবে পঠনযোগ্যতা নির্ধারণের একমাত্র পদ্ধতি নয়"

কিছু পরীক্ষা ভাষা নিরপেক্ষ, তবে কিছু পরীক্ষা রয়েছে যা নির্দিষ্ট ভাষার জন্য আরও উপযুক্ত। বিভিন্ন পঠনযোগ্যতা পরীক্ষার জ্ঞান আমাদের জন্য অপরিহার্য।

পঠনযোগ্যতা পরীক্ষা −
এর উদ্দেশ্যে (ভাষা(গুলি)) −
সংক্ষিপ্ত বিবরণ এবং সূত্র −
স্বয়ংক্রিয় পঠনযোগ্যতা সূচক (ARI)
ইংরেজি
একটি পাঠ্যের বোধগম্যতা পরিমাপ করার জন্য ডিজাইন করা হয়েছে৷ আউটপুট হল একটি পাঠ্য বোঝার জন্য প্রয়োজনীয় মার্কিন গ্রেড স্তরের একটি আনুমানিক উপস্থাপনা৷
ARI =4.71 * (অক্ষর/শব্দ) + 0.5 * (শব্দ/বাক্য) -21.43

Flesch Reading Ease

ইংরেজি
পঠন অনুচ্ছেদ বোঝা কতটা কঠিন তা নির্দেশ করার জন্য ডিজাইন করা হয়েছে৷ উচ্চতর স্কোর এমন উপাদান নির্দেশ করে যা পড়া সহজ; নিম্ন সংখ্যাগুলি পড়া কঠিন প্যাসেজগুলি চিহ্নিত করে৷
FRE =206.835 − 1.015*(মোট শব্দ/ মোট বাক্য) − 84.6 * (টোটাল সিলেবল/ মোট শব্দ)

FleschKincaid গ্রেড লেভেল
ইংরেজি
পঠন অনুচ্ছেদ বোঝা কতটা কঠিন তা নির্দেশ করার জন্য ডিজাইন করা হয়েছে৷ ফলাফল হল একটি সংখ্যা যা ইউ.এস গ্রেড স্তরের সাথে মিলে যায়।
FKGL =0.39 * (মোট শব্দ/ মোট বাক্য) + 11.8 (মোট সিলেবল/ মোট শব্দ) -15.59

কোলম্যান-লিয়াউ সূচক
ইংরেজি
একটি পাঠ্যের বোধগম্যতা পরিমাপ করার জন্য ডিজাইন করা হয়েছে৷ আউটপুট হল আনুমানিক ইউ.এস. গ্রেড লেভেল যা পাঠ্য বোঝার জন্য প্রয়োজনীয়।
CLI =(5.89 * (অক্ষর/শব্দ)) − (30 *(বাক্য/শব্দ)) − 15.8

গানিং ফগ ইনডেক্স
ইংরেজি
ইংরেজি লেখার একটি নমুনার পঠনযোগ্যতা পরিমাপ করার জন্য ডিজাইন করা হয়েছে৷ ফলস্বরূপ সূচকটি আনুষ্ঠানিক শিক্ষার (ইউ.এস. গ্রেড) বছরের সংখ্যার একটি ইঙ্গিত যা একজন ব্যক্তির প্রথম পড়ার পাঠ্যটি সহজে বোঝার জন্য প্রয়োজন৷
GFI =0.4 * (শব্দ/বাক্য) + 100 * (জটিল শব্দ/শব্দ))
লিন্সিয়ার রাইট
ইংরেজি
ইংরেজি পাঠ্যের জন্য একটি পঠনযোগ্যতা মেট্রিক, বিমান বাহিনীর জন্য তাদের প্রযুক্তিগত ম্যানুয়ালগুলির পাঠযোগ্যতা গণনা করতে সাহায্য করার জন্য তৈরি করা হয়েছে৷ উইকিপিডিয়া থেকে সূত্র:
  • আপনার লেখা থেকে 100-শব্দের নমুনা খুঁজুন।

  • সহজ শব্দগুলি গণনা করুন (দুটি সিলেবল বা কম হিসাবে সংজ্ঞায়িত) এবং প্রতিটি শব্দের উপরে একটি সংখ্যা "1" রাখুন, এমনকি a, an, the, এবং অন্যান্য সহজ শব্দগুলি সহ।

  • কঠিন শব্দগুলি গণনা করুন (তিনটি সিলেবল বা তার বেশি হিসাবে সংজ্ঞায়িত) এবং অভিধান দ্বারা উচ্চারিত প্রতিটি শব্দের উপরে একটি সংখ্যা "3" রাখুন৷

  • সহজ শব্দের সংখ্যা "1।"

    গুণ করুন
  • কঠিন শব্দের সংখ্যা "3।"

    গুণ করুন
  • আগের দুটি সংখ্যা একসাথে যোগ করুন।

  • বাক্য সংখ্যা দিয়ে মোট ভাগ করুন।

রেট সূচক (RIX)
পশ্চিম ইউরোপীয় ভাষা
এটি দরকারী কারণ এটি যে কোনও পশ্চিম ইউরোপীয় ভাষার নথিতে ব্যবহার করা যেতে পারে [3]। আউটপুট হল 0 (খুব সহজ) এবং 55+ (খুব কঠিন) এর মধ্যে একটি স্কোর।
RIX =(দীর্ঘ শব্দ/ বাক্য)(দীর্ঘ শব্দ =শব্দ যেখানে অক্ষরের সংখ্যা> 6)
Lesbarhets Index (LIX)
পশ্চিম ইউরোপীয় ভাষা
এটি দরকারী কারণ এটি যেকোন পশ্চিম ইউরোপীয় ভাষার নথিতে ব্যবহার করা যেতে পারে [2][3]। আউটপুট একটি সূচক যা একটি গ্রেড স্তর নির্দেশ করে। 0.1 এর নিচে একটি সূচক হল গ্রেড 1 যখন 7.2 এবং তার উপরে হল কলেজ গ্রেড৷
LIX =(মোট শব্দ/ মোট বাক্য) + (দীর্ঘ শব্দ / মোট শব্দ * 100) (দীর্ঘ শব্দ =শব্দ যেখানে অক্ষরের সংখ্যা> 6) 

উদাহরণস্বরূপ, একটি টেক্সট ফাইলের পঠনযোগ্যতা নির্ধারণের জন্য নীচে ফ্লেশ সূচকের মাধ্যমে প্রোগ্রাম রয়েছে৷

অনুমান

Flesch Index
টেক্সট ফাইল রিডিং গ্রেড
0-30৷
কলেজ
50-60৷
হাই স্কুল
90-100৷
চতুর্থ গ্রেড

উপরে থেকে flesch-kincaid গ্রেড স্তরের সূত্রটি সমতুল্য গ্রেড স্তর G -

গণনা করতে ব্যবহৃত হয়

FKGL =0.39 * (মোট শব্দ/ মোট বাক্য) + 11.8 (মোট সিলেবল/ মোট শব্দ) -15.59

কোড

 import osdire =os.getcwd()listOfdir =os.listdir(dire)যদিও সত্য:UserFileName =input('Enter file name:') if (listOfdir-এ UserFileName) এবং (UserFileName.endswith(".txt") ):InputFile =open(UserFileName,'r') text =InputFile.read() বাক্য =text.count('.') + text.count('!') + text.count(';') + পাঠ্য। count(':') + text.count('?') শব্দ =len(text.split()) সিলেবল =টেক্সটে শব্দের জন্য 0 i','o','u']:syllable + =word.count(vowel) শেষ হওয়ার জন্য ['es','ed','e']:if word.endswith(end):সিলেবল - =1 if word.endswith('le'):syllable + =1 G =round((0.39*words)/sentence+ (11.8*syllable)/words-15.59) যদি G> =0 এবং G <=30:প্রিন্ট ('The পঠনযোগ্যতা স্তর হল কলেজ') elif G> =50 এবং G <=60:প্রিন্ট ('পঠনযোগ্যতা স্তর উচ্চ বিদ্যালয়') elif G> =90 এবং G <=100:প্রিন্ট ('পঠনযোগ্যতা স্তর হল fo urth গ্রেড') মুদ্রণ ('এই পাঠ্যটিতে %d শব্দ রয়েছে' %(শব্দ)) elif UserFileName not in listOfdir:print ('এই পাঠ্য ফাইলটি বর্তমান ডিরেক্টরিতে বিদ্যমান নেই') elif not(UserFileName.endswith('.txt' )):প্রিন্ট ('এটি একটি পাঠ্য ফাইল নয়।')

আউটপুট

ফাইলের নাম লিখুন:dataVisualization.txtপঠনযোগ্যতা স্তর হল কলেজএই পাঠ্যটিতে 64 শব্দ রয়েছে

  1. পাইথন প্লটের বাইরে পাঠ্য কীভাবে রাখবেন?

  2. পাইথনে বিগ্রামের পর ঘটনা

  3. পাইথন টেক্সট সিকোয়েন্সের ধরন

  4. পাইথনে NLTK ব্যবহার করে টেক্সট টোকেনাইজ করুন