প্রাকৃতিক ভাষা প্রক্রিয়াকরণ হল স্বয়ংক্রিয় প্রজন্মের অধ্যয়ন এবং প্রাকৃতিক মানুষের ভাষা বোঝা। এটি সমাধানের জন্য আরও বেশি আকর্ষণীয় কাজ হয়ে উঠছে, কারণ কম্পিউটার প্রযুক্তি আজকাল প্রায় প্রতিটি শিল্পে একত্রিত হয়েছে। আমরা প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মধ্যে একটি নির্দিষ্ট ক্ষেত্র অধ্যয়ন করতে যাচ্ছি; পঠনযোগ্যতা এটি একটি পাঠ্যের পাঠযোগ্যতা নির্ধারণের বিষয় জড়িত। এটি নির্দেশ করে যে একটি পাঠ্য পড়া বা বোঝা কতটা কঠিন।
একটি পঠনযোগ্যতা সূচক একটি সংখ্যাসূচক মান যা নির্দেশ করে যে একটি পাঠ্য পড়া এবং বোঝা কতটা কঠিন (বা সহজ)। পঠনযোগ্যতা নির্ধারণের জন্য বিভিন্ন পরীক্ষা রয়েছে এবং তাদের ব্যবহারের বিভিন্ন ক্ষেত্র রয়েছে।
"পঠনযোগ্যতা বর্ণনা করে যে সহজে একটি নথি পড়া যায়" [১৩]। পঠনযোগ্যতা গণনা করার জন্য অনেকগুলি বিভিন্ন পরীক্ষা রয়েছে [9]। পঠনযোগ্যতা পরীক্ষাগুলিকে "পড়ার সহজতার পূর্বাভাস হিসাবে বিবেচনা করা হয় তবে পঠনযোগ্যতা নির্ধারণের একমাত্র পদ্ধতি নয়"
কিছু পরীক্ষা ভাষা নিরপেক্ষ, তবে কিছু পরীক্ষা রয়েছে যা নির্দিষ্ট ভাষার জন্য আরও উপযুক্ত। বিভিন্ন পঠনযোগ্যতা পরীক্ষার জ্ঞান আমাদের জন্য অপরিহার্য।
পঠনযোগ্যতা পরীক্ষা − | এর উদ্দেশ্যে (ভাষা(গুলি)) − | সংক্ষিপ্ত বিবরণ এবং সূত্র − |
---|---|---|
স্বয়ংক্রিয় পঠনযোগ্যতা সূচক (ARI) | ইংরেজি | একটি পাঠ্যের বোধগম্যতা পরিমাপ করার জন্য ডিজাইন করা হয়েছে৷ আউটপুট হল একটি পাঠ্য বোঝার জন্য প্রয়োজনীয় মার্কিন গ্রেড স্তরের একটি আনুমানিক উপস্থাপনা৷ARI =4.71 * (অক্ষর/শব্দ) + 0.5 * (শব্দ/বাক্য) -21.43 |
Flesch Reading Ease | ইংরেজি | পঠন অনুচ্ছেদ বোঝা কতটা কঠিন তা নির্দেশ করার জন্য ডিজাইন করা হয়েছে৷ উচ্চতর স্কোর এমন উপাদান নির্দেশ করে যা পড়া সহজ; নিম্ন সংখ্যাগুলি পড়া কঠিন প্যাসেজগুলি চিহ্নিত করে৷FRE =206.835 − 1.015*(মোট শব্দ/ মোট বাক্য) − 84.6 * (টোটাল সিলেবল/ মোট শব্দ) |
FleschKincaid গ্রেড লেভেল | ইংরেজি | পঠন অনুচ্ছেদ বোঝা কতটা কঠিন তা নির্দেশ করার জন্য ডিজাইন করা হয়েছে৷ ফলাফল হল একটি সংখ্যা যা ইউ.এস গ্রেড স্তরের সাথে মিলে যায়।FKGL =0.39 * (মোট শব্দ/ মোট বাক্য) + 11.8 (মোট সিলেবল/ মোট শব্দ) -15.59 |
কোলম্যান-লিয়াউ সূচক | ইংরেজি | একটি পাঠ্যের বোধগম্যতা পরিমাপ করার জন্য ডিজাইন করা হয়েছে৷ আউটপুট হল আনুমানিক ইউ.এস. গ্রেড লেভেল যা পাঠ্য বোঝার জন্য প্রয়োজনীয়।CLI =(5.89 * (অক্ষর/শব্দ)) − (30 *(বাক্য/শব্দ)) − 15.8 |
গানিং ফগ ইনডেক্স | ইংরেজি | ইংরেজি লেখার একটি নমুনার পঠনযোগ্যতা পরিমাপ করার জন্য ডিজাইন করা হয়েছে৷ ফলস্বরূপ সূচকটি আনুষ্ঠানিক শিক্ষার (ইউ.এস. গ্রেড) বছরের সংখ্যার একটি ইঙ্গিত যা একজন ব্যক্তির প্রথম পড়ার পাঠ্যটি সহজে বোঝার জন্য প্রয়োজন৷GFI =0.4 * (শব্দ/বাক্য) + 100 * (জটিল শব্দ/শব্দ)) |
লিন্সিয়ার রাইট | ইংরেজি | ইংরেজি পাঠ্যের জন্য একটি পঠনযোগ্যতা মেট্রিক, বিমান বাহিনীর জন্য তাদের প্রযুক্তিগত ম্যানুয়ালগুলির পাঠযোগ্যতা গণনা করতে সাহায্য করার জন্য তৈরি করা হয়েছে৷ উইকিপিডিয়া থেকে সূত্র:
|
রেট সূচক (RIX) | পশ্চিম ইউরোপীয় ভাষা | এটি দরকারী কারণ এটি যে কোনও পশ্চিম ইউরোপীয় ভাষার নথিতে ব্যবহার করা যেতে পারে [3]। আউটপুট হল 0 (খুব সহজ) এবং 55+ (খুব কঠিন) এর মধ্যে একটি স্কোর।RIX =(দীর্ঘ শব্দ/ বাক্য)(দীর্ঘ শব্দ =শব্দ যেখানে অক্ষরের সংখ্যা> 6) |
Lesbarhets Index (LIX) | পশ্চিম ইউরোপীয় ভাষা | এটি দরকারী কারণ এটি যেকোন পশ্চিম ইউরোপীয় ভাষার নথিতে ব্যবহার করা যেতে পারে [2][3]। আউটপুট একটি সূচক যা একটি গ্রেড স্তর নির্দেশ করে। 0.1 এর নিচে একটি সূচক হল গ্রেড 1 যখন 7.2 এবং তার উপরে হল কলেজ গ্রেড৷LIX =(মোট শব্দ/ মোট বাক্য) + (দীর্ঘ শব্দ / মোট শব্দ * 100) (দীর্ঘ শব্দ =শব্দ যেখানে অক্ষরের সংখ্যা> 6)প্রে> |
উদাহরণস্বরূপ, একটি টেক্সট ফাইলের পঠনযোগ্যতা নির্ধারণের জন্য নীচে ফ্লেশ সূচকের মাধ্যমে প্রোগ্রাম রয়েছে৷
অনুমান
Flesch Index | টেক্সট ফাইল রিডিং গ্রেড |
---|---|
0-30৷ | কলেজ |
50-60৷ | হাই স্কুল |
90-100৷ | চতুর্থ গ্রেড |
উপরে থেকে flesch-kincaid গ্রেড স্তরের সূত্রটি সমতুল্য গ্রেড স্তর G -
গণনা করতে ব্যবহৃত হয়FKGL =0.39 * (মোট শব্দ/ মোট বাক্য) + 11.8 (মোট সিলেবল/ মোট শব্দ) -15.59
কোড
import osdire =os.getcwd()listOfdir =os.listdir(dire)যদিও সত্য:UserFileName =input('Enter file name:') if (listOfdir-এ UserFileName) এবং (UserFileName.endswith(".txt") ):InputFile =open(UserFileName,'r') text =InputFile.read() বাক্য =text.count('.') + text.count('!') + text.count(';') + পাঠ্য। count(':') + text.count('?') শব্দ =len(text.split()) সিলেবল =টেক্সটে শব্দের জন্য 0 i','o','u']:syllable + =word.count(vowel) শেষ হওয়ার জন্য ['es','ed','e']:if word.endswith(end):সিলেবল - =1 if word.endswith('le'):syllable + =1 G =round((0.39*words)/sentence+ (11.8*syllable)/words-15.59) যদি G> =0 এবং G <=30:প্রিন্ট ('The পঠনযোগ্যতা স্তর হল কলেজ') elif G> =50 এবং G <=60:প্রিন্ট ('পঠনযোগ্যতা স্তর উচ্চ বিদ্যালয়') elif G> =90 এবং G <=100:প্রিন্ট ('পঠনযোগ্যতা স্তর হল fo urth গ্রেড') মুদ্রণ ('এই পাঠ্যটিতে %d শব্দ রয়েছে' %(শব্দ)) elif UserFileName not in listOfdir:print ('এই পাঠ্য ফাইলটি বর্তমান ডিরেক্টরিতে বিদ্যমান নেই') elif not(UserFileName.endswith('.txt' )):প্রিন্ট ('এটি একটি পাঠ্য ফাইল নয়।')
আউটপুট
ফাইলের নাম লিখুন:dataVisualization.txtপঠনযোগ্যতা স্তর হল কলেজএই পাঠ্যটিতে 64 শব্দ রয়েছে