হোম অটোমেশন, এআই ইত্যাদির মতো বেশ কয়েকটি অ্যাপ্লিকেশনের মধ্যে স্পিচ রিকগনিশন হল সবচেয়ে দরকারী বৈশিষ্ট্যগুলির মধ্যে একটি৷ এই বিভাগে আমরা দেখব কিভাবে পাইথন এবং গুগলের স্পিচ API ব্যবহার করে বক্তৃতা শনাক্তকরণ করা যায়৷
এই ক্ষেত্রে আমরা স্পিচ রিকগনিজিং এর জন্য মাইক্রোফোন ব্যবহার করে একটি অডিও দেব। মাইক্রোফোন কনফিগার করতে, কিছু পরামিতি আছে।
এই মডিউলটি ব্যবহার করার জন্য, আমাদের SpeechRecognition মডিউলটি ইনস্টল করতে হবে। পিয়াডিও নামে আরেকটি মডিউল আছে, যা ঐচ্ছিক। এটি ব্যবহার করে আমরা অডিওর বিভিন্ন মোড সেট করতে পারি।
sudo pip3 install SpeechRecognition sudo apt-get install python3-pyaudio
বাহ্যিক মাইক্রোফোন বা USB মাইক্রোফোনের জন্য, কোনো অসুবিধা এড়াতে আমাদের সঠিক মাইক্রোফোন প্রদান করতে হবে। লিনাক্সে, যদি আমরা USB ডিভাইসের জন্য সম্পর্কিত তথ্য দেখানোর জন্য 'lsusb' টাইপ করি।
দ্বিতীয় প্যারামিটারটি হল খণ্ডের আকার। এটি ব্যবহার করে আমরা একবারে কত ডেটা পড়তে চাই তা নির্দিষ্ট করতে পারি। এটি একটি সংখ্যা হবে যার শক্তি 2, যেমন 1024 বা 2048 ইত্যাদি৷
প্রক্রিয়াকরণের জন্য কত ঘন ঘন ডেটা রেকর্ড করা হয় তা নির্ধারণ করতে আমাদের নমুনার হারও নির্দিষ্ট করতে হবে।
যেহেতু আশেপাশে কিছু অনিবার্য শব্দ হতে পারে, তাই সঠিক ভয়েস নেওয়ার জন্য আমাদের পরিবেষ্টিত নয়েজ সামঞ্জস্য করতে হবে।
বক্তৃতা শনাক্ত করার পদক্ষেপগুলি
-
বিভিন্ন মাইক্রোফোন সম্পর্কিত তথ্য নিন।
-
খণ্ড আকার, স্যাম্পলিং রেট, অ্যাম্বিয়েন্ট নয়েজ অ্যাডজাস্টমেন্ট ইত্যাদি ব্যবহার করে মাইক্রোফোন কনফিগার করুন৷
-
ভয়েস পেতে কিছু সময় অপেক্ষা করুন
-
ভয়েসটি স্বীকৃত হলে, এটিকে পাঠ্যে রূপান্তর করার চেষ্টা করুন, অন্যথায় কিছু ত্রুটি দেখান।
-
-
প্রক্রিয়া বন্ধ করুন।
উদাহরণ কোড
import speech_recognition as spreg #Setup the sampling rate and the data size sample_rate = 48000 data_size = 8192 recog = spreg.Recognizer() with spreg.Microphone(sample_rate = sample_rate, chunk_size = data_size) as source: recog.adjust_for_ambient_noise(source) print('Tell Something: ') speech = recog.listen(source) try: text = recog.recognize_google(speech) print('You have said: ' + text) except spreg.UnknownValueError: print('Unable to recognize the audio') except spreg.RequestError as e: print("Request error from Google Speech Recognition service; {}".format(e))
আউটপুট
$ python3 318.speech_recognition.py Tell Something: You have said: here we are considering the asymptotic notation Pico to calculate the upper bound of the time complexity so then the definition of the big O notation is like this one $
মাইক্রোফোন ব্যবহার না করেও, আমরা কিছু অডিও ফাইলকে ইনপুট হিসেবে নিতে পারি যাতে এটিকে স্পীকে রূপান্তর করা যায়।
উদাহরণ কোড
import speech_recognition as spreg sound_file = 'sample_audio.wav' recog = spreg.Recognizer() with spreg.AudioFile(sound_file) as source: speech = recog.record(source) #use record instead of listning try: text = recog.recognize_google(speech) print('The file contains: ' + text) except spreg.UnknownValueError: print('Unable to recognize the audio') except spreg.RequestError as e: print("Request error from Google Speech Recognition service; {}".format(e))
আউটপুট
$ python3 318a.speech_recognition_file.py The file contains: staying ahead of the curve demand planning new technology it also helps you progress in your career $