Daftar Isi:
2025 Pengarang: John Day | [email protected]. Terakhir diubah: 2025-01-13 06:57
Pengenalan suara
Speech Recognition adalah bagian dari Natural Language Processing yang merupakan subbidang dari Artificial Intelligence. Sederhananya, pengenalan suara adalah kemampuan perangkat lunak komputer untuk mengidentifikasi kata dan frasa dalam bahasa lisan dan mengubahnya menjadi teks yang dapat dibaca manusia. Ini digunakan dalam beberapa aplikasi seperti sistem asisten suara, otomatisasi rumah, chatbots berbasis suara, robot interaksi suara, kecerdasan buatan, dan lain-lain.
Ada berbagai API (Application Programming Interface) untuk mengenali ucapan. Mereka menawarkan layanan baik gratis atau berbayar. Ini adalah:
- Sphinx CMU
- Pengenalan Ucapan Google
- API Ucapan Google Cloud
- Wit.ai
- Pengenalan Suara Microsoft Bing
- Houndify API
- IBM Speech To Text
- Deteksi Kata Cepat Snowboy
Kami akan menggunakan Google Speech Recognition di sini, karena tidak memerlukan kunci API apa pun. Tutorial ini bertujuan untuk memberikan pengenalan tentang cara menggunakan library Google Speech Recognition di Python dengan bantuan mikrofon eksternal seperti ReSpeaker USB 4-Mic Array dari Seeed Studio. Meskipun tidak wajib menggunakan mikrofon eksternal, bahkan mikrofon internal laptop dapat digunakan.
Langkah 1: ReSpeaker USB 4-Mic Array
ReSpeaker USB Mic adalah perangkat quad-mikrofon yang dirancang untuk AI dan aplikasi suara, yang dikembangkan oleh Seeed Studio. Ini memiliki 4 mikrofon omnidirectional built-in berkinerja tinggi yang dirancang untuk mengambil suara Anda dari mana saja di dalam ruangan dan 12 indikator LED RGB yang dapat diprogram. Mikrofon USB ReSpeaker mendukung sistem operasi Linux, macOS, dan Windows. Detailnya dapat ditemukan disini.
ReSpeaker USB Mic hadir dalam paket bagus yang berisi item berikut:
- Panduan pengguna
- Array Mikrofon USB ReSpeaker
- Kabel Mikro USB ke USB
Jadi kami siap untuk memulai.
Langkah 2: Instal Perpustakaan yang Diperlukan
Untuk tutorial ini, saya akan menganggap Anda menggunakan Python 3.x.
Mari kita instal perpustakaan:
pip3 menginstal SpeechRecognition
Untuk macOS, pertama-tama Anda perlu menginstal PortAudio dengan Homebrew, lalu menginstal PyAudio dengan pip3:
brew install portaudio
Kami menjalankan perintah di bawah ini untuk menginstal pyaudio
pip3 instal pyaudio
Untuk Linux, Anda dapat menginstal PyAudio dengan apt:
sudo apt-get install python-pyaudio python3-pyaudio
Untuk Windows, Anda dapat menginstal PyAudio dengan pip:
pip instal pyaudio
Buat file python baru
nano get_index.py
Rekatkan di get_index.py cuplikan kode di bawah ini:
impor paudio
p = pyaudio. PyAudio() info = p.get_host_api_info_by_index(0)numdevices = info.get('deviceCount') untuk i dalam range(0, numdevices): if (p.get_device_info_by_host_api_device_index(0, i).get('maxInputChannels ')) > 0: print ("Input Device id ", i, " - ", p.get_device_info_by_host_api_device_index(0, i).get('name'))
Jalankan perintah berikut:
python3 get_index.py
Dalam kasus saya, perintah memberikan output berikut ke layar:
Perangkat Input id 1 - ReSpeaker 4 Mic Array (UAC1.0)
Perangkat Input id 2 - Mikrofon MacBook Air
Ubah device_index ke nomor indeks sesuai pilihan Anda di cuplikan kode di bawah ini.
impor speech_recognition sebagai sr
r = sr. Recognizer() speech = sr. Microphone(device_index=1) dengan ucapan sebagai sumber: print("say something!…") audio = r.adjust_for_ambient_noise(source) audio = r.listen(source) try: recog = r.recognize_google(audio, language = 'en-US') print("Anda mengatakan: " + recog) kecuali sr. UnknownValueError: print("Google Speech Recognition tidak dapat memahami audio") kecuali sr. RequestError sebagai e: print ("Tidak dapat meminta hasil dari layanan Pengenalan Ucapan Google; {0}".format(e))
Indeks perangkat dipilih 1 karena ReSpeaker 4 Mic Array akan menjadi sumber utama.
Langkah 3: Text-to-speech dengan Python Dengan Pustaka Pyttsx3
Ada beberapa API yang tersedia untuk mengonversi teks menjadi ucapan dengan python. Salah satu API tersebut adalah pyttsx3, yang menurut saya merupakan paket text-to-speech terbaik yang tersedia. Paket ini berfungsi di Windows, Mac, dan Linux. Periksa dokumentasi resmi untuk melihat bagaimana ini dilakukan.
Instal paketGunakan pip untuk menginstal paket.
instal pip pyttsx3
Jika Anda menggunakan Windows, Anda akan memerlukan paket tambahan, pypiwin32 yang diperlukan untuk mengakses API ucapan Windows asli.
instal pip pypiwin32
Konversi teks ke skrip python ucapan Di bawah ini adalah cuplikan kode untuk teks ke ucapan menggunakan pyttsx3:
impor pyttsx3
mesin = pyttsx3.init()
engine.setProperty('rate', 150) # Persen kecepatan
engine.setProperty('volume', 0.9) # Volume 0-1
engine.say("Halo, dunia!")
mesin.runDanTunggu()
Langkah 4: Menyatukan Semuanya: Membangun Pengenalan Ucapan Dengan Python Menggunakan Google Speech Recognition API dan Pyttsx3 Library
Kode di bawah ini bertanggung jawab untuk mengenali ucapan manusia menggunakan Google Speech Recognition, dan mengubah teks menjadi ucapan menggunakan pustaka pyttsx3.
impor speech_recognition sebagai sr
import pyttsx3 engine = pyttsx3.init() engine.setProperty('rate', 200) engine.setProperty('volume', 0.9) r = sr. Recognizer() speech = sr. Microphone(device_index=1) dengan ucapan sebagai sumber: audio = r.adjust_for_ambient_noise(source) audio = r.listen(source) try: recog = r.recognize_google(audio, language = 'en-US') print("Anda berkata: " + recog) engine.say(" Anda mengatakan: " + recog) engine.runAndWait() kecuali sr. UnknownValueError: engine.say("Google Speech Recognition tidak dapat memahami audio") engine.runAndWait() kecuali sr. RequestError sebagai e: engine.say("Tidak dapat meminta hasil dari layanan Pengenalan Ucapan Google; {0}".format(e)) engine.runAndWait()
Ini mencetak output pada terminal. Juga, itu akan diubah menjadi ucapan juga.
Anda berkata: London adalah ibu kota Inggris Raya
Saya harap Anda sekarang memiliki pemahaman yang lebih baik tentang cara kerja pengenalan suara secara umum dan yang paling penting, cara menerapkannya menggunakan Google Speech Recognition API dengan Python.
Jika Anda memiliki pertanyaan atau umpan balik? Tinggalkan komentar di bawah. Pantau terus!