Daftar Isi:

Pengenalan Ucapan Menggunakan Google Speech API dan Python: 4 Langkah
Pengenalan Ucapan Menggunakan Google Speech API dan Python: 4 Langkah

Video: Pengenalan Ucapan Menggunakan Google Speech API dan Python: 4 Langkah

Video: Pengenalan Ucapan Menggunakan Google Speech API dan Python: 4 Langkah
Video: Cara Merubah Text Menjadi Suara (Text to Speech) Menggunakan Bahasa Pemrograman Python 2024, November
Anonim
Pengenalan Ucapan Menggunakan Google Speech API dan Python
Pengenalan Ucapan Menggunakan Google Speech API dan Python

Pengenalan suara

Speech Recognition adalah bagian dari Natural Language Processing yang merupakan subbidang dari Artificial Intelligence. Sederhananya, pengenalan suara adalah kemampuan perangkat lunak komputer untuk mengidentifikasi kata dan frasa dalam bahasa lisan dan mengubahnya menjadi teks yang dapat dibaca manusia. Ini digunakan dalam beberapa aplikasi seperti sistem asisten suara, otomatisasi rumah, chatbots berbasis suara, robot interaksi suara, kecerdasan buatan, dan lain-lain.

Ada berbagai API (Application Programming Interface) untuk mengenali ucapan. Mereka menawarkan layanan baik gratis atau berbayar. Ini adalah:

  • Sphinx CMU
  • Pengenalan Ucapan Google
  • API Ucapan Google Cloud
  • Wit.ai
  • Pengenalan Suara Microsoft Bing
  • Houndify API
  • IBM Speech To Text
  • Deteksi Kata Cepat Snowboy

Kami akan menggunakan Google Speech Recognition di sini, karena tidak memerlukan kunci API apa pun. Tutorial ini bertujuan untuk memberikan pengenalan tentang cara menggunakan library Google Speech Recognition di Python dengan bantuan mikrofon eksternal seperti ReSpeaker USB 4-Mic Array dari Seeed Studio. Meskipun tidak wajib menggunakan mikrofon eksternal, bahkan mikrofon internal laptop dapat digunakan.

Langkah 1: ReSpeaker USB 4-Mic Array

ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array
ReSpeaker USB 4-Mic Array

ReSpeaker USB Mic adalah perangkat quad-mikrofon yang dirancang untuk AI dan aplikasi suara, yang dikembangkan oleh Seeed Studio. Ini memiliki 4 mikrofon omnidirectional built-in berkinerja tinggi yang dirancang untuk mengambil suara Anda dari mana saja di dalam ruangan dan 12 indikator LED RGB yang dapat diprogram. Mikrofon USB ReSpeaker mendukung sistem operasi Linux, macOS, dan Windows. Detailnya dapat ditemukan disini.

ReSpeaker USB Mic hadir dalam paket bagus yang berisi item berikut:

  • Panduan pengguna
  • Array Mikrofon USB ReSpeaker
  • Kabel Mikro USB ke USB

Jadi kami siap untuk memulai.

Langkah 2: Instal Perpustakaan yang Diperlukan

Untuk tutorial ini, saya akan menganggap Anda menggunakan Python 3.x.

Mari kita instal perpustakaan:

pip3 menginstal SpeechRecognition

Untuk macOS, pertama-tama Anda perlu menginstal PortAudio dengan Homebrew, lalu menginstal PyAudio dengan pip3:

brew install portaudio

Kami menjalankan perintah di bawah ini untuk menginstal pyaudio

pip3 instal pyaudio

Untuk Linux, Anda dapat menginstal PyAudio dengan apt:

sudo apt-get install python-pyaudio python3-pyaudio

Untuk Windows, Anda dapat menginstal PyAudio dengan pip:

pip instal pyaudio

Buat file python baru

nano get_index.py

Rekatkan di get_index.py cuplikan kode di bawah ini:

impor paudio

p = pyaudio. PyAudio() info = p.get_host_api_info_by_index(0)numdevices = info.get('deviceCount') untuk i dalam range(0, numdevices): if (p.get_device_info_by_host_api_device_index(0, i).get('maxInputChannels ')) > 0: print ("Input Device id ", i, " - ", p.get_device_info_by_host_api_device_index(0, i).get('name'))

Jalankan perintah berikut:

python3 get_index.py

Dalam kasus saya, perintah memberikan output berikut ke layar:

Perangkat Input id 1 - ReSpeaker 4 Mic Array (UAC1.0)

Perangkat Input id 2 - Mikrofon MacBook Air

Ubah device_index ke nomor indeks sesuai pilihan Anda di cuplikan kode di bawah ini.

impor speech_recognition sebagai sr

r = sr. Recognizer() speech = sr. Microphone(device_index=1) dengan ucapan sebagai sumber: print("say something!…") audio = r.adjust_for_ambient_noise(source) audio = r.listen(source) try: recog = r.recognize_google(audio, language = 'en-US') print("Anda mengatakan: " + recog) kecuali sr. UnknownValueError: print("Google Speech Recognition tidak dapat memahami audio") kecuali sr. RequestError sebagai e: print ("Tidak dapat meminta hasil dari layanan Pengenalan Ucapan Google; {0}".format(e))

Indeks perangkat dipilih 1 karena ReSpeaker 4 Mic Array akan menjadi sumber utama.

Langkah 3: Text-to-speech dengan Python Dengan Pustaka Pyttsx3

Ada beberapa API yang tersedia untuk mengonversi teks menjadi ucapan dengan python. Salah satu API tersebut adalah pyttsx3, yang menurut saya merupakan paket text-to-speech terbaik yang tersedia. Paket ini berfungsi di Windows, Mac, dan Linux. Periksa dokumentasi resmi untuk melihat bagaimana ini dilakukan.

Instal paketGunakan pip untuk menginstal paket.

instal pip pyttsx3

Jika Anda menggunakan Windows, Anda akan memerlukan paket tambahan, pypiwin32 yang diperlukan untuk mengakses API ucapan Windows asli.

instal pip pypiwin32

Konversi teks ke skrip python ucapan Di bawah ini adalah cuplikan kode untuk teks ke ucapan menggunakan pyttsx3:

impor pyttsx3

mesin = pyttsx3.init()

engine.setProperty('rate', 150) # Persen kecepatan

engine.setProperty('volume', 0.9) # Volume 0-1

engine.say("Halo, dunia!")

mesin.runDanTunggu()

Langkah 4: Menyatukan Semuanya: Membangun Pengenalan Ucapan Dengan Python Menggunakan Google Speech Recognition API dan Pyttsx3 Library

Kode di bawah ini bertanggung jawab untuk mengenali ucapan manusia menggunakan Google Speech Recognition, dan mengubah teks menjadi ucapan menggunakan pustaka pyttsx3.

impor speech_recognition sebagai sr

import pyttsx3 engine = pyttsx3.init() engine.setProperty('rate', 200) engine.setProperty('volume', 0.9) r = sr. Recognizer() speech = sr. Microphone(device_index=1) dengan ucapan sebagai sumber: audio = r.adjust_for_ambient_noise(source) audio = r.listen(source) try: recog = r.recognize_google(audio, language = 'en-US') print("Anda berkata: " + recog) engine.say(" Anda mengatakan: " + recog) engine.runAndWait() kecuali sr. UnknownValueError: engine.say("Google Speech Recognition tidak dapat memahami audio") engine.runAndWait() kecuali sr. RequestError sebagai e: engine.say("Tidak dapat meminta hasil dari layanan Pengenalan Ucapan Google; {0}".format(e)) engine.runAndWait()

Ini mencetak output pada terminal. Juga, itu akan diubah menjadi ucapan juga.

Anda berkata: London adalah ibu kota Inggris Raya

Saya harap Anda sekarang memiliki pemahaman yang lebih baik tentang cara kerja pengenalan suara secara umum dan yang paling penting, cara menerapkannya menggunakan Google Speech Recognition API dengan Python.

Jika Anda memiliki pertanyaan atau umpan balik? Tinggalkan komentar di bawah. Pantau terus!

Direkomendasikan: