Αναγνώριση ομιλίας χρησιμοποιώντας το Google Speech API και την Python: 4 βήματα

Πίνακας περιεχομένων:

Βήμα 1: ReSpeaker USB 4-Mic Array
Βήμα 2: Εγκαταστήστε τις απαιτούμενες βιβλιοθήκες
Βήμα 3: Μετατροπή κειμένου σε ομιλία σε Python With Pyttsx3 Library
Βήμα 4: Το βάζουμε όλα μαζί: Δημιουργία αναγνώρισης ομιλίας με Python χρησιμοποιώντας API αναγνώρισης ομιλίας Google και βιβλιοθήκη Pyttsx3

👤 Συγγραφέας John Day 📧 day@howwhatproduce.com.
⏱ Public 2024-01-30 08:34.
🖍 Τελευταία τροποποίηση 2025-01-23 14:39.

Αναγνώριση ομιλίας χρησιμοποιώντας το Google Speech API και την Python

Αναγνώρισης ομιλίας

Η Αναγνώριση Λόγου είναι μέρος της Επεξεργασίας Φυσικής Γλώσσας που αποτελεί υποπεδίο της Τεχνητής Νοημοσύνης. Για να το πούμε απλά, η αναγνώριση ομιλίας είναι η ικανότητα ενός λογισμικού υπολογιστή να αναγνωρίζει λέξεις και φράσεις στην ομιλούμενη γλώσσα και να τις μετατρέπει σε αναγνώσιμο από τον άνθρωπο κείμενο. Χρησιμοποιείται σε διάφορες εφαρμογές όπως συστήματα φωνητικών βοηθών, αυτοματισμού σπιτιού, φωνητικά chatbots, ρομπότ φωνητικής αλληλεπίδρασης, τεχνητή νοημοσύνη κ.λπ.

Υπάρχουν διαφορετικά API (Διεπαφή προγραμματισμού εφαρμογών) για την αναγνώριση ομιλίας. Προσφέρουν υπηρεσίες είτε δωρεάν είτε επί πληρωμή. Αυτά είναι:

CMU Sphinx
Αναγνώριση ομιλίας Google
Google Cloud Speech API
Wit.ai
Microsoft Bing Voice Recognition
Houndify API
Ομιλία σε κείμενο της IBM
Snowboy Hotword Detection

Θα χρησιμοποιούμε την Αναγνώριση Λόγου Google εδώ, καθώς δεν απαιτεί κανένα κλειδί API. Αυτό το σεμινάριο στοχεύει να παρέχει μια εισαγωγή σχετικά με τον τρόπο χρήσης της βιβλιοθήκης Αναγνώρισης ομιλίας Google σε Python με τη βοήθεια εξωτερικού μικροφώνου όπως το ReSpeaker USB 4-Mic Array από το Seeed Studio. Αν και δεν είναι υποχρεωτική η χρήση εξωτερικού μικροφώνου, μπορεί να χρησιμοποιηθεί ακόμη και ενσωματωμένο μικρόφωνο φορητού υπολογιστή.

Βήμα 1: ReSpeaker USB 4-Mic Array

Το ReSpeaker USB Mic είναι μια συσκευή τεσσάρων μικροφώνων σχεδιασμένη για AI και φωνητικές εφαρμογές, η οποία αναπτύχθηκε από το Seeed Studio. Διαθέτει 4 υψηλής απόδοσης, ενσωματωμένα πολυκατευθυντικά μικρόφωνα σχεδιασμένα για να παίρνουν τη φωνή σας από οπουδήποτε στο δωμάτιο και 12 προγραμματιζόμενες ενδείξεις LED RGB. Το μικρόφωνο USB ReSpeaker υποστηρίζει λειτουργικά συστήματα Linux, macOS και Windows. Λεπτομέρειες μπορείτε να βρείτε εδώ.

Το ReSpeaker USB Mic έρχεται σε ένα ωραίο πακέτο που περιέχει τα ακόλουθα στοιχεία:

Οδηγός χρήσης
ReSpeaker USB Mic Array
Καλώδιο Micro USB σε USB

Είμαστε λοιπόν έτοιμοι να ξεκινήσουμε.

Βήμα 2: Εγκαταστήστε τις απαιτούμενες βιβλιοθήκες

Για αυτό το σεμινάριο, υποθέτω ότι χρησιμοποιείτε Python 3.x.

Ας εγκαταστήσουμε τις βιβλιοθήκες:

pip3 εγκαταστήστε το SpeechRecognition

Για macOS, πρώτα θα πρέπει να εγκαταστήσετε το PortAudio με το Homebrew και, στη συνέχεια, να εγκαταστήσετε το PyAudio με το pip3:

brew install portaudio

Εκτελούμε την παρακάτω εντολή για να εγκαταστήσουμε το pyaudio

pip3 εγκατάσταση pyaudio

Για Linux, μπορείτε να εγκαταστήσετε το PyAudio με apt:

sudo apt-get install python-pyaudio python3-pyaudio

Για Windows, μπορείτε να εγκαταστήσετε το PyAudio με pip:

pip εγκατάσταση pyaudio

Δημιουργήστε ένα νέο αρχείο python

nano get_index.py

Επικόλληση στο get_index.py παρακάτω απόσπασμα κώδικα:

εισαγωγή pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') for i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: print ("Input Device id", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Εκτελέστε την ακόλουθη εντολή:

python3 get_index.py

Στην περίπτωσή μου, η εντολή δίνει την ακόλουθη έξοδο στην οθόνη:

Αναγνωριστικό συσκευής εισόδου 1 - ReSpeaker 4 Mic Array (UAC1.0)

Αναγνωριστικό συσκευής εισόδου 2 - Μικρόφωνο MacBook Air

Αλλάξτε το device_index σε αριθμό ευρετηρίου σύμφωνα με την επιλογή σας στο παρακάτω απόσπασμα κώδικα.

εισαγωγή ομιλίας_αναγνώρισης ως sr

r = sr. Recognizer () ομιλία = sr. Μικρόφωνο (device_index = 1) με ομιλία ως πηγή: εκτύπωση ("πες κάτι! …") ήχος = r.adjust_for_ambient_noise (πηγή) ήχος = r. listenen (πηγή) try: recog = r.recognize_google (audio, language = 'el-US') print ("Είπατε:" + recog) εκτός από sr. UnknownValueError: print ("Google Speech Recognition could not understand audio") εκτός από sr. RequestError as e: print ("Δεν ήταν δυνατό να ζητηθούν αποτελέσματα από την υπηρεσία Αναγνώρισης ομιλίας Google. {0}". Μορφή (ε))

Ο δείκτης συσκευής επιλέχθηκε 1, επειδή το ReSpeaker 4 Mic Array θα είναι η κύρια πηγή.

Βήμα 3: Μετατροπή κειμένου σε ομιλία σε Python With Pyttsx3 Library

Υπάρχουν πολλά διαθέσιμα API για τη μετατροπή κειμένου σε ομιλία σε python. Ένα από αυτά τα API είναι το pyttsx3, το οποίο είναι το καλύτερο διαθέσιμο πακέτο κειμένου σε ομιλία κατά τη γνώμη μου. Αυτό το πακέτο λειτουργεί σε Windows, Mac και Linux. Ελέγξτε την επίσημη τεκμηρίωση για να δείτε πώς γίνεται αυτό.

Εγκαταστήστε το πακέτο Χρησιμοποιήστε pip για να εγκαταστήσετε το πακέτο.

pip εγκατάσταση pyttsx3

Εάν βρίσκεστε στα Windows, θα χρειαστείτε ένα πρόσθετο πακέτο, το pypiwin32 το οποίο θα χρειαστεί για πρόσβαση στο εγγενές API ομιλίας των Windows.

pip εγκατάσταση pypiwin32

Μετατροπή κειμένου σε σενάριο python ομιλίας Παρακάτω είναι το απόσπασμα κώδικα για κείμενο σε ομιλία χρησιμοποιώντας το pyttsx3:

εισαγωγή pyttsx3

κινητήρας = pyttsx3.init ()

engine.setProperty («ποσοστό», 150) # Ποσοστό ταχύτητας

engine.setProperty («όγκος», 0,9) # Τόμος 0-1

engine.say ("Γεια σου, κόσμο!")

engine.runAndWait ()

Βήμα 4: Το βάζουμε όλα μαζί: Δημιουργία αναγνώρισης ομιλίας με Python χρησιμοποιώντας API αναγνώρισης ομιλίας Google και βιβλιοθήκη Pyttsx3

Ο παρακάτω κώδικας είναι υπεύθυνος για την αναγνώριση της ανθρώπινης ομιλίας χρησιμοποιώντας την Αναγνώριση ομιλίας Google και τη μετατροπή του κειμένου σε ομιλία χρησιμοποιώντας τη βιβλιοθήκη pyttsx3.

εισαγωγή ομιλίας_αναγνώρισης ως sr

εισαγωγή pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) με πηγή την ομιλία: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("You said:" + recog) engine.say (" Είπατε: " + recog) engine.runAndWait () εκτός από sr. UnknownValueError: engine.say (" Η αναγνώριση ομιλίας Google δεν κατάλαβε τον ήχο ") engine.runAndWait () εκτός από το sr. RequestError ως e: engine.say (" Δεν μπόρεσα ζητήστε αποτελέσματα από την υπηρεσία Αναγνώρισης ομιλίας Google. {0} ". format (e)) engine.runAndWait ()

Εκτυπώνει την έξοδο στο τερματικό. Επίσης, θα μετατραπεί επίσης σε λόγο.

Είπατε: Το Λονδίνο είναι η πρωτεύουσα της Μεγάλης Βρετανίας

Ελπίζω να έχετε τώρα καλύτερη κατανόηση του τρόπου λειτουργίας της αναγνώρισης ομιλίας γενικά και το πιο σημαντικό, πώς να το εφαρμόσετε χρησιμοποιώντας το Google Speech Recognition API με την Python.

Εάν έχετε οποιεσδήποτε ερωτήσεις ή σχόλια; Αφήστε ένα σχόλιο παρακάτω. Μείνετε συντονισμένοι!

Συνιστάται:

M5STACK Πώς να εμφανίσετε τη θερμοκρασία, την υγρασία και την πίεση στο M5StickC ESP32 χρησιμοποιώντας το Visuino - Εύκολο να το κάνετε: 6 βήματα

M5STACK Πώς να εμφανίζεται η θερμοκρασία, η υγρασία και η πίεση στο M5StickC ESP32 χρησιμοποιώντας Visuino - Εύκολο να το κάνετε: Σε αυτό το σεμινάριο θα μάθουμε πώς να προγραμματίζουμε το ESP32 M5Stack StickC με Arduino IDE και Visuino για την εμφάνιση θερμοκρασίας, υγρασίας και πίεσης χρησιμοποιώντας αισθητήρα ENV (DHT12, BMP280, BMM150)

Αναγνώριση ομιλίας με Arduino (Bluetooth + LCD + Android): 6 βήματα

Αναγνώριση ομιλίας με Arduino (Bluetooth + LCD + Android): Σε αυτό το έργο, πρόκειται να κάνουμε αναγνώριση ομιλίας με Arduino, μονάδα Bluetooth (HC-05) και LCD. ας χτίσουμε τη δική σας συσκευή αναγνώρισης ομιλίας

Αναγνώριση προσώπου και αναγνώριση - Arduino Face ID χρησιμοποιώντας OpenCV Python και Arduino .: 6 βήματα

Αναγνώριση προσώπου και αναγνώριση | Arduino Face ID χρησιμοποιώντας OpenCV Python και Arduino .: Αναγνώριση προσώπου Το αναγνωριστικό προσώπου AKA είναι ένα από τα πιο σημαντικά χαρακτηριστικά στα κινητά τηλέφωνα στις μέρες μας. Έτσι, είχα μια ερώτηση " μπορώ να έχω ένα αναγνωριστικό προσώπου για το έργο μου στο Arduino " και η απάντηση είναι ναι … Το ταξίδι μου ξεκίνησε ως εξής: Βήμα 1: Πρόσβαση σε εμάς

Αναγνώριση ομιλίας: 12 βήματα

Αναγνώριση ομιλίας: Γεια σε όλους ………. Αυτό είναι το δεύτερο διδακτικό μου που δημοσιεύω. Καλωσορίστε όλους λοιπόν ….. Σε αυτό το Εκπαιδευτικό θα σας διδάξω πώς να δημιουργήσετε έναν αναγνωριστή φωνής χρησιμοποιώντας έναν πίνακα arduino. Έτσι νομίζω ότι έχετε μια εμπειρία με το arduino αγριογούρουνο

Δημιουργία Bookhuddle.com, ενός ιστότοπου για την ανακάλυψη, την οργάνωση και την κοινή χρήση πληροφοριών βιβλίου: 10 βήματα

Δημιουργία Bookhuddle.com, ενός ιστότοπου για την ανακάλυψη, την οργάνωση και την κοινή χρήση πληροφοριών βιβλίου: Αυτή η ανάρτηση περιγράφει τα βήματα που σχετίζονται με τη δημιουργία και την κυκλοφορία του Bookhuddle.com, ενός ιστότοπου που έχει στόχο να βοηθήσει τους αναγνώστες να ανακαλύψουν, να οργανώσουν και να μοιραστούν πληροφορίες βιβλίων. Τα βήματα που περιγράφονται εδώ θα ισχύει για την ανάπτυξη άλλων ιστότοπων

Αναγνώριση ομιλίας χρησιμοποιώντας το Google Speech API και την Python: 4 βήματα

Πίνακας περιεχομένων:

Αναγνώρισης ομιλίας

Βήμα 1: ReSpeaker USB 4-Mic Array

Βήμα 2: Εγκαταστήστε τις απαιτούμενες βιβλιοθήκες

Βήμα 3: Μετατροπή κειμένου σε ομιλία σε Python With Pyttsx3 Library

Βήμα 4: Το βάζουμε όλα μαζί: Δημιουργία αναγνώρισης ομιλίας με Python χρησιμοποιώντας API αναγνώρισης ομιλίας Google και βιβλιοθήκη Pyttsx3

Συνιστάται:

M5STACK Πώς να εμφανίσετε τη θερμοκρασία, την υγρασία και την πίεση στο M5StickC ESP32 χρησιμοποιώντας το Visuino - Εύκολο να το κάνετε: 6 βήματα

Αναγνώριση ομιλίας με Arduino (Bluetooth + LCD + Android): 6 βήματα

Αναγνώριση προσώπου και αναγνώριση - Arduino Face ID χρησιμοποιώντας OpenCV Python και Arduino .: 6 βήματα

Αναγνώριση ομιλίας: 12 βήματα

Δημιουργία Bookhuddle.com, ενός ιστότοπου για την ανακάλυψη, την οργάνωση και την κοινή χρήση πληροφοριών βιβλίου: 10 βήματα

Αναβάθμιση παλιών/φουσκωτών φορητών ηχείων!: 6 βήματα

Prototype Arduino-Raspberry Pi Soundboard: 9 βήματα (με εικόνες)

Κάντε μια διακόσμηση LED επιφάνειας εργασίας με τρισδιάστατη εκτύπωση: 4 βήματα

Δημιουργήστε μια βάση για εσάς Ipod Dock (2 ιδέες): 7 βήματα

Αναβάθμιση του νέου φορητού υπολογιστή σας από Vista σε XP: 8 βήματα

Απλός ελεγκτής συνιστωσών και συνέχειας: 3 βήματα

Κάντε το iTunes να ακούγεται πραγματικά καλό: 4 βήματα

Τροποποίηση ρομπότ FLR D2-2: 5 βήματα (με εικόνες)

Έλεγχος συσκευών πραγματικού κόσμου με τον υπολογιστή σας: 15 βήματα (με εικόνες)

Εκτέλεση αρχείων .iso στο VMWare Player: 3 βήματα

Πώς να συγκολλήσετε καλώδιο EL (ηλεκτροφωταύγειας): 7 βήματα (με εικόνες)

Αυτοδύναμος πίνακας Arduino: 4 βήματα (με εικόνες)

Φακός USB: 9 βήματα (με εικόνες)

LED Disco Light in a Jar !: 11 Βήματα (με Εικόνες)

Φακός LED αισθητήρα (9v, με βίντεο ανίχνευσης φωτός / σκούρου): 5 βήματα

Αποκτήστε μεγάλα χρήματα για μπαταρίες παλιοσίδερα: 3 βήματα (με εικόνες)