Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:fdd:speech_to_text [2022/06/04 11:15] lbertol [Metode i algoritmi] |
racfor_wiki:fdd:speech_to_text [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 39: | Redak 39: | ||
Slika 1.2 - prikaz mjerenja sličnosti između dvije sekvence koristeći | Slika 1.2 - prikaz mjerenja sličnosti između dvije sekvence koristeći | ||
Dynamic Time Wrapping metodu | Dynamic Time Wrapping metodu | ||
- | Ipak, danas najraširenija metoda za Text-To-Speech je korištenje dubokih neuronskih mreža. Najčešće se koriste modeli bazirani na Povratnim Mrežama koje kao ulaz primaju enkodirani snimljeni zvuk. Enkodiranje se izvršava na način da se iz audio zapisa različitim metodama (npr. Linear predictive analysis ) izvlače numeričke značajke s kojima ćemo trenirati model. Mreža na svojim izlazima daje vjerojatnosti da određeni zvuk snimljen na ulazu predstavlja određenu riječ. Cilj mreže je da nauči generirati najvjerojatniju sekvencu riječi. U zadnje se vrijeme zbog nestabilnosti učenja i kratkoročnog pamćenja Povratnih Mreža koriste metode bazirane na slojevima pažnji ( eng. Attention ) koje funkcioniraju poput jednostavnih upita. Oni nam daju odgovor na pitanje koja regija modela ima najkorisniju informaciju da nam pomogne sa klasifikacijom trenutne riječi. | + | Ipak, danas najraširenija metoda za Text-To-Speech je korištenje dubokih neuronskih mreža. Najčešće se koriste modeli bazirani na Povratnim Mrežama koje kao ulaz primaju enkodirani snimljeni zvuk. Enkodiranje se izvršava na način da se iz audio zapisa različitim metodama (npr. Linear predictive analysis ) izvlače numeričke značajke s kojima ćemo trenirati model. Mreža na svojim izlazima daje vjerojatnosti da određeni zvuk snimljen na ulazu predstavlja određenu riječ. Cilj mreže je da nauči generirati najvjerojatniju sekvencu riječi. Kao što možemo uočiti na slici 1.3 ulaz u jedan proizvoljni duboki model je audiozapis koji prolazi kroz tri potpuno povezana linearna sloja te na izlazu daje vektor vjerojatnosti izračunat kategoričkom distribucijom Softmax da ulazna audiosekvenca pripada određenoj riječi. Na primjer možemo vidjeti da nam je model na izlazu dao nekoliko riječi zajedno sa njihovim vjerojatnostima ( Arm, Gyro, Disarm... ) kao potencijalni prijevod audiosekvence u tekst. U zadnje se vrijeme zbog nestabilnosti učenja i kratkoročnog pamćenja Povratnih Mreža koriste metode bazirane na slojevima pažnji ( eng. Attention ) koje funkcioniraju poput jednostavnih upita. Oni nam daju odgovor na pitanje koja regija modela ima najkorisniju informaciju da nam pomogne sa klasifikacijom trenutne riječi. |
{{https:// | {{https:// | ||
Slika 1.3 - prikaz korištenja dubokih neuronskih mreža za provedbu | Slika 1.3 - prikaz korištenja dubokih neuronskih mreža za provedbu | ||
Speech-to-text-a | Speech-to-text-a | ||
+ | | ||
+ | Trenutno u ovome se području najviše istražuju primjene automatskog speech recognitiona (ASR) te kako ga provesti pomoću metoda nenadziranog dubokog učenja. Ideja je da ne trebamo ručno označavati modelu koji dio zapisa predstavlja koju riječ, već da model sam nauči mapirati govorne segmente u riječi. Jedno od istraživanja o prednostima i nedostatcima ove metode opisano je u čanku " | ||
===== Primjene ===== | ===== Primjene ===== | ||
Redak 53: | Redak 55: | ||
U svakodnevnom životu, primjene prepoznavanja govora pronalaze se u pametnim telefonima, ali i ostalim uređajima kao što su pametni satovi. Pisanje poruka diktiranjem u mikrofon telefona ili sata, korištenje automatskih prevoditelja govora, davanje naredbi sustavima u automobilima samo su neki od svakodnevnih primjera korištenja prepoznavanja govora. | U svakodnevnom životu, primjene prepoznavanja govora pronalaze se u pametnim telefonima, ali i ostalim uređajima kao što su pametni satovi. Pisanje poruka diktiranjem u mikrofon telefona ili sata, korištenje automatskih prevoditelja govora, davanje naredbi sustavima u automobilima samo su neki od svakodnevnih primjera korištenja prepoznavanja govora. | ||
+ | ===== Alati ===== | ||
+ | |||
+ | Neki od alata koji nude besplatnu verziju za generiranje teksta iz govora su: | ||
+ | |||
+ | |||
+ | **Julius** | ||
+ | // | ||
+ | |||
+ | Softver za dekodiranje s velikim vokabularom namijenjen je za istraživače i programere. Na temelju riječi N-grama i HMM-a ovisnog o kontekstu, može izvesti dekodiranje u stvarnom vremenu na različitim računala i uređajima - od mikro-računala do poslužitelja u oblaku. Za rad, Julius prepoznavač treba jezični model i akustički model za svaki jezik. Najnovija verzija također podržava dekodiranje u stvarnom vremenu temeljeno na Deep Neural Networks-u. Julius je razvijen kao istraživački softver za japanski LVCSR (engl. large-vocabulary continuous-speech recognition)od 1997. godine, a rad je nastavljen u okviru IPA projekta japanskih alata za diktiranje. | ||
+ | Dostupan je na platformama Linux i drugim sustavima baziranim na Unixu, kao i na Windows-u, Mac-u, Android-u i drugim platformama. | ||
+ | |||
+ | **Converse Smartly** | ||
+ | // | ||
+ | |||
+ | Alat je nastao kao interni projekt obrade prirodnog jezika tvrtke Folio3. Kako bi proveo speech-to-text koristi postojeći IBM Watson Speech API i Natural Language Toolkit ( NLTK ). Baziran je na umjetnim povratnim umjetnim neuronskim mrežama te sadrži veliki broj prednaučenih reprezentacija riječi. Osim što obavlja zadatak pretvordbe govora u tekst također omogućava analizu pojedinih osjećaja ili prepoznavanje određene teme u audiozapisu. Aplikacija je primarno osmišljena kao pomagalo prilikom sastanaka, intervjua, konferencija ili seminara, no danas njezina besplatna verzija ima puno širu primjenu. | ||
+ | |||
+ | **Dragon** | ||
+ | // | ||
+ | |||
+ | Aplikacija za profesionalni speech recognition koja nudi besplatnu verziju sa brojnim mogućnostima. Kao svoju primarnu metodu koristi se askutičnim modelom. Akustično modeliranje govora obično je izvedeno na način da se računaju statističke reprezentacije za sekvence vektora značajki iz valnog oblika govora. Sama aplikacija uči značajke riječi kako ju koristimo te s vremenom postaje sve točnija i točnija. Procjenjuje se da može doseći čak 99-postotnu točnost u pretvaranju audiozapisa u tekst. | ||
+ | |||
+ | **AssemblyAI** | ||
+ | // | ||
+ | |||
+ | Platforma koja nudi besplatnu verziju za obradu prirodnog jezika i speech-to-text. Nudi transkripciju u stvarnom vremenu, dijarizaciju zvučnika, automatsko generiranje interpunkcija ( uskličnika, | ||
===== Zaključak ===== | ===== Zaključak ===== | ||
Redak 59: | Redak 86: | ||
===== Literatura ===== | ===== Literatura ===== | ||
- | [1] [[https:// | + | [1] En.wikipedia.org. 2022. Speech recognition - Wikipedia. [online] Available at: [[https:// |
+ | |||
+ | [2] Furui, S., 2022. AUTOMATIC SPEECH RECOGNITION AND ITS APPLICATION TO INFORMATION EXTRACTION. [online] Aclanthology.org. Available at: [[https:// | ||
+ | |||
+ | [3] Defined.ai. 2022. Speech Recognition Technology: Uses and Application in the Real World - Defined.ai. [online] Available at: [[https:// | ||
+ | |||
+ | [4] Scribd. 2022. Speech Recognition Seminar Report | PDF | Speech Recognition | Ios. [online] Available at: [[https:// | ||
- | [2] [[https://aclanthology.org/P99-1002.pdf | Sadaoki Furui AUTOMATIC SPEECH RECOGNITION AND ITS APPLICATION TO INFORMATION EXTRACTION Department of Computer Science Tokyo institute of Technology]] | + | [5] Csc.villanova.edu. 2022. Speech Recognition. |
- | [3] [[https://www.defined.ai/blog/ | + | [6] En.wikipedia.org. 2022. List of speech recognition software - Wikipedia. [online] Available at: [[https://en.wikipedia.org/wiki/List_of_speech_recognition_software]] [Accessed 7 June 2022]. |
- | [4] [[https:// | + | [7] Hanan Aldarmaki, 2022. Unsupervised Automatic Speech Recognition: |
+ | Available at: [[https:// | ||
~~DISCUSSION~~ | ~~DISCUSSION~~ |