Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
Prijevodi ove stranice:

Sažetak

Razvojem tehnologije, ljudi pronalaze sve više načina kako pospješiti ljudske interakcije ali i povezati čovjeka i računalo. Ostvarivanje komunikacije pomoću govora od izuzetne je važnosti u obavljanju svakodnevnih aktivnosti. U ovom radu dan je kratki pregled i opseg pojma generiranje teksta iz govora te uvid u postojeće raspodjele sustava koji koriste tehnologiju prepoznavanja govora. Također, dan je pregled u metode i algoritme koji se nalaze u pozadini ovakvih složenih sustava. Na kraju, spominju se neke od raznih primjena ovakvih već postojećih sustava u svakodnevnom životu i donosi se zaključak o postojećim i budućim rješenjima koje ova tehnologija u razvoju može ponuditi.

Uvod

Razvoj umjetne inteligencije znatno je doprinio polju obrade prirodnog jezika pa tako i metodi generiranja teksta iz govora. Speeh-to-text interdisciplinarno je područje kompjuterske lingvistike i računarske znanosti u kojemu danas imamo poprilično zadovoljavajući rezultate. Krenuvši od Skrivenih Markovljevih Lanaca ovo je područje zasigurno doživjelo svoj vrhunac razvojem dubokih neuronskih mreža. Nekada je bio korišten u samo eksperimentalne svrhe i kao alat za prepoznavanja audio zapisa, no danas je njegova primjena široko ukorijenjena u svakodnevni život. Vrlo je primamljiva ideja da računalu ne moramo napisati što želimo, već to možemo učiniti jednosatnom govornom komunikacijom, kao i sa pravom osobom. Amazonova Alexa, Appleova Siri, Windowsova Cortana, samo su neke od virtualnih alata za asistenciju čija je glavna funkcionalnost upravo Speech-to-text. Kako se pozornost u svijetu računarstva sve više i više usmjerava na umjetnu inteligenciju, zasigurno možemo očekivati još veći napredak i razvoj ove zanimljive i korisne metode.

Generiranje teksta iz govora (speech-to-text)

Generiranje teksta iz govora, poznato i pod terminima automatsko prepoznavanje govora te računalno prepoznavanje govora, je interdisciplinarno podpodručje informatike i računalne lingvistike koje razvija metodologije i tehnologije koje omogućuju prepoznavanje i prevođenje govornog jezika u tekst uz pomoć računala. Obuhvaća znanja i istraživanja iz područja informatike, lingvistike i računalnog inženjerstva. Pojednostavljeno, generiranje teksta radi na način da uzima snimke ljudskog govora iz velikih skupova podataka i potom ih dijeli na sve manje i manje uzorke. Uz pomoć umjetne inteligencije, iz spomenutih uzoraka računalo postepeno uči prepoznati i interpretirati složenije govorne obrasce, vokabular i smisao. Na putu do ovakvog učenja nalazi se puno izazova. Naime, računala trebaju moći prepoznati izgovorene riječi čak i ako postoje određeni šumovi koji prate govor, različite varijacije glasa, naglasci i ostalo. Sve navedeno trenutno predstavlja najveći izazov u ovom području te posljedično utječe na kvalitetu mnogih postojećih sustava.

Sustavi za prepoznavanje govora tipično se dijele na sustave ovisne o govorniku i sustave neovisne o govorniku. Sustavi ovisni o govorniku počivaju na tehnologiji prepoznavanja govora određene osobe. Takvi sustavi dizajnirani su prema glasu jedne osobe i njenom specifičnom naglasku, izrazima, varijacijama i načinu govora. Prednost ovakvih sustava je preciznost u prepoznavanju govora, a nedostatak je smanjena učinkovitost uporabe ovakvog sustava, jer ga može koristiti samo jedna osoba. Sustavi neovisni o govorniku razvijeni su na način da ih može koristiti više različitih glasova, odnosno ljudi. Prednost ovakvih sustava je učinkovito korištenje sustava od velike skupine ljudi, dok je nedostatak smanjenje preciznosti zbog širokog raspona varijacija u govoru različitih ljudi.

Kako bi prepoznavanje govora radilo što preciznije, potrebno je utrenirati sustav nad postojećim podacima u cilju prepoznavanja različitih riječi i zvukova. Navedeni podaci se najčešće dijele u dvije skupine: podaci o skriptiranom govoru i podaci o razgovornom govoru. Podaci o skriptiranom govoru sastoje se od podataka prikupljenih iz snimaka različitih ljudi koji čitaju isti tekst, stvarajući širok skup izgovora potpuno istih riječi sa svim njihovim varijacijama. Ovakva vrsta govornih podataka najčešće se koristi za obuku sustava koji trebaju reagirati na glasovne naredbe i određene riječi. Podaci o razgovornom govoru složeniji su od prethodno navedenih podataka jer se koriste za treniranje sustava na tumačenje spontanih dijaloga i prepoznavanje konteksta, a ne samo na određene riječi. U tu svrhu koriste se snimke razgovora između ljudi s ciljem osposobljavanja sustava na situacije kada se razumijevanje riječi uvelike oslanja na kontekst. Ova vrsta podataka korisna je za vrlo prilagođene slučajeve upotrebe kao što su npr.chatbotovi.

Metode i algoritmi

Danas postoji jako veliki broj različitih metoda za provođenje Speech-to-text-a.

Jedna od najpoznatijih je ona temeljana na Markovljevim Skrivenim Lancima. To su statistički utemeljeni modeli koji se sastoje od više stanja između kojih su modelirani vjerojatnosni prijelazi. Pogodni su za ovaj problem zato što govor možemo u vrlo kratkom vremenskom intervalu (npr. od 10 milisekundi ) aproksimirati kao stacionarni proces. Tako ga rastavljamo na manje stacionarne signale koje čine foneme. Signale modeliramo kao skrivena stanja između kojih postoje vjerojatnosti prelaska. Tako iz signala prelazimo u foneme, te konačno iz fonema dobivamo riječi.

Slika 1.1 - prikaz Markovljevog Skrivenog Modela za Speech-to-text

Prije Markovljevog Skrivenog Modela koristila se metoda Dynamic Time Warping. Funkcionira kao algoritam za mjerenje sličnosti između dvije sekvence koje se mogu razlikovati po svojoj brzini ili vremenskom trajanju. To nam je pogodno za govor zato što ne želimo raditi distinkciju između brže ili sporije izgovorene jedno te iste riječi. To ne bismo mogli postići klasičnim Euklidskim mjerenjem udaljenosti između sekvenci na audiozapisu zato što bismo na taj način uvijek uspoređivali sekvencu u vremenskom trenutku T sa jednog audiozapisa zajedno sa sekvencom u vremensku trenutku T sa drugog audiozapisa. To nije dobro jer se jedno te ista riječ može izreći sporije ili brže. Zato se koristimo Dynamic Time Wrapping Matching, a ne Euclidean Matching metodom jer nam ono omogućava da pronađemo podudaranja između dvije audio sekvence iako one nisu započele u istom vremenskom trenutku T te nemaju jednako trajanje.

1005448887025665_1616729103138_simple-visualization-of-dynamic-time-warping-dtw-alignment-instead-of-assuming-a.jpg

Slika 1.2 - prikaz mjerenja sličnosti između dvije sekvence koristeći 
Dynamic Time Wrapping metodu               

Ipak, danas najraširenija metoda za Text-To-Speech je korištenje dubokih neuronskih mreža. Najčešće se koriste modeli bazirani na Povratnim Mrežama koje kao ulaz primaju enkodirani snimljeni zvuk. Enkodiranje se izvršava na način da se iz audio zapisa različitim metodama (npr. Linear predictive analysis ) izvlače numeričke značajke s kojima ćemo trenirati model. Mreža na svojim izlazima daje vjerojatnosti da određeni zvuk snimljen na ulazu predstavlja određenu riječ. Cilj mreže je da nauči generirati najvjerojatniju sekvencu riječi. Kao što možemo uočiti na slici 1.3 ulaz u jedan proizvoljni duboki model je audiozapis koji prolazi kroz tri potpuno povezana linearna sloja te na izlazu daje vektor vjerojatnosti izračunat kategoričkom distribucijom Softmax da ulazna audiosekvenca pripada određenoj riječi. Na primjer možemo vidjeti da nam je model na izlazu dao nekoliko riječi zajedno sa njihovim vjerojatnostima ( Arm, Gyro, Disarm… ) kao potencijalni prijevod audiosekvence u tekst. U zadnje se vrijeme zbog nestabilnosti učenja i kratkoročnog pamćenja Povratnih Mreža koriste metode bazirane na slojevima pažnji ( eng. Attention ) koje funkcioniraju poput jednostavnih upita. Oni nam daju odgovor na pitanje koja regija modela ima najkorisniju informaciju da nam pomogne sa klasifikacijom trenutne riječi.

847955951095809_1579179861663_recurrent-neural-network-architecture-used-for-voice-recognition.jpg

Slika 1.3 - prikaz korištenja dubokih neuronskih mreža za provedbu
Speech-to-text-a

Trenutno u ovome se području najviše istražuju primjene automatskog speech recognitiona (ASR) te kako ga provesti pomoću metoda nenadziranog dubokog učenja. Ideja je da ne trebamo ručno označavati modelu koji dio zapisa predstavlja koju riječ, već da model sam nauči mapirati govorne segmente u riječi. Jedno od istraživanja o prednostima i nedostatcima ove metode opisano je u čanku “Unsupervised Automatic Speech Recognition: A review ”. [7]

Primjene

Prepoznavanje govora pronalazi primjenu u raznim područjima ljudskog djelovanja - od zdravstvenog sektora do svakodnevnog života običnih ljudi.

U zdravstvenom sektoru, prepoznavanje govora za sada je implementirano u proces izrade medicinske dokumentacije. Pomoću sustava koji implementiraju prepoznavanje govora liječnicima je omogućeno glasovno unositi pojedinosti o pacijentu ili terapiji tijekom pregleda te potom samo ispisati i potpisati liječnički dokument. Ovakav pristup štedi vrijeme zdravstvenih djelatnika na način da smanjuje administrativne poslove te ostavlja više vremena za posvetu pacijentima.

U svakodnevnom životu, primjene prepoznavanja govora pronalaze se u pametnim telefonima, ali i ostalim uređajima kao što su pametni satovi. Pisanje poruka diktiranjem u mikrofon telefona ili sata, korištenje automatskih prevoditelja govora, davanje naredbi sustavima u automobilima samo su neki od svakodnevnih primjera korištenja prepoznavanja govora.

Alati

Neki od alata koji nude besplatnu verziju za generiranje teksta iz govora su:

Julius Julius

Softver za dekodiranje s velikim vokabularom namijenjen je za istraživače i programere. Na temelju riječi N-grama i HMM-a ovisnog o kontekstu, može izvesti dekodiranje u stvarnom vremenu na različitim računala i uređajima - od mikro-računala do poslužitelja u oblaku. Za rad, Julius prepoznavač treba jezični model i akustički model za svaki jezik. Najnovija verzija također podržava dekodiranje u stvarnom vremenu temeljeno na Deep Neural Networks-u. Julius je razvijen kao istraživački softver za japanski LVCSR (engl. large-vocabulary continuous-speech recognition)od 1997. godine, a rad je nastavljen u okviru IPA projekta japanskih alata za diktiranje. Dostupan je na platformama Linux i drugim sustavima baziranim na Unixu, kao i na Windows-u, Mac-u, Android-u i drugim platformama.

Converse Smartly Converse Smartly

Alat je nastao kao interni projekt obrade prirodnog jezika tvrtke Folio3. Kako bi proveo speech-to-text koristi postojeći IBM Watson Speech API i Natural Language Toolkit ( NLTK ). Baziran je na umjetnim povratnim umjetnim neuronskim mrežama te sadrži veliki broj prednaučenih reprezentacija riječi. Osim što obavlja zadatak pretvordbe govora u tekst također omogućava analizu pojedinih osjećaja ili prepoznavanje određene teme u audiozapisu. Aplikacija je primarno osmišljena kao pomagalo prilikom sastanaka, intervjua, konferencija ili seminara, no danas njezina besplatna verzija ima puno širu primjenu.

Dragon Dragon

Aplikacija za profesionalni speech recognition koja nudi besplatnu verziju sa brojnim mogućnostima. Kao svoju primarnu metodu koristi se askutičnim modelom. Akustično modeliranje govora obično je izvedeno na način da se računaju statističke reprezentacije za sekvence vektora značajki iz valnog oblika govora. Sama aplikacija uči značajke riječi kako ju koristimo te s vremenom postaje sve točnija i točnija. Procjenjuje se da može doseći čak 99-postotnu točnost u pretvaranju audiozapisa u tekst. Za pretvorbu koristi vrlo široku bazu transkripata. Osim samog speech-to-texta alat nam nudi i korekciju izgovora.

AssemblyAI AssemblyAI

Platforma koja nudi besplatnu verziju za obradu prirodnog jezika i speech-to-text. Nudi transkripciju u stvarnom vremenu, dijarizaciju zvučnika, automatsko generiranje interpunkcija ( uskličnika, točki, zareza ) te poprilično veliku točnost pretvorbe. Osim toga prihvaća jako široki skup audio i video formata. Također sam AssemblyAI nudi besplatni Python API s kojim možemo isprobavati i modificirati programe za obradu govora. Modeli koje koriste bazirani su na povratnim neuronskim mrežama sa slojevima pažnje ( attention ) te akustičnom modeliranju.

Zaključak

Generiranje teksta iz govora računalna je metoda s kojom audio zapis želimo pretvoriti u tekstualni. Koristi se već dugi niz desetljeća te danas pronalazimo brojne načine za njenu izvedbu. Svoj je vrhunac doživjela nedavnim razvojem dubokog učenja i povratnih modela baziranim na slojevima pažnje. Iako nikada ne možemo garantirati da imamo model generiranja teksta iz govora koji ne griješi, približili smo se onima koji nam omogućavaju njegovu svakodnevnu primjenu. Vrlo je koristan alat zdravstvenim sektorima, vojsci pa i običnim korisnicima pametnih telefona. Zasigurno možemo reći da se radi o interdisciplinarnom području koje se razvija iz dana u dan i bez kojeg teško možemo zamisliti suvremeni svijet.

Literatura

[1] En.wikipedia.org. 2022. Speech recognition - Wikipedia. [online] Available at: https://en.wikipedia.org/wiki/Speech_recognition [Accessed 7 June 2022].

[2] Furui, S., 2022. AUTOMATIC SPEECH RECOGNITION AND ITS APPLICATION TO INFORMATION EXTRACTION. [online] Aclanthology.org. Available at: Sadaoki Furui AUTOMATIC SPEECH RECOGNITION AND ITS APPLICATION TO INFORMATION EXTRACTION Department of Computer Science Tokyo institute of Technology[Accessed 7 June 2022].

[3] Defined.ai. 2022. Speech Recognition Technology: Uses and Application in the Real World - Defined.ai. [online] Available at: https://www.defined.ai/blog/speech-recognition-technology-uses-and-application-in-the-real-world/ [Accessed 7 June 2022].

[4] Scribd. 2022. Speech Recognition Seminar Report | PDF | Speech Recognition | Ios. [online] Available at: Gokhale Education Society’s R. H. Sapat College of Engineering, Management Studies and Research [Accessed 7 June 2022].

[5] Csc.villanova.edu. 2022. Speech Recognition. [online] Available at: http://www.csc.villanova.edu/~beck/csc4730/speech.html [Accessed 7 June 2022].

[6] En.wikipedia.org. 2022. List of speech recognition software - Wikipedia. [online] Available at: https://en.wikipedia.org/wiki/List_of_speech_recognition_software [Accessed 7 June 2022].

[7] Hanan Aldarmaki, 2022. Unsupervised Automatic Speech Recognition: A review Available at: https://www.sciencedirect.com/science/article/pii/S0167639322000292 [Accessed 7 June 2022].

Rasprave

Juraj Petrović, 2022/06/02 09:58

Koristite harvardski (ili neki drugi uobičajeni) stil citiranja Napisani dio je ok, ali on je stvarno minimalna terijska razrada teme. Slike baš nisu jasne. Što je Euclidean matching na slici 1.2? Što su ARM, GYRO ect. na slici 1.3? Sliek trebaju tekst na slikama treba biti na jeziku na kojem je pisan rad. Uključite informacije koje su vezane za praktični dio ove teme i daju odgovore barem na pitanja: - koji (besplatni) alati se koriste u ustavima ovisne o govorniku i sustave neovisne o govorniku - kako se oni koriste (gotovi modeli, modeli za treniranje) - koje ulazne podatke koriste takvi modeli, postoje li odgovarajuće baze s transkriptima isl. - isprobajte i navedite primjer za neki od nađenih modela - navedite rezultate u području vezane za uspješnost prepoznavanja govora Pogledajte i sažmite što se u ovom području trenutno radi u literaturi (IEEEXplore)

Unesite vaš komentar. Wiki sintaksa je dopuštena:
 
racfor_wiki/fdd/speech_to_text.txt · Zadnja izmjena: 2023/06/19 18:17 (vanjsko uređivanje)
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0