Tehnike za strojnu detekciju glasa u audio zapisu

Sažetak

Simple pattern matching je tehnika gdje je svaka rijec prepoznata kao posebna cijelina. Na taj nacin odmah prepoznas stablo ili tablicu bez svjesnog analiziranja ili gledanja u njega. Pattern and feature analysis je tehnika gdje se svaka rijec rastavi na bitove i prepoznaje iz kljucnih znacajki kao npr. samoglasnici. Language modeling and statistical analysis je tehnika u kojoj se koristi znanje gramatike i vjerojatnosti pojave odredenje rijeci ovisno o redosljedu se koristi kako bi se poboljsala tocnost. Artificial neural networks je tehnika koristenja naucenih modela koji mogu pouzdano prepoznati uzorke zvukova kao npr. rijeci.

U praksi, svaki dan se susrecemo sa prepoznavanjem glasa kao u a tu enst napisati

Keywords: abstract; bastract; astract; retract; tractor

Uvod

Prepoznavanje glasa u zvuku je uz nas vec desetljecima. Ovih dana je precizno do 99% te postaje primarni nacin interaktiranje s racunalima. Glavni problem prepoznavanje glasa u audio zapisu je da razlicite osobe razlicitom brzinom govore rijeci. Npr. netko ce reci cao dok netko drugi to mozda malo razduzi caaao.

Tehnike:

Simple pattern matching
Pattern and feature analysis
Language modeling and statistical analysis
Artificial neural networks

Simple pattern matching

Vjerovatno ste se vec susresli sa ovim nacimom kada ste nazvali automatski pozivni centar i onda odabirali izmedu opcija dok niste dosli do zeljene. Ovaj nacin je koristen u bankama za upitima o stanju racuna, izvodima racuna, zahtjevima za cekove itd. Jednostavno nazovete broj te cekate snimljeni glas, te onda ili kazete ili odaberete brojeve kako bi dosli do onog sto zelite napraviti. Sve sto mozete napraviti je odabrati jednu od vise opcija iz male liste. Ovaj nacin ne prepoznaje glas nego odabire izmedu nekoliko predodredenih zvucnih uzoraka npr od 1 do 10 te onda prepoznaje prema glasu ili tonova mobilne tipkovnice.

Nije velika razlika izmedu prepoznavanja glasa i tonova mobilne tipkovnice. U svakom slucaju od nula do deset se usporeduje dobiveni zvuk sa slicnim spremljenim zvukovima. Postoji razlika izmedu govora ljudi te netko moze reci visim tonom, nizim tonom, sporije, brze ali velika je razlika izmedu brojeva te ako ne moze odrediti koji je broj recen prebaci vas na agenta.

Poglavlje 2

Poglavlje 3

Poglavlje ...

Zaključak

Literatura

[1] Plass, Jan L., Roxana Moreno, and Roland Brünken. Cognitive Load Theory. Cambridge University Press, 2010.

[2] Mayer, Richard E. The Cambridge handbook of multimedia learning. Cambridge University Press, 2005.

[3] Kirschner, P. A, Sweller, J. and Clark, R. E. Why minimal guidance during instruction does not work: An analysis of the failure of constructivist, discovery, problem-based, experiential, and inquiry-based teaching. Educational psychologist 41, no. 2, pp 75-86, 2006

racfor_wiki/tehnike_za_strojnu_detekciju_glasa_u_audio_zapisu.1610904701.txt.gz · Zadnja izmjena: 2024/12/05 13:23 (vanjsko uređivanje)