Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
Prijevodi ove stranice:

Ovo je stara izmjena dokumenta!


Tehnike za strojnu detekciju glasa u audio zapisu

Sažetak

Simple pattern matching je tehnika gdje je svaka rijec prepoznata kao posebna cijelina. Na taj nacin odmah prepoznas stablo ili tablicu bez svjesnog analiziranja ili gledanja u njega. Pattern and feature analysis je tehnika gdje se svaka rijec rastavi na bitove i prepoznaje iz kljucnih znacajki kao npr. samoglasnici. Language modeling and statistical analysis je tehnika u kojoj se koristi znanje gramatike i vjerojatnosti pojave odredenje rijeci ovisno o redosljedu se koristi kako bi se poboljsala tocnost. Artificial neural networks je tehnika koristenja naucenih modela koji mogu pouzdano prepoznati uzorke zvukova kao npr. rijeci.

U praksi, svaki dan se susrecemo sa prepoznavanjem glasa kao u a tu enst napisati

Keywords: abstract; bastract; astract; retract; tractor

Uvod

Prepoznavanje glasa u zvuku je uz nas vec desetljecima. Ovih dana je precizno do 99% te postaje primarni nacin interaktiranje s racunalima. Glavni problem prepoznavanje glasa u audio zapisu je da razlicite osobe razlicitom brzinom govore rijeci. Npr. netko ce reci cao dok netko drugi to mozda malo razduzi caaao.

Tehnike:

  • Simple pattern matching
  • Pattern and feature analysis
  • Language modeling and statistical analysis
  • Artificial neural networks

Simple pattern matching

Vjerovatno ste se vec susresli sa ovim nacimom kada ste nazvali automatski pozivni centar i onda odabirali izmedu opcija dok niste dosli do zeljene. Ovaj nacin je koristen u bankama za upitima o stanju racuna, izvodima racuna, zahtjevima za cekove itd. Jednostavno nazovete broj te cekate snimljeni glas, te onda ili kazete ili odaberete brojeve kako bi dosli do onog sto zelite napraviti. Sve sto mozete napraviti je odabrati jednu od vise opcija iz male liste. Ovaj nacin ne prepoznaje glas nego odabire izmedu nekoliko predodredenih zvucnih uzoraka npr od 1 do 10 te onda prepoznaje prema glasu ili tonova mobilne tipkovnice.

Nije velika razlika izmedu prepoznavanja glasa i tonova mobilne tipkovnice. U svakom slucaju od nula do deset se usporeduje dobiveni zvuk sa slicnim spremljenim zvukovima. Postoji razlika izmedu govora ljudi te netko moze reci visim tonom, nizim tonom, sporije, brze ali velika je razlika izmedu brojeva te ako ne moze odrediti koji je broj recen prebaci vas na agenta.

Pattern and feature analysis

Simple pattern matching vecinom rade dobro jer imaju jako mali rijecnik vecinom deset rijeci koje reprezentiraju deset znamenki. Rijecnik koji system prepoznavanja glasa koristi zove se domena. Rani sistemi prepoznavanja glasa radili su za odredene domene. npr. prepisivanje doktorskih zapisa, programerske komande, pravni zargon itd. sto je napravilo manji problem prepoznavanja glasa jer rijecnici su bili manji te tehnicke rijeci su bile objasnjene. Vecina nas ima veliko rijecnik te rijeci koje se ponavljaju puno te neke strucne rijeci koje se bas ne koriste toliko te onda sistemi zahtjevaju ponavljanje rijeci vise puta dok ne stvore novi uzorak. Problem ovog nacina je da nije dovoljno efikasan.

Statistical analysis

U praksi prepoznavanje glasa je puno kompleksnij proces nego identificiranje i usporedba sa vec spremljenim uzorcima. Postoji mnogo razloga zasto:

  • Govor je jako varijabilan tj. razliciti ljudi govore na razlicite nacine iako govore jedno te istu rijec
  • Moze se izgovriti pojedina rijec na razlicite nacine ovisno koje rijecu idu poslije ili prije
  • Rijecnik govornika raste te onda raste i rijec slicnih rijeci
  • Sto vise razlicitih govornika sistem mora raspoznati, veca je sansa da ce napraviti pogresku

Artificial neural networks

Da bi mogli uciti neuronske mreze trebamo znati pretvoriti zvuk u zapis kompatibilan za ucenje neuronskih mreza. Zvukovi su preneseni kao valovi. Kako valove mozemo pretvoriti u brojeve. Zvucni valovi su jedno dimenzionalni u svakom trenutnku vremena. Imaju jednu vrijednost a to je visina vala. Zapis vala mozemo pretvoriti u brojeve tako da uzmemo visinu vala u pojedinim trenutncima jednako odmaknutima. Takav nacin se zove sampling. Uzimamo ocitavanja tisucu puta u sekundi i spremamo brojcanu reprezentaciju visine vala. To je zapravo nekopresirani .wav zapis. Zbog razmaka izmedu citanja bi pomislili da gubimo podatke ali zahvaljujuci Nyquist theorem koristeci matematiku mozemo savrseno rekonstruirati originalni zvuk. Sada imamo niz brojeva koji reprezentira amplitudu zvucnog vala citan 16000 puta u sekundi. Mogli bi s tim brojevima nauciti mrezu direktno. No odradit cemo neke stvari prije. Prvo cemo grupirati u grupe po 20 milisekundi. Posto je govor jako slozen rastavit cemo te grupe u jos groupa po visini frekvencije. Te onda zbrajajuci koliko energije koji frekvencijski pojas (od niskog do visokog) daje mozemo napraviti otisak prsta svakog zvuka. Te onda kompleksne zvukove mozemo pretvoriti u jednostavne sa fourierovim transformacijama. Krajnji rezultat toga je dobiveni broj koliko energije daje odredeni frekvencijski pojas. Ako ponavljamo taj proces svakih 20 milisekundi dobit cemo spektagram. Te onda neuronska mreza moze lagano naci ponajvljajuci uzorak pomocu spektograma. Za svaki mali isjecak dobit cemo vjerojatnost koje slovo taj djelic predstavlja. Svako slovo koje predvidi trebalo bi utjecati na iduce slovo koje ce predvidjeti. Npr ako predvidi J A B velika vjerojatnost da ce predvidjeti U K A nego nesto besmisleno CVB. Nakon sto predvimo s neuronskom mrezom dobit cemo nesto tipa HHHEE_LL_LLLOOO ali isto misli da je rekao HHHUU_LL_LLLOOO te AAAEE_LL_LLLOOO. Prvi korak je otkloniti duplikate slova te onda razmake. Mozemo vidjeti ako izgovorimo te rijeci da zvuce jako slicno. Te onda gledamo u databazu sto se vise pojavljuje te cemo smatrati taj primjer tocnim.

Zaključak

Literatura

racfor_wiki/tehnike_za_strojnu_detekciju_glasa_u_audio_zapisu.1610912547.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0