Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.

Razlike

Slijede razlike između dviju inačica stranice.

Poveznica na ovu usporedbu

Starije izmjene na obje strane Starija izmjena
Novija izmjena
Starija izmjena
racfor_wiki:fdd:speech_to_text [2022/06/08 14:19]
lbertol [Literatura]
racfor_wiki:fdd:speech_to_text [2024/12/05 12:24] (trenutno)
Redak 58: Redak 58:
  
 Neki od alata koji nude besplatnu verziju za generiranje teksta iz govora su: Neki od alata koji nude besplatnu verziju za generiranje teksta iz govora su:
 +
 +
 +**Julius**
 +//[[https://github.com/julius-speech/julius|Julius]]//
 +
 +Softver za dekodiranje s velikim vokabularom namijenjen je za istraživače i programere. Na temelju riječi N-grama i HMM-a ovisnog o kontekstu, može izvesti dekodiranje u stvarnom vremenu na različitim računala i uređajima - od mikro-računala do poslužitelja u oblaku. Za rad, Julius prepoznavač treba jezični model i akustički model za svaki jezik. Najnovija verzija također podržava dekodiranje u stvarnom vremenu temeljeno na Deep Neural Networks-u. Julius je razvijen kao istraživački softver za japanski LVCSR (engl. large-vocabulary continuous-speech recognition)od 1997. godine, a rad je nastavljen u okviru IPA projekta japanskih alata za diktiranje.
 +Dostupan je na platformama Linux i drugim sustavima baziranim na Unixu, kao i na Windows-u, Mac-u, Android-u i drugim platformama.
  
 **Converse Smartly** **Converse Smartly**
 +//[[https://www.folio3.ai/converse-smartly-try-now/|Converse Smartly]]//
  
 Alat je nastao kao interni projekt obrade prirodnog jezika tvrtke Folio3. Kako bi proveo speech-to-text koristi postojeći IBM Watson Speech API i Natural Language Toolkit ( NLTK ). Baziran je na umjetnim povratnim umjetnim neuronskim mrežama te sadrži veliki broj prednaučenih reprezentacija riječi. Osim što obavlja zadatak pretvordbe govora u tekst također omogućava analizu pojedinih osjećaja ili prepoznavanje određene teme u audiozapisu. Aplikacija je primarno osmišljena kao pomagalo prilikom sastanaka, intervjua, konferencija ili seminara, no danas njezina besplatna verzija ima puno širu primjenu.  Alat je nastao kao interni projekt obrade prirodnog jezika tvrtke Folio3. Kako bi proveo speech-to-text koristi postojeći IBM Watson Speech API i Natural Language Toolkit ( NLTK ). Baziran je na umjetnim povratnim umjetnim neuronskim mrežama te sadrži veliki broj prednaučenih reprezentacija riječi. Osim što obavlja zadatak pretvordbe govora u tekst također omogućava analizu pojedinih osjećaja ili prepoznavanje određene teme u audiozapisu. Aplikacija je primarno osmišljena kao pomagalo prilikom sastanaka, intervjua, konferencija ili seminara, no danas njezina besplatna verzija ima puno širu primjenu. 
  
 **Dragon** **Dragon**
 +//[[https://www.nuance.com/dragon/transcription-solutions.html/|Dragon]]//
  
 Aplikacija za profesionalni speech recognition koja nudi besplatnu verziju sa brojnim mogućnostima. Kao svoju primarnu metodu koristi se askutičnim modelom. Akustično modeliranje govora obično je izvedeno na način da se računaju statističke reprezentacije za sekvence vektora značajki iz valnog oblika govora. Sama aplikacija uči značajke riječi kako ju koristimo te s vremenom postaje sve točnija i točnija. Procjenjuje se da može doseći čak 99-postotnu točnost u pretvaranju audiozapisa u tekst.  Za pretvorbu koristi vrlo široku bazu transkripata. Osim samog speech-to-texta alat nam nudi i korekciju izgovora.  Aplikacija za profesionalni speech recognition koja nudi besplatnu verziju sa brojnim mogućnostima. Kao svoju primarnu metodu koristi se askutičnim modelom. Akustično modeliranje govora obično je izvedeno na način da se računaju statističke reprezentacije za sekvence vektora značajki iz valnog oblika govora. Sama aplikacija uči značajke riječi kako ju koristimo te s vremenom postaje sve točnija i točnija. Procjenjuje se da može doseći čak 99-postotnu točnost u pretvaranju audiozapisa u tekst.  Za pretvorbu koristi vrlo široku bazu transkripata. Osim samog speech-to-texta alat nam nudi i korekciju izgovora. 
  
 **AssemblyAI** **AssemblyAI**
 +//[[https://www.assemblyai.com/|AssemblyAI]]//
  
 Platforma koja nudi besplatnu verziju za obradu prirodnog jezika i speech-to-text. Nudi transkripciju u stvarnom vremenu, dijarizaciju zvučnika, automatsko generiranje interpunkcija ( uskličnika, točki, zareza ) te poprilično veliku točnost pretvorbe. Osim toga prihvaća jako široki skup audio i video formata. Također sam AssemblyAI nudi besplatni Python API s kojim možemo isprobavati i modificirati programe za obradu govora.  Modeli koje koriste bazirani su na povratnim neuronskim mrežama sa slojevima pažnje ( attention ) te akustičnom modeliranju. Platforma koja nudi besplatnu verziju za obradu prirodnog jezika i speech-to-text. Nudi transkripciju u stvarnom vremenu, dijarizaciju zvučnika, automatsko generiranje interpunkcija ( uskličnika, točki, zareza ) te poprilično veliku točnost pretvorbe. Osim toga prihvaća jako široki skup audio i video formata. Također sam AssemblyAI nudi besplatni Python API s kojim možemo isprobavati i modificirati programe za obradu govora.  Modeli koje koriste bazirani su na povratnim neuronskim mrežama sa slojevima pažnje ( attention ) te akustičnom modeliranju.
Redak 88: Redak 98:
 [6] En.wikipedia.org. 2022. List of speech recognition software - Wikipedia. [online] Available at: [[https://en.wikipedia.org/wiki/List_of_speech_recognition_software]] [Accessed 7 June 2022].  [6] En.wikipedia.org. 2022. List of speech recognition software - Wikipedia. [online] Available at: [[https://en.wikipedia.org/wiki/List_of_speech_recognition_software]] [Accessed 7 June 2022]. 
  
-[7] En.ScienceDirect.org. 2022. Unsupervised Automatic Speech Recognition: A review+[7] Hanan Aldarmaki, 2022. Unsupervised Automatic Speech Recognition: A review 
 Available at: [[https://www.sciencedirect.com/science/article/pii/S0167639322000292]] [Accessed 7 June 2022].  Available at: [[https://www.sciencedirect.com/science/article/pii/S0167639322000292]] [Accessed 7 June 2022]. 
  
  
 ~~DISCUSSION~~ ~~DISCUSSION~~
racfor_wiki/fdd/speech_to_text.1654697977.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0