Razlike

Slijede razlike između dviju inačica stranice.

--- racfor_wiki:fdd:antiforenzika_glasa [2022/06/02 08:18]
Juraj Petrović
+++ racfor_wiki:fdd:antiforenzika_glasa [2024/12/05 12:24] (trenutno)
@@ Redak 35: / Redak 35: @@
-==== Descript ====
+=== Descript ===
-//[[https://www.descript.com|Descript]]// je alat za audio i video uređivanje. Jedan od ključnih elemenata //Descripta// je //Lyrebird AI//, softver za kloniranje glasa temeljen na umjetnoj inteligenciji. //Lyrebird// na temelju vrlo kratkog isječka govora može izgraditi umjetni glas. Primjenjuje se u kreiranju audio knjiga, za //text-to-speech// čitače i sl.
+//[[https://www.descript.com|Descript]]// je alat za audio i video uređivanje. Jedan od ključnih elemenata //Descripta// je //Lyrebird AI//, softver za kloniranje glasa temeljen na umjetnoj inteligenciji. //Lyrebird// na temelju vrlo kratkog isječka govora može izgraditi umjetni glas. Primjenjuje se u kreiranju audio knjiga, za //text-to-speech// čitače i sl. //Lyrebird AI// može se isprobati u besplatnoj verziji alata //Descript// s limitom od tisuću riječi. Neograničeno korištenje moguće je u //Pro// verziji i cijena je 24 dolara mjesečno.
-{{ https://46ba123xc93a357lc11tqhds-wpengine.netdna-ssl.com/wp-content/uploads/2019/09/descript-image-2.jpg?600x350 }}
+{{ :racfor_wiki:fdd:descript.mp3 |}}
-Slika 2. Descript [[https://voicebot.ai/2019/09/18/descript-acquires-lyrebird-and-lands-15-million-in-
+Primjer 1. Klonirani glas Petre Ilić dobiven pomoću alata //Descript//
-funding-from-andreessen-horowitz-and-redpoint/|izvor]]
-==== Resemble AI ====
+=== Resemble AI ===
-//[[https://www.resemble.ai/|Resemble AI]]// je alat za kloniranje glasa. Na temelju jednog ili više uzoraka izgrađuje umjetni glas. Iz legalnih i etičkih razloga, mora se tražiti dozvola osobe čiji se glas želi klonirati. Nakon izgradnje glasa, pomoću //text-to-speech// čitača generira se snimka govora. Ovaj alat omogućuje kreiranje više verzija istog glasa s različitim emocijama. Također, moguće je generirati govor na nekoliko različitih jezika.
+//[[https://www.resemble.ai/|Resemble AI]]// je alat za kloniranje glasa. Na temelju jednog ili više uzoraka izgrađuje umjetni glas. Iz legalnih i etičkih razloga, mora se tražiti dozvola osobe čiji se glas želi klonirati. Nakon izgradnje glasa, pomoću //text-to-speech// čitača generira se snimka govora. Ovaj alat omogućuje kreiranje više verzija istog glasa s različitim emocijama. Također, moguće je generirati govor na nekoliko različitih jezika. Kloniranje glasa pomoću alata //Resebmle AI// može se isprobati besplatno s limitom od 2000 riječi, odnosno oko dvije minute govora. Uzorci se moraju snimiti na //Resebmle AI// platformi. Za 30 dolara mjesečno moguće je generirati snimku govora duljine do dva sata.
-[[https://www.youtube.com/watch?v=Y08OaZVfkYE&ab_channel=ResembleAI|How Voice Cloning Works (Resemble AI)]]
+{{ :racfor_wiki:fdd:snimka1.ogg |}}
-{{ https://www.visdee.com/wp-content/uploads/resemble-ai.jpg?600x350 }}
+Primjer 2. Klonirani glas Petre Ilić dobiven pomoću alata //Resemble AI//
-Slika 3. Resemble AI [[https://www.visdee.com/ai-dubbing-software/|izvor]]
+{{ :racfor_wiki:fdd:saprjxqx.mp3 |}}
-==== Respeecher ====
+{{ :racfor_wiki:fdd:ldbgdset.mp3 |}}
-//[[https://www.respeecher.com/product?hsLang=en/|Respeecher]]// je, za razliku od prethodna dva, //speech-to-speech// alat. Prednost //speech-to-speech// konverzije je mogućnost generiranja dinamičnijeg i emocijama prožetog govora. //Respeecher// koristi obradu signala i duboko učenje za stvaranje umjetnog glasa i govora visoke kvalitete. Koristi se u produkciji filmova, video igara, audio knjiga i sl.
-{{ https://www.youtube.com/watch?v=t5yw5cR79VA&ab_channel=respeecher?|Speaking in the voice of Obama (Voice cloning) }}
+Primjer 3. Primjeri kloniranih glasova dostupnih na //Resemble AI// platformi
-{{ https://miro.medium.com/max/1400/1*gh35fkmoplPDLBgtjoENnQ.png?600x330 }}
+=== Respeecher ===
+//[[https://www.respeecher.com/product?hsLang=en/|Respeecher]]// je, za razliku od prethodna dva, //speech-to-speech// alat. Prednost //speech-to-speech// konverzije je mogućnost generiranja dinamičnijeg i emocijama prožetog govora. //Respeecher// koristi obradu signala i duboko učenje za stvaranje umjetnog glasa i govora visoke kvalitete. Koristi se u produkciji filmova, video igara, audio knjiga i sl. Cijena alata //Respeecher// je 200 dolara mjesečno.
-Slika 4. Respeecher [[https://respeecher.medium.com/respeecher-explained-the-speech-synthesis-software-for-film-tv-creators-969f1e090bc6|izvor]]
+[[ https://www.youtube.com/watch?v=t5yw5cR79VA&ab_channel=respeecher?|Speaking in the voice of Obama (Voice cloning) ]]
-Primjeri kloniranih glasova generiranih pomoću alata //Respeecher//: \\
-[[https://www.respeecher.com/voice-marketplace?hsLang=en|izvor]]
 {{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/deborah_d.wav }}
@@ Redak 70: / Redak 67: @@
 {{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/alice_d.wav }}
+Primjer 4. Primjeri kloniranih glasova dostupnih na //Respeecher// platformi \\
+[[https://www.respeecher.com/voice-marketplace?hsLang=en|izvor]]
+=== Aktualni radovi iz područja antiforenzike glasa ===
+\\
+**[[https://ieeexplore.ieee.org/document/9246264?fbclid=IwAR1Xoil3ctFf_hvMyzYQVURtx0dhzUsysHLG_mQOmYHIv_quuVL7Yys8cXg | NAUTILUS: A Versatile Voice Cloning System]]** \\
+U navedenom radu predstavljen je NAUTILUS - sustav sinteze govora koji može generirati iz tekstualnog ulaza ili iz audio zapisa proizvoljnog govornika. Posebnost sustava je treniranje enkodera i dekodera na skupu više govornika, čime se ostvaruje mogućnost kloniranja neviđenog glasa samo na temelju neoznačenog govora ciljanog govornika.
+**[[https://ieeexplore.ieee.org/abstract/document/9239750?fbclid=IwAR3IkAJvJ_EOTR8juUbGflg2wMiSIO1FF014ffdnGtKdtcCEWXH_ZG3LrLw | Research on Voice Cloning with a Few Samples]]** \\
+Za razliku od većine modela gdje je za kloniranje glasa potrebna velika računalna snaga, puno vremena i puno uzoraka, u ovom radu predstavljene su i testirane ideje kloniranja glasa temeljene na LPCNET modelu koji omogućuje kloniranje glasa na slabijem hardveru i na manjem broju uzoraka.
+**[[https://ieeexplore.ieee.org/document/9373282?fbclid=IwAR0Nae5UDmjPBHPH4WBMkdbfOy0OHzef29H01q3CJiZsfNXlezyiZ5EGRQA | Multilingual Speech Synthesis for Voice Cloning]]** \\
+U spomenutom radu naglasak je na probleme privatnosti i sigurnosti alata kloniranja glasa i glasovnih asistenata potpomognutim umjetnom inteligencijom.
+**[[https://ieeexplore.ieee.org/document/8999436?fbclid=IwAR2ozVYe2YS_h_DHPHippRDca0GCxSWfcCZhX5WOmXRdsGSYh2uG2IDAIxk | Deep Learning Serves Voice Cloning: How Vulnerable Are Automatic Speaker Veriﬁcation Systems to Spooﬁng Trials?]]** \\
+U radu je provedeno istraživanje koje provjerava pouzdanost sustava za automatsku verifikaciju govornika (ASV) na novim metodama sinteze baziranih na dubokim neuronskim mrežama. Autori u radu izražavaju zabrinutost jer projekti poput WaveNet, Deep Voice i Deep Loop uspijevaju generirati vrlo prirodne i kvalitetne glasove koji mogu klonirati identitet glasa.
+**[[https://ieeexplore.ieee.org/document/9747319 | Cloning One’s Voice Using Very Limited Data in the Wild]]** \\
+Problemi kojima se ovaj rad bavi su kloniranje glasa s ograničenom količinom podataka te kontrola stila i prozodije kloniranog glasa. Predstavljen je model Hieratron koji prozodiju i timbar modelira pomoću dva modula, što omogućava neovisnu kontrolu različitih karakteristika glasa. Hieratron za ograničenu količinu podataka daje bolje rezultate od tradicionalne metode u kojoj se karakteristike glasa modeliraju zajedno.
+**[[https://ieeexplore.ieee.org/document/9771377 | Neural Fusion For Voice Cloning]]** \\
+Uz ograničenu količinu podataka, teško je osigurati visoku kvalitetu i sličnost stvarnog i kloniranog glasa. U ovom radu predstavljena je arhitektura neuralne fuzije s ciljem rješavanja navedenog problema. Model neuralne fuzije sastoji se od tekstualnog kodera, akustičnog dekodera i referentnog kodera. Rezultati pokazuju da neuralna fuzija poboljšava sličnost stvarnog i kloniranog glasa.
+**[[https://ieeexplore.ieee.org/document/9573848 | Emotional Speech Cloning using GANs]]** \\
+Umjetno generiran govor često zvuči monotono. Ovaj radi bavi se problemom generiranja govora prožetog emocijama. Predstavljen je pristup u kojem se govor i emocije modeliraju kao dva različita entiteta. Prvi dio modela sadrži sintetizator glasa koji generira govor bez emocija koristeći što manje podataka. Izlaz se kombinira s nizom različitih emocija i predaje EmoGAN-u, modificiranoj verziji CycleGAN-a. Cilj je omogućiti dodavanje različitih emocija ovisno o kontekstu rečenice.
 ===== Detekcija kloniranog glasa =====
@@ Redak 83: / Redak 108: @@
   * dijarizacija govornika
       * otkrivanje koja osoba trenutno govori u slučaju kada se u snimci često izmjenjuje nekoliko osoba
-      * {{ https://streamable.com/uef39?|Primjer dijarizacije govornika}}
+      * [[ https://streamable.com/uef39?|Primjer dijarizacije govornika]]
   * detekcija lažnog govora
       * provjera radi li se o legitimnoj ili lažnoj snimci usporedbom sličnosti potencijalno lažnog govora sa stvarnim govorom
@@ Redak 109: / Redak 134: @@
 [7] [[https://github.com/resemble-ai/Resemblyzer]]
+[8] [[https://ieeexplore.ieee.org/document/9246264?fbclid=IwAR1Xoil3ctFf_hvMyzYQVURtx0dhzUsysHLG_mQOmYHIv_quuVL7Yys8cXg|NAUTILUS: A Versatile Voice Cloning System]], 2020.
+[9] [[https://ieeexplore.ieee.org/abstract/document/9239750?fbclid=IwAR3IkAJvJ_EOTR8juUbGflg2wMiSIO1FF014ffdnGtKdtcCEWXH_ZG3LrLw|Research on Voice Cloning with a Few Samples]], 2020.
+[10] [[https://ieeexplore.ieee.org/document/9373282?fbclid=IwAR0Nae5UDmjPBHPH4WBMkdbfOy0OHzef29H01q3CJiZsfNXlezyiZ5EGRQA|Multilingual Speech Synthesis for Voice Cloning]], 2021.
+[11] [[https://ieeexplore.ieee.org/document/8999436?fbclid=IwAR2ozVYe2YS_h_DHPHippRDca0GCxSWfcCZhX5WOmXRdsGSYh2uG2IDAIxk|Deep Learning Serves Voice Cloning: How Vulnerable Are Automatic Speaker Veriﬁcation Systems to Spooﬁng Trials?]], 2020.
+[12] [[https://ieeexplore.ieee.org/document/9747319|Cloning One’s Voice Using Very Limited Data in the Wild]], 2022.
+[13] [[https://ieeexplore.ieee.org/document/9771377|Neural Fusion For Voice Cloning]], 2022.
+[14] [[https://ieeexplore.ieee.org/document/9573848|Emotional Speech Cloning using GANs]], 2021.
 ~~DISCUSSION~~

racfor_wiki/fdd/antiforenzika_glasa.1654157886.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)