Starije izmjene na obje strane
Starija izmjena
Novija izmjena
|
Starija izmjena
|
racfor_wiki:fdd:antiforenzika_glasa [2022/06/02 08:18] Juraj Petrović |
racfor_wiki:fdd:antiforenzika_glasa [2024/12/05 12:24] (trenutno) |
| |
| |
==== Descript ==== | |
| === Descript === |
| |
//[[https://www.descript.com|Descript]]// je alat za audio i video uređivanje. Jedan od ključnih elemenata //Descripta// je //Lyrebird AI//, softver za kloniranje glasa temeljen na umjetnoj inteligenciji. //Lyrebird// na temelju vrlo kratkog isječka govora može izgraditi umjetni glas. Primjenjuje se u kreiranju audio knjiga, za //text-to-speech// čitače i sl. | //[[https://www.descript.com|Descript]]// je alat za audio i video uređivanje. Jedan od ključnih elemenata //Descripta// je //Lyrebird AI//, softver za kloniranje glasa temeljen na umjetnoj inteligenciji. //Lyrebird// na temelju vrlo kratkog isječka govora može izgraditi umjetni glas. Primjenjuje se u kreiranju audio knjiga, za //text-to-speech// čitače i sl. //Lyrebird AI// može se isprobati u besplatnoj verziji alata //Descript// s limitom od tisuću riječi. Neograničeno korištenje moguće je u //Pro// verziji i cijena je 24 dolara mjesečno. |
| |
{{ https://46ba123xc93a357lc11tqhds-wpengine.netdna-ssl.com/wp-content/uploads/2019/09/descript-image-2.jpg?600x350 }} | {{ :racfor_wiki:fdd:descript.mp3 |}} |
| |
Slika 2. Descript [[https://voicebot.ai/2019/09/18/descript-acquires-lyrebird-and-lands-15-million-in- | Primjer 1. Klonirani glas Petre Ilić dobiven pomoću alata //Descript// |
funding-from-andreessen-horowitz-and-redpoint/|izvor]] | |
| |
==== Resemble AI ==== | === Resemble AI === |
//[[https://www.resemble.ai/|Resemble AI]]// je alat za kloniranje glasa. Na temelju jednog ili više uzoraka izgrađuje umjetni glas. Iz legalnih i etičkih razloga, mora se tražiti dozvola osobe čiji se glas želi klonirati. Nakon izgradnje glasa, pomoću //text-to-speech// čitača generira se snimka govora. Ovaj alat omogućuje kreiranje više verzija istog glasa s različitim emocijama. Također, moguće je generirati govor na nekoliko različitih jezika. | //[[https://www.resemble.ai/|Resemble AI]]// je alat za kloniranje glasa. Na temelju jednog ili više uzoraka izgrađuje umjetni glas. Iz legalnih i etičkih razloga, mora se tražiti dozvola osobe čiji se glas želi klonirati. Nakon izgradnje glasa, pomoću //text-to-speech// čitača generira se snimka govora. Ovaj alat omogućuje kreiranje više verzija istog glasa s različitim emocijama. Također, moguće je generirati govor na nekoliko različitih jezika. Kloniranje glasa pomoću alata //Resebmle AI// može se isprobati besplatno s limitom od 2000 riječi, odnosno oko dvije minute govora. Uzorci se moraju snimiti na //Resebmle AI// platformi. Za 30 dolara mjesečno moguće je generirati snimku govora duljine do dva sata. |
| |
[[https://www.youtube.com/watch?v=Y08OaZVfkYE&ab_channel=ResembleAI|How Voice Cloning Works (Resemble AI)]] | {{ :racfor_wiki:fdd:snimka1.ogg |}} |
| |
{{ https://www.visdee.com/wp-content/uploads/resemble-ai.jpg?600x350 }} | Primjer 2. Klonirani glas Petre Ilić dobiven pomoću alata //Resemble AI// |
| |
Slika 3. Resemble AI [[https://www.visdee.com/ai-dubbing-software/|izvor]] | {{ :racfor_wiki:fdd:saprjxqx.mp3 |}} |
| |
==== Respeecher ==== | {{ :racfor_wiki:fdd:ldbgdset.mp3 |}} |
//[[https://www.respeecher.com/product?hsLang=en/|Respeecher]]// je, za razliku od prethodna dva, //speech-to-speech// alat. Prednost //speech-to-speech// konverzije je mogućnost generiranja dinamičnijeg i emocijama prožetog govora. //Respeecher// koristi obradu signala i duboko učenje za stvaranje umjetnog glasa i govora visoke kvalitete. Koristi se u produkciji filmova, video igara, audio knjiga i sl. | |
| |
{{ https://www.youtube.com/watch?v=t5yw5cR79VA&ab_channel=respeecher?|Speaking in the voice of Obama (Voice cloning) }} | Primjer 3. Primjeri kloniranih glasova dostupnih na //Resemble AI// platformi |
| |
{{ https://miro.medium.com/max/1400/1*gh35fkmoplPDLBgtjoENnQ.png?600x330 }} | === Respeecher === |
| //[[https://www.respeecher.com/product?hsLang=en/|Respeecher]]// je, za razliku od prethodna dva, //speech-to-speech// alat. Prednost //speech-to-speech// konverzije je mogućnost generiranja dinamičnijeg i emocijama prožetog govora. //Respeecher// koristi obradu signala i duboko učenje za stvaranje umjetnog glasa i govora visoke kvalitete. Koristi se u produkciji filmova, video igara, audio knjiga i sl. Cijena alata //Respeecher// je 200 dolara mjesečno. |
| |
Slika 4. Respeecher [[https://respeecher.medium.com/respeecher-explained-the-speech-synthesis-software-for-film-tv-creators-969f1e090bc6|izvor]] | [[ https://www.youtube.com/watch?v=t5yw5cR79VA&ab_channel=respeecher?|Speaking in the voice of Obama (Voice cloning) ]] |
| |
Primjeri kloniranih glasova generiranih pomoću alata //Respeecher//: \\ | |
[[https://www.respeecher.com/voice-marketplace?hsLang=en|izvor]] | |
| |
{{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/deborah_d.wav }} | {{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/deborah_d.wav }} |
| |
{{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/alice_d.wav }} | {{ https://fs.hubspotusercontent00.net/hubfs/6187708/audition-voices/alice_d.wav }} |
| |
| Primjer 4. Primjeri kloniranih glasova dostupnih na //Respeecher// platformi \\ |
| [[https://www.respeecher.com/voice-marketplace?hsLang=en|izvor]] |
| |
| |
| === Aktualni radovi iz područja antiforenzike glasa === |
| \\ |
| **[[https://ieeexplore.ieee.org/document/9246264?fbclid=IwAR1Xoil3ctFf_hvMyzYQVURtx0dhzUsysHLG_mQOmYHIv_quuVL7Yys8cXg | NAUTILUS: A Versatile Voice Cloning System]]** \\ |
| U navedenom radu predstavljen je NAUTILUS - sustav sinteze govora koji može generirati iz tekstualnog ulaza ili iz audio zapisa proizvoljnog govornika. Posebnost sustava je treniranje enkodera i dekodera na skupu više govornika, čime se ostvaruje mogućnost kloniranja neviđenog glasa samo na temelju neoznačenog govora ciljanog govornika. |
| |
| **[[https://ieeexplore.ieee.org/abstract/document/9239750?fbclid=IwAR3IkAJvJ_EOTR8juUbGflg2wMiSIO1FF014ffdnGtKdtcCEWXH_ZG3LrLw | Research on Voice Cloning with a Few Samples]]** \\ |
| Za razliku od većine modela gdje je za kloniranje glasa potrebna velika računalna snaga, puno vremena i puno uzoraka, u ovom radu predstavljene su i testirane ideje kloniranja glasa temeljene na LPCNET modelu koji omogućuje kloniranje glasa na slabijem hardveru i na manjem broju uzoraka. |
| |
| **[[https://ieeexplore.ieee.org/document/9373282?fbclid=IwAR0Nae5UDmjPBHPH4WBMkdbfOy0OHzef29H01q3CJiZsfNXlezyiZ5EGRQA | Multilingual Speech Synthesis for Voice Cloning]]** \\ |
| U spomenutom radu naglasak je na probleme privatnosti i sigurnosti alata kloniranja glasa i glasovnih asistenata potpomognutim umjetnom inteligencijom. |
| |
| **[[https://ieeexplore.ieee.org/document/8999436?fbclid=IwAR2ozVYe2YS_h_DHPHippRDca0GCxSWfcCZhX5WOmXRdsGSYh2uG2IDAIxk | Deep Learning Serves Voice Cloning: How Vulnerable Are Automatic Speaker Verification Systems to Spoofing Trials?]]** \\ |
| U radu je provedeno istraživanje koje provjerava pouzdanost sustava za automatsku verifikaciju govornika (ASV) na novim metodama sinteze baziranih na dubokim neuronskim mrežama. Autori u radu izražavaju zabrinutost jer projekti poput WaveNet, Deep Voice i Deep Loop uspijevaju generirati vrlo prirodne i kvalitetne glasove koji mogu klonirati identitet glasa. |
| |
| **[[https://ieeexplore.ieee.org/document/9747319 | Cloning One’s Voice Using Very Limited Data in the Wild]]** \\ |
| Problemi kojima se ovaj rad bavi su kloniranje glasa s ograničenom količinom podataka te kontrola stila i prozodije kloniranog glasa. Predstavljen je model Hieratron koji prozodiju i timbar modelira pomoću dva modula, što omogućava neovisnu kontrolu različitih karakteristika glasa. Hieratron za ograničenu količinu podataka daje bolje rezultate od tradicionalne metode u kojoj se karakteristike glasa modeliraju zajedno. |
| |
| **[[https://ieeexplore.ieee.org/document/9771377 | Neural Fusion For Voice Cloning]]** \\ |
| Uz ograničenu količinu podataka, teško je osigurati visoku kvalitetu i sličnost stvarnog i kloniranog glasa. U ovom radu predstavljena je arhitektura neuralne fuzije s ciljem rješavanja navedenog problema. Model neuralne fuzije sastoji se od tekstualnog kodera, akustičnog dekodera i referentnog kodera. Rezultati pokazuju da neuralna fuzija poboljšava sličnost stvarnog i kloniranog glasa. |
| |
| **[[https://ieeexplore.ieee.org/document/9573848 | Emotional Speech Cloning using GANs]]** \\ |
| Umjetno generiran govor često zvuči monotono. Ovaj radi bavi se problemom generiranja govora prožetog emocijama. Predstavljen je pristup u kojem se govor i emocije modeliraju kao dva različita entiteta. Prvi dio modela sadrži sintetizator glasa koji generira govor bez emocija koristeći što manje podataka. Izlaz se kombinira s nizom različitih emocija i predaje EmoGAN-u, modificiranoj verziji CycleGAN-a. Cilj je omogućiti dodavanje različitih emocija ovisno o kontekstu rečenice. |
| |
===== Detekcija kloniranog glasa ===== | ===== Detekcija kloniranog glasa ===== |
| |
* dijarizacija govornika | * dijarizacija govornika |
* otkrivanje koja osoba trenutno govori u slučaju kada se u snimci često izmjenjuje nekoliko osoba | * otkrivanje koja osoba trenutno govori u slučaju kada se u snimci često izmjenjuje nekoliko osoba |
* {{ https://streamable.com/uef39?|Primjer dijarizacije govornika}} | * [[ https://streamable.com/uef39?|Primjer dijarizacije govornika]] |
* detekcija lažnog govora | * detekcija lažnog govora |
* provjera radi li se o legitimnoj ili lažnoj snimci usporedbom sličnosti potencijalno lažnog govora sa stvarnim govorom | * provjera radi li se o legitimnoj ili lažnoj snimci usporedbom sličnosti potencijalno lažnog govora sa stvarnim govorom |
| |
[7] [[https://github.com/resemble-ai/Resemblyzer]] | [7] [[https://github.com/resemble-ai/Resemblyzer]] |
| |
| [8] [[https://ieeexplore.ieee.org/document/9246264?fbclid=IwAR1Xoil3ctFf_hvMyzYQVURtx0dhzUsysHLG_mQOmYHIv_quuVL7Yys8cXg|NAUTILUS: A Versatile Voice Cloning System]], 2020. |
| |
| [9] [[https://ieeexplore.ieee.org/abstract/document/9239750?fbclid=IwAR3IkAJvJ_EOTR8juUbGflg2wMiSIO1FF014ffdnGtKdtcCEWXH_ZG3LrLw|Research on Voice Cloning with a Few Samples]], 2020. |
| |
| [10] [[https://ieeexplore.ieee.org/document/9373282?fbclid=IwAR0Nae5UDmjPBHPH4WBMkdbfOy0OHzef29H01q3CJiZsfNXlezyiZ5EGRQA|Multilingual Speech Synthesis for Voice Cloning]], 2021. |
| |
| [11] [[https://ieeexplore.ieee.org/document/8999436?fbclid=IwAR2ozVYe2YS_h_DHPHippRDca0GCxSWfcCZhX5WOmXRdsGSYh2uG2IDAIxk|Deep Learning Serves Voice Cloning: How Vulnerable Are Automatic Speaker Verification Systems to Spoofing Trials?]], 2020. |
| |
| [12] [[https://ieeexplore.ieee.org/document/9747319|Cloning One’s Voice Using Very Limited Data in the Wild]], 2022. |
| |
| [13] [[https://ieeexplore.ieee.org/document/9771377|Neural Fusion For Voice Cloning]], 2022. |
| |
| [14] [[https://ieeexplore.ieee.org/document/9573848|Emotional Speech Cloning using GANs]], 2021. |
| |
~~DISCUSSION~~ | ~~DISCUSSION~~ |
| |
| |