Sadržaj

Tehnike antiforenzike glasa

Sažetak

Audio snimke govora mogu biti od velike važnosti u forenzičkim istragama. Zadatak forenzičara je identifikacija govornika na snimci i sadržaja govora. Identifikacija govornika koristi fizičke značajke govora i biološke karakteristike glasa osobe kako bi se dobio otisak glasa (engl. voiceprint) . Tehnike antiforenzike glasa koriste se za skrivanje ili lažiranje identiteta govornika. Mogu se podijeliti na tehnike promjene značajki glasa i tehnike kloniranja glasa. Tehnike promjene značajki glasa uključuju promjenu intenziteta, boje, visine i drugih karakteristika i lakše ih je provesti. Tehnike kloniranja uključuju ekstrakciju otiska glasa, stvaranje umjetnog glasa te generiranje lažnih snimki ili dijelova snimke. Obično se temelje na umjetnoj inteligenciji. Forenzičar mora biti svjestan tehnika antiforenzike glasa kako bi mogao provesti kvalitetnu analizu materijala.

Uvod

Digitalni dokumenti danas su vrlo često korišteni kao dokazi u forenzičkim istragama. Da bi se prihvatili kao dokazi nužno je potvrditi njihovu autentičnost i integritet. Autentičnost znači da je dokument originalan, a integritet da ni na koji način nije mijenjan. Potvrda autentičnosti i integriteta je zadatak forenzičara. Razvoj raznih softvera za uređivanje omogućuje jednostavnu izmjenu sadržaja ili meta podataka digitalnih dokumenata. Antiforenzika uključuje sve postupke i metode korištene za ometanje forenzičke analize.

Ciljevi antiforenzike:

Skrivanje informacija može se provoditi i s ciljem osiguravanja privatnosti.

Utjecaj audio snimaka u forenzičkim istragama značajno je porastao u posljednjih nekoliko desetljeća. Kada su u pitanju audio snimke govora, cilj istrage je identifikacija govornika i sadržaja govora. Raznim tehnikama i alatima za manipuliranje audio snimaka moguće je sakriti identitet govornika, promijeniti sadržaj govora ili generirati lažne snimke govora. Ponekad je vrlo teško sa sigurnošću potvrditi autentičnost i integritet audio snimke.

Antiforenzika glasa

Jedan od glavnih zadataka forenzičara u procesu analize audio snimke govora je identifikacija govornika. Identifikacija govornika koristi fizičke značajke govora i biološke karakteristike glasa osobe kako bi se dobio otisak glasa (engl. voiceprint). Otisak glasa dobiva se pomoću spektrografa, uređaja koji kao produkt daje vizualni prikaz govora, spektrogram, koji prikazuje govor u funkciji vremena, frekvencije i glasovne energije. Otisak glasa je vrlo dobar identifikator, ali nije u potpunosti ekvivalentan otisku prsta jer je za dvije osobe moguće dobiti isti ili jako sličan otisak glasa. Tehnikama antiforenzike glasa mogu se promijeniti karakteristike glasa na snimci tako da osoba zvuči drugačije ili generirati potpuno nove snimke korištenjem otiska glasa druge osobe. Razlozi mogu biti izbjegavanje preuzimanja krivnje ili okrivljavanje druge osobe za nešto što nije rekla ili počinila. Razvoj umjetne inteligencije unaprijedio je tehnike manipuliranja i kloniranja glasa i time otežao posao forenzičara.

Slika 1. Primjer spektrograma izvor

Tehnike i alati

Tehnike antiforenzike glasa mogu se podijeliti u dvije glavne grupe:

Promjena značajki glasa uključuje mijenjanje visine, intenziteta, boje i drugih karakteristika glasa. Može se provesti pomoću alata za obradu audio snimki kao što su Audacity ili Pro Tools. Kloniranje glasa je složeniji postupak koji se sastoji od ekstrakcije značajki, odnosno otiska glasa iz jedne snimke te stvaranja umjetnog glasa. Umjetni glas se onda koristi za generiranje potpuno novih, lažnih snimki ili dijelova snimke. Tehnike kloniranja glasa najčešće se temelje na modelima dubokog učenja i koriste za stvaranje audio Deepfakeova. U nastavku su opisani neki od alata za kloniranje glasa. Postoji velika mogućnost zlouporabe tih alata za skrivanje ili krađu identiteta. Posljedice zlouporabe su posebno opasne ako se generirane snimke koriste kao dokaz na sudu jer je ponekad vrlo teško otkriti da je snimka umjetna.

Descript

Descript je alat za audio i video uređivanje. Jedan od ključnih elemenata Descripta je Lyrebird AI, softver za kloniranje glasa temeljen na umjetnoj inteligenciji. Lyrebird na temelju vrlo kratkog isječka govora može izgraditi umjetni glas. Primjenjuje se u kreiranju audio knjiga, za text-to-speech čitače i sl. Lyrebird AI može se isprobati u besplatnoj verziji alata Descript s limitom od tisuću riječi. Neograničeno korištenje moguće je u Pro verziji i cijena je 24 dolara mjesečno.

Primjer 1. Klonirani glas Petre Ilić dobiven pomoću alata Descript

Resemble AI

Resemble AI je alat za kloniranje glasa. Na temelju jednog ili više uzoraka izgrađuje umjetni glas. Iz legalnih i etičkih razloga, mora se tražiti dozvola osobe čiji se glas želi klonirati. Nakon izgradnje glasa, pomoću text-to-speech čitača generira se snimka govora. Ovaj alat omogućuje kreiranje više verzija istog glasa s različitim emocijama. Također, moguće je generirati govor na nekoliko različitih jezika. Kloniranje glasa pomoću alata Resebmle AI može se isprobati besplatno s limitom od 2000 riječi, odnosno oko dvije minute govora. Uzorci se moraju snimiti na Resebmle AI platformi. Za 30 dolara mjesečno moguće je generirati snimku govora duljine do dva sata.

Primjer 2. Klonirani glas Petre Ilić dobiven pomoću alata Resemble AI

Primjer 3. Primjeri kloniranih glasova dostupnih na Resemble AI platformi

Respeecher

Respeecher je, za razliku od prethodna dva, speech-to-speech alat. Prednost speech-to-speech konverzije je mogućnost generiranja dinamičnijeg i emocijama prožetog govora. Respeecher koristi obradu signala i duboko učenje za stvaranje umjetnog glasa i govora visoke kvalitete. Koristi se u produkciji filmova, video igara, audio knjiga i sl. Cijena alata Respeecher je 200 dolara mjesečno.

Speaking in the voice of Obama (Voice cloning)

Primjer 4. Primjeri kloniranih glasova dostupnih na Respeecher platformi
izvor

Aktualni radovi iz područja antiforenzike glasa


NAUTILUS: A Versatile Voice Cloning System
U navedenom radu predstavljen je NAUTILUS - sustav sinteze govora koji može generirati iz tekstualnog ulaza ili iz audio zapisa proizvoljnog govornika. Posebnost sustava je treniranje enkodera i dekodera na skupu više govornika, čime se ostvaruje mogućnost kloniranja neviđenog glasa samo na temelju neoznačenog govora ciljanog govornika.

Research on Voice Cloning with a Few Samples
Za razliku od većine modela gdje je za kloniranje glasa potrebna velika računalna snaga, puno vremena i puno uzoraka, u ovom radu predstavljene su i testirane ideje kloniranja glasa temeljene na LPCNET modelu koji omogućuje kloniranje glasa na slabijem hardveru i na manjem broju uzoraka.

Multilingual Speech Synthesis for Voice Cloning
U spomenutom radu naglasak je na probleme privatnosti i sigurnosti alata kloniranja glasa i glasovnih asistenata potpomognutim umjetnom inteligencijom.

Deep Learning Serves Voice Cloning: How Vulnerable Are Automatic Speaker Verification Systems to Spoofing Trials?
U radu je provedeno istraživanje koje provjerava pouzdanost sustava za automatsku verifikaciju govornika (ASV) na novim metodama sinteze baziranih na dubokim neuronskim mrežama. Autori u radu izražavaju zabrinutost jer projekti poput WaveNet, Deep Voice i Deep Loop uspijevaju generirati vrlo prirodne i kvalitetne glasove koji mogu klonirati identitet glasa.

Cloning One’s Voice Using Very Limited Data in the Wild
Problemi kojima se ovaj rad bavi su kloniranje glasa s ograničenom količinom podataka te kontrola stila i prozodije kloniranog glasa. Predstavljen je model Hieratron koji prozodiju i timbar modelira pomoću dva modula, što omogućava neovisnu kontrolu različitih karakteristika glasa. Hieratron za ograničenu količinu podataka daje bolje rezultate od tradicionalne metode u kojoj se karakteristike glasa modeliraju zajedno.

Neural Fusion For Voice Cloning
Uz ograničenu količinu podataka, teško je osigurati visoku kvalitetu i sličnost stvarnog i kloniranog glasa. U ovom radu predstavljena je arhitektura neuralne fuzije s ciljem rješavanja navedenog problema. Model neuralne fuzije sastoji se od tekstualnog kodera, akustičnog dekodera i referentnog kodera. Rezultati pokazuju da neuralna fuzija poboljšava sličnost stvarnog i kloniranog glasa.

Emotional Speech Cloning using GANs
Umjetno generiran govor često zvuči monotono. Ovaj radi bavi se problemom generiranja govora prožetog emocijama. Predstavljen je pristup u kojem se govor i emocije modeliraju kao dva različita entiteta. Prvi dio modela sadrži sintetizator glasa koji generira govor bez emocija koristeći što manje podataka. Izlaz se kombinira s nizom različitih emocija i predaje EmoGAN-u, modificiranoj verziji CycleGAN-a. Cilj je omogućiti dodavanje različitih emocija ovisno o kontekstu rečenice.

Detekcija kloniranog glasa

Alati za kloniranje glasa postaju sve bolji i bolji. Modeli dubokog učenja postaju inteligentniji i danas mogu generirati vrlo autentične glasove na temelju malog broja uzoraka. Ljudskom uhu lakše je prepoznati da se radi o umjetnom glasu što je snimka duža. Kod kratkih snimaka i snimaka lošije kvalitete s puno šuma, to je često teško primijetiti, pogotovo ako nemamo razloga sumnjati u legitimnost snimke. Postoje alati za verifikaciju glasa koji su često uspješniji od čovjeka u detekciji kloniranog glasa.

Američka tvrtka za informacijsku sigurnost, Pindrop, koristi sustav temeljen na dubokim neuronskim mrežama koji pokušava otkriti kolika je sličnost glasa na snimci i stvarnog glasa osobe za koji se sumnja da je kloniran. Ovaj alat također istražuje može li čovjek uopće proizvesti sve zvukove na snimci. Ovisno o kvaliteti snimke, svaka sekunda govora ima između 8000 i 50000 uzoraka koji se mogu analizirati. Pindrop pokušava pronaći elemente u govoru koji su u suprotnosti s mogućnostima čovjeka. Primjerice, dva glasa koja čovjek može proizvesti imaju minimalnu udaljenost jer ih fizički nije moguće brže izgovoriti. Također, sustavi dubokog učenja imaju problema s frikativima jer ih teško razlikuju od šuma. Frikativi su suglasnici koji se tvore tjeranjem zraka kroz uski kanal u grlu. U hrvatskom jeziku ih ima šest, a to su: z, ž, s, š, f, h. Ako alat pronađe neke od ovih pojava, velika je vjerojatnost da se radi o umjetnoj snimci.

Tvrtka Resemble AI je uz alat za kloniranje glasova, objavila i javno dostupan alat za detekciju umjetnih glasova Resemblyzer. Resemblyzer koristi strojno učenje za ekstrakciju reprezentacija uzoraka glasa visoke razine. Iz audio snimke govora generira vektor od 256 vrijednosti koji sadrži karakteristike glasa. Pomoću ovog vektora alat može usporediti sličnosti dva glasa i zaključiti tko govori u određenom trenutku.
Primjene alata:

Slika 5. Primjer detekcije lažnog govora. Šest istinitih i šest lažnih isječaka uspoređeno je s referentnom snimkom. Rezultati iznad određenog praga klasificirani su kao istiniti. Alat je napravio jednu pogrešku.

Zaključak

Cilj antiforenzike glasa je ometanje forenzičke istrage skrivanjem identiteta ili lažnim predstavljanjem. Tehnike antiforenzike glasa sve više i više napreduju. Tome najviše pridonosi razvoj umjetne inteligencije i alata za kloniranje glasa pomoću kojih se može generirati umjetni glas koji zvuči gotovo identično kao glas stvarne osobe. Ovakvi alati olakšavaju manipuliranje audio snimaka, a time otežavaju posao forenzičara i ponekad nije moguće za sigurnošću potvrditi je li snimka mijenjanja i radi li se uopće o glasu stvarne osobe ili umjetno generiranoj snimci. To je posebno problematično kada se audio snimke koriste kao dokazi na sudu. Kako bi obavio kvalitetnu analizu materijala, forenzičar mora biti svjestan ovakvih tehnika i alata. Alati za detekciju umjetnih audio snimaka mogu biti od velike pomoći.

Literatura

[1] Anti- Forensics: The Tampering of Media, 2020.

[2] Analysis of Voice Changes in Anti Forensic Activities Case Study: Voice Changer with Telephone Effect, 2020.

[3] Identifikacija govornika u forenzičkoj akustici i fonetici, 2017.

[4] Vocal Forgery in Forensic Sciences, 2009.

[5] Audio Deepfakes: Can Anyone Tell If They’re Fake?, 2020.

[6] Resemble AI launches voice synthesis platform and deepfake detection tool, 2019.

[7] https://github.com/resemble-ai/Resemblyzer

[8] NAUTILUS: A Versatile Voice Cloning System, 2020.

[9] Research on Voice Cloning with a Few Samples, 2020.

[10] Multilingual Speech Synthesis for Voice Cloning, 2021.

[11] Deep Learning Serves Voice Cloning: How Vulnerable Are Automatic Speaker Verification Systems to Spoofing Trials?, 2020.

[12] Cloning One’s Voice Using Very Limited Data in the Wild, 2022.

[13] Neural Fusion For Voice Cloning, 2022.

[14] Emotional Speech Cloning using GANs, 2021.