Sadržaj

Tehnike izrade deep fake videa

Sažetak

Deepfake tehnologije se koriste za stvaranje sintetičkih medija u kojemu se lica i glasovi glumaca ili drugih poznatih osoba mijenjaju s licima i glasovima drugih ljudi. Ove tehnologije se koriste za razne svrhe, od umjetničkih projekata do političkih lažnih vijesti. Bazira se na naprednim tehnikama umjetne inteligencije i dubokog učenja kako bi dostavila dojam realističnog medija za kojeg postaje problem raspoznati koliko je njen sadržaj istinit. Također, zbog svoje popularnosti, nastaju alati i aplikacije koje omogućuju širu javnu uporabu tih tehnologija za generiranje sadržaja na internetu širokih tematika i svrha. U ovom radu će se dati opis deepfake-a te će se objasniti tehnike i znanstvena teorija na kojoj je zasnivan. Opisati će se najpopularniji alati te kako se koriste i pružiti će se uvid u njihove prednosti i nedostatke.

Ključne riječi: Deepfake; autoencoders; GANs; DeepFaceLab; DeepSwap;

Uvod

Manipulacija fotografija je nastala u 19. stoljeću i vrlo ubrzo je primjenjena u filmskoj industriji. Razvojem tehnologije u 20. stoljeću i pojavom digitalnog medija razvijaju se nove tehnologije s kojima se pokušava povećati razina realnosti lažnih prikaza koji se predstavljaju kao istiniti. Lažni videozapisi se mogu koristiti za različite svrhe, uključujući političke lažne vijesti, kompromitiranje poznatih osoba i kreiranje neistinitih informacija. Oni mogu biti štetni za javno mišljenje, a ponekad mogu imati ozbiljne posljedice za pojedince ili društvo u cjelini.

Rani značajan projekt bio je program Video Rewrite[1], objavljen 1997. godine, koji je modificirao postojeću video snimku osobe koja govori kako bi prikazala tu osobu kako izgovara riječi sadržane u drugom audio zapisu. Bio je to prvi sustav koji je u potpunosti automatizirao ovu vrstu reanimacije lica, a to je učinio pomoću tehnika strojnog učenja za uspostavljanje veza između zvukova koje proizvodi subjekt videa i oblika lica subjekta.

Postupci lažiranja informacija i medija nisu neuobičajni, ali bitnu razliku naglašavaju tehnike koje se koriste za lažiranje. Jedan od najpoznatijih primjera lažiranja video sadržaja je pojava deepfake videa koji koriste napredne tehnike korištenja umjetne inteligencije i dubokog učenja kako bi proizveli ovu pojavu.

Deepfake

Deepfake [2] tehnologija predstavlja novi način stvaranja videozapisa koji omogućuje mijenjanje lica i glasa glumaca ili drugih poznatih osoba s licima i glasovima drugih ljudi. Ova tehnologija koristi se za različite svrhe, uključujući umjetničke projekte, političke lažne vijesti, te zabavne sadržaje.

Deepfake se koristi umjetnom inteligencijom i tehhnologijama dubokog učenja, posebno generativnih protivničkih mreža (GANs) [3] koje se koriste za generiranje slika, i autoencoderi [4] koji se koriste za pretvaranje lica i glasova iz jednog videa u druge.

Ova tehnologija je izazvala veliku pažnju u javnosti, jer je sposobna stvoriti vrlo realistične video zapise, često teško raspoznatljive od stvarnih. To je dovelo do zabrinutosti o mogućnosti zloupotrebe tehnologije za lažne vijesti i manipulaciju javnog mišljenja. Stoga je važno razvijati tehnologije za otkrivanje deepfake videa i promicati odgovornu upotrebu tehnologije. Iako deepfake tehnologija može biti korištena za neetične svrhe, također se koristi za kreativne projekte i istraživačke svrhe.

Anketa o deepfakeovima, objavljena u svibnju 2020., pruža vremensku traku kako je stvaranje i otkrivanje deepfakeova napredovalo u posljednjih nekoliko godina.[5] Anketa utvrđuje da su se istraživači usredotočili na rješavanje sljedećih izazova stvaranja deepfakea:

Generalizacija. Visokokvalitetni deepfakeovi često se postižu vježbanjem na satima snimke mete. Ovaj izazov je smanjiti količinu podataka za obuku i vrijeme za obuku modela potrebnog za proizvodnju kvalitetnih slika i omogućiti izvođenje obučenih modela na novim identitetima (nevidljivim tijekom obuke).

Trening u paru. Obuka nadziranog modela može proizvesti visokokvalitetne rezultate, ali zahtijeva uparivanje podataka. Ovo je proces pronalaženja primjera inputa i njihovih željenih izlaza iz kojih model može učiti. Uparivanje podataka je mukotrpno i nepraktično pri obuci o višestrukim identitetima i ponašanju lica. Neka rješenja uključuju obuku pod vlastitim nadzorom (upotrebom okvira iz istog videa), upotrebu neuparenih mreža kao što je Cycle-GAN ili manipulaciju mrežnih ugradnji.

Curenje identiteta. Ovdje se identitet vozača (tj. glumca koji kontrolira lice u rekonstrukciji) djelomično prenosi na generirano lice. Neka predložena rješenja uključuju mehanizme pažnje, učenje u nekoliko koraka, rastavljanje, pretvorbe granica i preskakanje veza.

Okluzije. Kada se dio lica začepi rukom, kosom, naočalama ili bilo kojim drugim predmetom, mogu se pojaviti artefakti. Uobičajena okluzija su zatvorena usta koja skrivaju unutrašnjost usta i zube. Neka rješenja uključuju segmentaciju slike tijekom obuke i slikanja.

Vremenska koherencija. U videozapisima koji sadrže deepfake mogu se pojaviti artefakti poput treperenja i podrhtavanja jer mreža nema kontekst prethodnih okvira. Neki istraživači daju ovaj kontekst ili koriste nove gubitke vremenske koherentnosti kako bi poboljšali realizam. Kako se tehnologija poboljšava, smetnje se smanjuju.

Općenito, očekuje se da će deepfake imati nekoliko implikacija na medije i društvo, medijsku produkciju, medijske reprezentacije, medijsku publiku, rod, zakon i regulativu te politiku.

Tehnike

Postoje različite tehnike za izradu deepfake videa, ali neke od najčešće korištenih su:

Generative Adversarial Networks (GANs): Ova tehnika koristi dvije neuralne mreža koje se natječu jedna protiv druge u stvaranju realističnih slika. Jedna mreža generira slike, dok druga mreža provjerava njihovu autentičnost.

Autoencoders: Ova tehnika koristi jednu neuralnu mrežu koja uči na primjerima lica i glasova poznatih osoba, a zatim se koristi za pretvaranje lica i glasa drugih osoba u lica i glasove poznatih osoba.

Generative Adversarial Networks (GANs)

Generative Adversarial Networks su klasa dubokog učenja modela koji se koriste za generiranje novih i jedinstvenih podataka, poput slika, videa i zvuka. GANs se sastoji od dva glavna dijela: generatora i diskriminatora [6].

Generator je neuronska mreža koja prima nasumični šum kao ulaz i generira nove podatke u obliku slika, videa ili zvuka. Generator se trenira da nauči podložnu distribuciju podataka koje pokušava generirati.

Diskriminator, s druge strane, je neuronska mreža koja se trenira da razlikuje između generiranih podataka i stvarnih podataka. Diskriminator prima i stvarne i generirane podatke kao ulaz i pokušava ih klasificirati kao stvarne ili lažne.

Obje mreže se treniraju istodobno u procesu koji se naziva protivničko treniranje. Generator pokušava generirati podatke koji će zavarati diskriminator, dok se diskriminator trudi točno klasificirati generirane podatke kao lažne. Ovaj proces se nastavlja dok generator ne bude u stanju generirati podatke koji su neodvojivi od stvarnih podataka.

Jedna od najpopularnijih i najpoznatijih primjena GAN-a je u području generiranja slika. GAN-ovi se mogu koristiti za generiranje realističnih slika predmeta, životinja i čak ljudi. Također su se koristi u području generiranja videa, gdje se mogu koristiti za generiranje realističnih videa ljudi i predmeta u pokretu.

GAN-ovi su se također koristili u drugim područjima, kao što su prirodni jezik i sinteza govora. Mogu se koristiti za generiranje teksta koji je sličan ljudskom pisanom tekstu i također za generiranje realističnog govora.

Autoencoders

Autoencoderi [7] su vrsta neuronske mreže koja se koristi za nevezano učenje. Glavni cilj autoencodera je naučiti komprimirano predstavljanje ulaznih podataka, nazvano grlo ili latentna reprezentacija.

Autoencoder se sastoji od dva glavna dijela: kodera i dekodera. Kodiratelj prima ulazne podatke i uči ih komprimirati u nižedimenzionalnu reprezentaciju. Dekodiratelj uzima ovu komprimiranu reprezentaciju i pokušava rekonstruirati izvorni ulazni podatak.

Proces učenja autoencodera se obavlja smanjenjem pogreške rekonstrukcije između izvornog ulaznog podatka i izlaza dekodera. Ovaj proces prisiljava koder da nauči komprimiranu reprezentaciju koja prikuplja najvažnije značajke ulaznih podataka.

Autoencoderi imaju nekoliko primjena u različitim područjima, kao što su kompresija slika i videa, detekcija anomalija i učenje značajki.

U kompresiji slika i videa, autoencoderi se mogu koristiti za smanjenje veličine podataka učenjem kompaktne reprezentacije slike ili videa. Ovo može biti korisno u situacijama gdje je pohranjivanje ili prijenos podataka važno.

U detekciji anomalija, autoencoderi se mogu koristiti za otkrivanje uzoraka u podacima koji nisu tipični za normalne podatke. Ovo može biti korisno u situacijama poput otkrivanja prijevara ili sustava praćenja u industrijskim okruženjima.

U učenju značajki, autoencoderi se mogu koristiti za učenje korisnih značajki iz ulaznih podataka, što se može koristiti u drugim zadacima, poput klasifikacije. Ovo može biti korisno u situacijama poput prepoznavanja slika ili govora.

Alati za izradu

Deepfake videi se stvaraju korištenjem različitih alata i tehnika. Ti alati variraju od jednostavnih programa za uređivanje slika do složenih algoritama dubokog učenja. Najpopularniji alati za deepfake su oni koji koriste tehnike dubokog učenja za analizu značajki lica u izvornoj slici i ciljnoj slici, a zatim zamjenjuju lice u izvornoj slici s licem iz ciljne slike. Ovi alati uključuju DeepFaceLab i DeepSwap. Ti alati su dizajnirani da budu pristušačni korisnicima i jednostavni za upotrebu, što omogućuje čak i onima s malo tehničkog iskustva da stvaraju realistične i uvjerljive deepfake videe. Osim toga, mnogi od ovih alata su open-source i imaju aktivne zajednice razvojnih programera i korisnika koji doprinose njihovom razvoju i dijele resurse i tutorijale. Međutim, važno je koristiti te alate odgovorno i izbjegavati stvaranje lažnih ili zavaravajućih sadržaja, jer korištenje tehnologije deepfake-a je u nekim zemljama strogo regulirano i moglo bi dovesti do pravnih posljedica.

DeepFaceLab

DeepFaceLab[8] je vodeći softver za izradu deepfake videozapisa. Radi se o besplatnoj i otvorenoj aplikaciji za generiranje umjetnih lica koja koristi tehnologiju dubokog učenja. Razvijena je od strane skupine hakera i entuzijasta koji se bave generativnim modelima lica.

Aplikacija se koristi za stvaranje deepfake videa, što znači da koristi duboko učenje za izmjenu lica u videozapisu. To se može postići generiranjem 3D modela lica iz slika i korištenjem tih modela za “prekrivanje” lica u videozapisu.

DeepFaceLab je relativno jednostavna za korištenje, a korisnici mogu koristiti bilo koju sliku ili videozapis kao izvor podataka za generiranje modela lica. Aplikacija također dolazi s nekoliko različitih algoritama koji se mogu koristiti za generiranje lica, što omogućuje korisnicima da prilagode svoj rad prema potrebama.

S više od 13 000 zvjezdica na GitHubu, DeepFaceLab se pojavio kao popularno rješenje za potrošačko i profesionalno stvaranje deepfakea. Uspjeh DeepFaceLaba proizlazi iz ideje u dizajnu koji uravnotežuje brzinu i jednostavnost korištenja te procvat računalnog vida u prepoznavanju lica, usklađivanju, rekonstrukciji, segmentaciji itd.

Postoje četiri glavne karakteristike iza njegove implementacije:

Praktičnost. DeepFaceLab nastoji iskoristiti svoje cjevovode, uključujući učitavač i obradu podataka, model treniranja i naknadnu obradu, što je lakše i produktivnije moguće. Za razliku od drugih sustava zamjene lica, DeepFaceLab pruža kompletan alat naredbenog razvoja sa svim aspektima cjevovoda koji se mogu implementirati na način koji korisnici odaberu. Ljudi bi mogli postići glatkoću i fotorealistični rezultati zamjene lica bez potrebe za odabranim značajkama, ako slijede postavke tijeka rada, ali samo uz potrebu dva videozapisa: izvorni video (src) i odredišni video (dst) bez ponovnog zahtjeva za uparivanje istog izraza lica između src i dst.

Široka inženjerska potpora. Neke praktične mjere dodane su za poboljšanje performansi: podrška za više GPU priključaka, obuka polupreciznosti, upotreba prikvačene CUDA memorije za poboljšanje propusnosti, korištenje višestrukih dretvi za ubrzanje grafičkih operacija i obradu podataka. Čak i računaklo s 2 GB VRAM-a također može biti uspješan u izradi zamjene lica.

Proširivost Kako bi se ojačala fleksibilnost rada DeepFaceLaba protok i privlačenje interesa istraživačke zajednice, korisnici mogu slobodno zamijeniti bilo koju komponentu DeepFaceLaba koja ne ispunjava njihove zahtjeve. Većina njegovih modula su dizajnirani da se mogu zamjeniti i lako nadograditi. Na primjer, ljudi bi mogli pružiti noviji detektor lica za postizanje boljih performansi u otkrivanju lica s ekstremnim kutovima ili vanjskim područjima.

Skalabilnost. Imati dobre skupove podataka ključno je za zadatak zamjene lica. Općenito, što su skupovi podataka veći, to će se postići bolji konačni rezultati. Međutim, rezultati koji se izravno izvlače od src i dst su uvijek sa šumovima, što značajno može naštetiti konačnoj kvaliteti. S obzirom na složenu situaciju DeepFaceLab pruža niz mjera za čišćenje skupova podataka. Uz ove mjere, DeepFaceLab smanjuje skalabilnost i može čak podržati skupove podataka velikih razmjera te provesti zamjenu lica kinematografske kvalitete na temelju velikih skupova podataka.

DeepSwap

DeepSwap[9] je deepfake softver koji koristi tehnike dubokog učenja za generiranje realističnih zamjena lica. Poznat je po svom pristupačnom korisničkom sučelju i sposobnosti stvaranja visokokvalitetnih deepfake-ova.

Jedna od ključnih značajki DeepSwap-a je njegova sposobnost izvođenja zamjene lica u stvarnom vremenu, što olakšava korisnicima da vide rezultate svojih uređaja i da naprave prilagodbe po potrebi. DeepSwap također koristi arhitekturu neuronske mreže koja je posebno dizajnirana za rad s licima, što mu omogućuje generiranje preciznijih i realističnijih zamjena lica.

Još jedna značajka DeepSwap-a je da koristi tehniku poznatu kao “poravnavanje lica” koja poravnava lica u izvornim i ciljnim slicama. Ova tehnika također omogućuje DeepSwap-u da se snalazi sa slikama s različitim uvjetima osvjetljenja, položajima i izrazima lica.

DeepSwap također nudi različite alate za fino podešavanje postupka zamjene lica, kao što su korekcija boje, podešavanje svjetline i glađenje kože. To omogućuje korisnicima da postignu još bolji i realističniji izgled svojih videa. Osim toga, DeepSwap nudi već istrenirani model koji se može koristiti za brzu i jednostavnu zamjenu lica, što je korisno za korisnike koji žele brzo stvoriti deepfake video bez potrebe za treniranjem vlastitog modela.

Zaključak

Deepfake videozapisi se brzo razvijaju i imaju potencijal promijeniti način na koji stvaramo i konzumiramo medije. Ovi su alati korisnicima olakšali stvaranje realističnih i uvjerljivih deepfake videozapisa, a neki čak mogu izvršiti zamjenu lica u stvarnom vremenu.Međutim, uz mogućnost stvaranja vrlo uvjerljivih deepfake videa dolazi i mogućnost zlouporabe. Deepfakeovi se mogu koristiti za stvaranje zavaravajućeg i lažnog sadržaja, koji se može koristiti za širenje dezinformacija ili lažno predstavljanje pojedinaca. To je dovelo do poziva na donošenje propisa i zakona kako bi se spriječilo zlonamjerno korištenje.

Budućnost korištenja umjetne inteligencije i dubokog učenja u stvaranju medijskog sadržaja je nepredvidiva. Deepfake tehnologije predstavljaju tek početak tog aspekta te će se sa daljnjim razvojem sigurno proizvesti kvalitetnija i preciznija metodologija izrade medijskih sadržaja. Iako tehnologija za lažiranje video sadržaja postaje sve sofisticiranija, postoje načini za prepoznavanje lažnih videozapisa. Neki od tih načina uključuju analizu slike i zvuka, te korištenje algoritama za otkrivanje neprirodnih pokreta ili promjena u licu. Međutim, važno je da javnost bude svjesna opasnosti lažnih videozapisa i da se poduzmu mjere za sprječavanje njihovog širenja. To uključuje promicanje odgovorne upotrebe tehnologije, kao i podizanje svijesti o prepoznavanju lažnih videozapisa. Kako se tehnologija nastavlja razvijati, bit će ključno uspostaviti ravnotežu između njezinih prednosti i potencijalnih rizika.

Literatura

[1] Bregler, Christoph; Covell, Michele; Slaney, Malcolm (1997). "Video Rewrite: Driving Visual Speech with Audio". Proceedings of the 24th Annual Conference on Computer Graphics and Interactive Techniques

[2] Brandon, John (16 February 2018). "Terrifying high-tech porn: Creepy 'deepfake' videos are on the rise". Fox News.

[3] Aggarwal, Mittal, Battineni; Generative adversarial network: An overview of theory and applications

[4] Kietzmann, J.; Lee, L. W.; McCarthy, I. P.; Kietzmann, T. C. (2020). "Deepfakes: Trick or treat?" (PDF). Business Horizons

[5] Mirsky, Yisroel; Lee, Wenke (12 May 2020). "The Creation and Detection of Deepfakes: A Survey". ACM Computing Surveys

[6] "Vanilla GAN (GANs in computer vision: Introduction to generative learning)". theaisummer.com. AI Summer. April 10, 2020.

[7] Kramer, Mark A. (1991). "Nonlinear principal component analysis using autoassociative neural networks"

[8] Github Repository: DeepFaceLab

[9] DeepSwap Official Website