racfor_wiki:tehnike_izrade_deep_fake_videa – Računalna forenzika / Computer forensics

Sadržaj

Tehnike izrade deepfake videa

Tehnike izrade deepfake videa

Sažetak

Deepfake sadržaj umjetno je generirani sadržaj u kojem se osoba s originalnog videa ili slike zamjenjuje s nekom drugom osobom. Ovakvi sadržaji za cilj najčešće imaju širenje lažnih informacija i obmanu. Stvaraju se naprednim metodama dubokog učenja, najčešće korištenjem takozvanih autoenkodera (engl. autoencoders) ili generativnih suparničkih mreža (engl. Generative adversial networks, GAN). S obzirom da se deepfake većinom koristi u negativne svrhe, pokušava ih se detektirati kako bi ih se uklonilo s različitih društvenih mreža ili upozorilo da se radi o neautentičnom sadržaju.

Ključne riječi: deepfake, strojno učenje, duboko učenje, autoenkoderi, GAN

Uvod

Pojam deepfake odnosi se na umjetno stvoreni video nastao uvjerljivom izmjenom originalnog videa na način da se lice (i glas) neke osobe zamijeni s osobom koja je na originalnom videu. Naziv deepfake nastao je kao sraslica dviju riječi – deep - odnosi se na 'deep learning', odnosno duboko učenje čije se metode koriste za stvaranje ovakvih videa te riječi – fake – koja se odnosi na to da je video lažan i da je osoba stavljena u njega bez njezina odobrenja. Deepfake najčešće služi za obmanu i širenje lažnih informacija. Najčešća primjena je u pornografiji gdje se lica glumaca stavljaju u pornografska videa. Druga najčešća primjena deepfake videa je u političke svrhe – stvaraju se videi u kojima političari govore nešto što zapravo nisu rekli. Zbog toga su deepfake videi izazvali zabrinutost u političkom i poslovnom svijetu te se pokušavaju naći metode kako ih što lakše detektirati i ograničiti njihovu upotrebu. Iako postoje i pozitivne primjene deepfake videa, većinom se koriste u negativne svrhe i za sobom povlače brojna etička i moralna pitanja.

Tehnike generiranja deepfake videa temelje se na metodama dubokog učenja. Konkretno, koriste se generativni modeli čija je specifičnost da pokušavaju naučiti distribucije iz kojih dolaze pojedini primjeri. Generativni modeli koji se najčešće koriste u svrhu izrade deepfake videa su autoenkoderi i generativne suparnične mreže te su objašnjeni kasnije u tekstu.

Sljedeća dva slikovna zapisa predstavljaju videa, odnosno gifove nastale korištenjem deepfake tehnologije.

Primjene deepfake videa

Primjene deepfake videa su brojne i pritom većinom negativne. U početku su se najviše koristili u pornografiji gdje bi se u postojeća videa stavljala lica poznatih glumaca bez njihova dopuštenja s ciljem narušavanja ugleda ili novčane ucjene. Ubrzo su postali sve više zastupljeni i u politici – mnogi poznati političari, bili su žrtve deepfake-ova kako bi se lažirale njihove riječi. Cilj deepfake-ova u politici najčešće je manipulacija izbora. Još jedna opasna uporaba deepfake sadržaja je izrada sockpuppeta. Sockpuppeti su nepostojeće fiktivne osobe koje na internetu služe za obmanu; najčešće se koriste za manipuliranje javnog mišljenja, na način da sockpuppet kao fiktivni identitet zastupa, brani i podržava neku osobu ili organizaciju.

Još neke od primjena su: izrada Internet meme-ova, umjetnost, filmovi, aplikacije kao Swapface, FakeApp i slične aplikacije za stavljanje korisnikova lica u scene poznatih filmova i serija.

Tehnike izrade deepfake videa

Modeli u strojnom učenju mogu se podijeliti na diskriminativne i generativne. Dok generativni modeli modeliraju distribucije pojedinih klasa, diskriminativni modeli uče granice između klasa.

Diskriminativni modeli

Diskriminativni modeli uče granice između klasa. Oni izravno modeliraju vjerojatnost p(y|x) odnosno vjerojatnost da primjer x pripada klasi y. Neki od tipičnih diskriminativnih modela su SVM, logistička regresija, stabla odluke itd.

Generativni modeli

Generativni modeli modeliraju distribucije pojedinih klasa. Oni koriste zajedničku vjerojatnost (engl. joint probability) p(x,y) = p(y) * p(x|y). Iz zajedničke vjerojatnosti lako se dobije vjerojatnost da neki podatak x pripada klasi y – drugim riječima, generativni modeli neizravno modeliraju vjerojatnost p(y|x). Generativni modeli sadrže mnogo više informacija od diskriminativnih. S obzirom da uče distribucije pojedinih klasa, osim za klasifikaciju primjera, mogu se koristiti i za generiranje novih podataka te je upravo to njihova glavna odlika.

Generativni modeli koji se najčešće koriste za stvaranje deepfake videa su autoenkoderi i generativni supernički modeli (Generative Adversial Networks, GAN).

Slika ispod pokazuje opisanu razliku između diskriminativnih i generativnih modela.

Autoenkoderi

Autoenkoderi vrsta su dubokih generativnih neuronskih mreža čiji je glavni cilj naučiti mrežu koja što bolje kopira ulazni vektor(vektor je slika, video ili audio zapisan u obliku vektora). Izlaz autoenkodera nije ključna stavka ovdje – on će biti što vjernija kopija ulaza, ali ono što je od interesa je skriveni sloj koji izvlači bitne značajke ulaznih podataka. Te značajke mogu se primijeniti tamo gdje ih se ne može ručno označiti, te gdje su one možda i teške za interpretaciju čovjeku. Mreža te značajke sama uči, prilagođene su skupu za treniranje i kao takve pogodne za generiranje novih podataka.

Autoenkoderi se sastoje od 3 kompomente – enkodera, uskog grla (engl. bottleneck) i dekodera. Enkoder kodira ulaz i izvlači najbitnije latentne (skrivene) značajke iz ulaza. Dekoder uzima latentne značajke s izlaza enkodera i rekonstruira sliku. Bottleneck je latentni vektor koji nastaje kao izlaz enkodera, a koji se koristi kao ulaz dekodera.

Na slici ispod prikazana je arhitektura autoenkodera.

Generativne suparničke mreže

Generativne suparničke mreže, GAN-ovi, generativni su modeli čija je glavna namjena generiranje umjetnih uzoraka. GAN se sastoji od dvije neuronske mreže, mreže generator i mreže diskriminator. Te dvije mreže paralelno se treniraju u minimax igri – generator pokušava prevariti diskriminator, dok diskriminator pokušava otkriti prijevaru.

Ideja je sljedeća: generator generira podatak, naprimjer sliku, na temelju ulaznih podataka. Diskriminator zatim treba zaključiti je li ta slika generirana ili je originalna. Diskriminator bi trebao moći 'pogledati' sliku i zaključiti da pripada u jednu od dvije klase – fake ili not fake. Generator pokušava prevariti diskriminator, a diskriminator pokušava uočiti prijevaru. Njihovo natjecanje tjera ih da i jedna i druga mreža budu što bolje što rezultira time da generator generira realistične umjetne slike.

Slika ispod prikazuje arhitekturu GAN mreže.

Za generiranje deepfakeova pomoću opisanih modela, potrebno je imati dovoljan broj slika i videa na kojima se vidi lice osobe iz različitih kuteva i s različitim izrazima lica. Iz tih videa lako se stvara skup podataka na kojima će mreža učiti 'kako ubaciti nečije lice' u postojeći video. Ovakav skup podataka jednostavno je napraviti s obzirom da je dovoljno imati pristup slikama i videima s nečije društvene mreže.

Detekcija deepfake videa

Mnogi su načini prepoznavanja deepfake videa. Često se golim okom mogu uočiti neprirodnosti u pokretima usana i očiju, kao i neprirodni izgled kose i zubi. Također, ljudsko oko u stanju je prepoznati čudno osvjetljenje, neprirodno obojenje tona kože te nedostatak emocije u izrazima lica. Postoje mnogi machine learning detektori koji koriste gore navedene metode kako bi uspješno klasificirali sliku ili video u klase fake ili not fake. Takve detektore koriste mnoge društvene mreže poput Twittera i Facebooka. Google pak koristi alat za konverziju teksta u govor kako bi verificirao govornika.

Međutim, generatori deepfake videa sve više napreduju i rješavaju navedene nedostatke. Zbog toga je sve teže uočiti neautentične sadržaje pa se koriste sofisticiranije metode. Napredniji detektori koriste takozvane digitalne otiske (engl. digital fingerprint). Osim što originalni video može imati jedinstveni digitalni otisak koji ga razlikuje od generiranih videa, ustanovilo se da i deepfake videa, odnosno njihovi generatori, imaju svoje digitalne otiske s obzirom da svaki pojedini generator generira slike i videa na jedinstven način iz određene distribucije.

Alternativni način detektiranja deepfake sadržaja temelji se na korištenju modela koji procjenjuju puls, odnosno otkucaje srca osobe na slici na temelju suptilnih promjena u boji lica koje nastaju zbog protoka krvi u licu. Deepfake videa zasad ne mogu replicirati tu promjenu u boji kože zbog čega je ovo, bar zasad, dobar pristup za detekciju istih.

Zaključak

Deepfake sadržaji postali su dio ljudske svakodnevnice. Nastaju korištenjem naprednih metoda iz područja dubokog učenja koje se u zadnjih desetak godina neprestano razvija. U njima se krije velika opasnost - od uništavanja reputacije pojedinca, sabotiranja izbora do širenja propagande i socijalnog inženjeringa. Iako su deepfake modeli dosad bila fokusirani na stavljanje lica pojedinaca u videa, već postoje tehnologije koje su u stanju na videu izmijeniti izgled okoliša, vremenskih obilježja itd. U ovom trenu, takve tehnologije nedostupne su široj javnosti. Ova činjenica treba potaknuti ljude na razmišljanje jer je jasno da je sve lakše stvoriti i proširiti lažne informacije, a u budućnosti takvih sadržaja bit će sve više.

Literatura

[1] Wikipedia: Deepfake, siječanj 2021

[2] https://medium.com/analytics-vidhya/an-introduction-to-generative-deep-learning-792e93d1c6d4

[3] https://www.compthree.com/blog/autoencoder/

[4] https://developers.google.com/machine-learning/gan

[5] https://www.alanzucconi.com/2018/03/14/understanding-the-technology-behind-deepfakes

[6] https://www.livescience.com/65573-mona-lisa-deepfakes.html

[7] https://www.theguardian.com/technology/ng-interactive/2019/jun/22/the-rise-of-the-deepfake-and-the-threat-to-democracy

[8] https://us.norton.com/internetsecurity-emerging-threats-how-to-spot-deepfakes.html

racfor_wiki/tehnike_izrade_deep_fake_videa.txt · Zadnja izmjena: 2024/12/05 12:24 (vanjsko uređivanje)