====== Forenzika u vremenu AI-deepfake dokaza ====== ===== Sažetak ===== Eksponencijalni razvoj generativne umjetne inteligencije (GenAI) doveo je do stvaranja sofisticiranih sintetičkih medija poznatih kao "Deepfakes". Ovi mediji, kreirani pomoću arhitektura dubokog učenja poput generativnih suparničkih mreža (GAN) i difuzijskih modela, predstavljaju značajan izazov za digitalnu forenziku jer dovode u pitanje dosadašnju pouzdanost vizualnih dokaza. Ovaj rad analizira tehnološki okvir nastanka lažnih zapisa, identificira ključne forenzičke artefakte u vizualnoj i audio domeni te raspravlja o pravnim izazovima očuvanja lanca dokaza u kaznenom postupku. Kroz seminar se demonstrira i praktična primjena algoritama računalnog vida za detekciju anomalija na razini piksela. ---- ===== 1. Uvod: Nova era digitalne obmane ===== U modernom informacijskom društvu, digitalni video i audio zapisi predstavljaju zlatni standard materijalnih dokaza. Od snimaka nadzornih kamera (CCTV) do audio zapisa presretnutih razgovora, pravosudni sustav snažno se oslanja na pretpostavku da je digitalni zapis vjeran prikaz stvarnosti. Međutim, ulaskom u treće desetljeće 21. stoljeća, suočavamo se s fenomenom koji neki autori opisuju kao "kolaps informacijskog ekosustava". Pojam **Deepfake** (kovanica od riječi "Deep Learning" i "Fake") označava sintetičke medije u kojima je osoba na postojećoj slici ili videu zamijenjena likom druge osobe koristeći umjetne neuronske mreže. Iako je manipulacija fotografijama stara koliko i sama fotografija, današnja tehnologija razlikuje se u tri ključna aspekta: - **Demokratizacija:** Alati su javno dostupni, besplatni i ne zahtijevaju duboko tehničko predznanje. - **Realizam:** Kvaliteta generiranih zapisa često nadilazi ljudsku percepciju. - **Skalabilnost:** Moguće je automatizirano generirati tisuće lažnih zapisa u kratkom vremenu. Glavni cilj ovog seminarskog rada nije samo opisati prijetnju, već definirati jasne metodološke korake koje forenzičar mora poduzeti kako bi razlikovao autentični zapis od sintetičkog. Postavlja se pitanje pouzdanosti ljudske percepcije i algoritamskih metoda u analizi digitalnih dokaza. ===== 2. Tehnološka arhitektura generiranja ===== Da bismo razumjeli kako detektirati manipulaciju, potrebno je dubinski razumjeti proces njezina nastanka. Deepfake tehnologija temelji se na složenim matematičkim operacijama unutar višeslojnih neuronskih mreža. ==== 2.1. Varijacijski autoenkoderi (VAE) ==== Prvi val Deepfake aplikacija (poput one koja se pojavila na Redditu 2017. godine) koristio je autoenkodere. Riječ je o vrsti neuronske mreže koja uči "sažeti" (komprimirati) ulazne podatke u prikaz niske dimenzije. Proces se sastoji od dva dijela: * **Encoder (Koder):** Uzima sliku lica (npr. lica osobe A) i pretvara je u latentni vektor tj. u niz brojeva koji predstavljaju ključne značajke tog lica (razmak očiju, oblik nosa, položaj usana). * **Decoder (Dekoder):** Uzima taj latentni vektor i pokušava iz njega rekonstruirati originalnu sliku. Ključni mehanizam kod zamjene lica je u korištenju **dijeljenog enkodera** i **dva različita dekodera**. Mreža nauči "pročitati" izraze lica osobe A, ali se za rekonstrukciju koristi dekoder koji je treniran na licu osobe B. Rezultat je lice osobe B koje radi mimiku osobe A. {{ :racfor_wiki:seminari2025:autoencoder_process.jpg?400 |Slika 1: Arhitektura Autoenkodera. Gore: Proces treniranja gdje se uče značajke oba lica. Dolje: Proces generiranja gdje se latentne značajke lica A rekonstruiraju pomoću Decodera B.}}\\ **Slika 1:** Arhitektura autoenkodera. Gore: Proces treniranja gdje se uče značajke oba lica. Dolje: Proces generiranja gdje se latentne značajke lica A rekonstruiraju pomoću Decodera B. ==== 2.2. Generativne suparničke mreže (GAN) ==== Naprednija metoda, koju je 2014. predstavio Ian Goodfellow, omogućila je znatno višu razinu realizma. GAN arhitektura temelji se na **teoriji igara** (Game Theory), točnije na igri nulte sume između dva suprotstavljena modela: - **Generator (G):** Njegov cilj je stvoriti lažni uzorak (sliku) koji je toliko dobar da će prevariti diskriminator. On na ulazu ne vidi stvarne slike, već nasumični šum (random noise vector). - **Diskriminator (D):** Njegov zadatak je klasifikacija. On dobiva miks pravih slika iz baze podataka i lažnih slika od generatora te mora pogoditi koja je koja. {{ :racfor_wiki:seminari2025:gan-arhitecture.jpg?400 }} \\ **Slika 2:** Shematski prikaz GAN mreže. Generator i diskriminator su u konstantnom sukobu, pri čemu generator uči na povratnoj informaciji od diskriminatora. Kroz tisuće ciklusa učenja, generator uči na svojim greškama. Ako diskriminator lako prepozna lažnu sliku, generator prilagođava svoje parametre (weights and biases) putem procesa zvanog **povratna propagacija pogreške (Backpropagation)**. Na kraju procesa, generator stvara slike koje su statistički nerazlučive od stvarnih. ==== 2.3. Difuzijski modeli (Stable Diffusion) ==== Najnovija generacija alata (od 2023. nadalje) koristi difuzijske modele. Oni funkcioniraju dodavanjem Gaussovog šuma slici dok ona ne postane neprepoznatljiva, a zatim uče obrnuti proces tj. uklanjanje šuma kako bi se dobila čista slika. Ovi modeli su superiorni u generiranju tekstura kože i osvjetljenja, što ih čini iznimno teškima za detekciju. ===== 3. Forenzički artefakti i metode detekcije ===== Unatoč napretku AI modela, oni nisu savršeni. Ostavljaju tragove, tzv. **artefakte**, koje vješti forenzičar može uočiti analizom na tri razine: semantičkoj, fizičkoj i digitalnoj. ==== 3.1. Vizualni i biološki artefakti (semantička razina) ==== AI modeli uče na temelju 2D slika s interneta, zbog čega često nemaju razumijevanje 3D fizike ili ljudske biologije. * **Problem treptanja:** Rani modeli nisu generirali treptanje jer su trenirani na fotografijama gdje ljudi uglavnom imaju otvorene oči. Iako je ovo ispravljeno, frekvencija treptanja kod deepfakeova često ne korelira s prirodnim spontanim treptanjem. * **Fotopletizmografija (PPG):** Ovo je napredna metoda detekcije. Ljudsko srce pumpa krv, što uzrokuje mikroskopske promjene u boji kože i refleksiji svjetla na licu koje su nevidljive golom oku, ali vidljive kameri. Deepfake algoritmi generiraju samo teksturu kože, ali ne repliciraju ovaj suptilni biološki signal pulsa. Analizom videozapisa moguće je utvrditi "nedostatak pulsa" kod subjekta. * **Zubi i oči:** Generativni modeli često imaju problema s detaljima visoke frekvencije. Zubi se u lažnim videima često pojavljuju kao jedna bijela masa bez jasnih razmaka između zuba. Zjenice mogu biti nepravilnog oblika (ne-kružne) ili imati različite refleksije, što je fizički nemoguće ako je izvor svjetla isti. ==== 3.2. Frekvencijska analiza (digitalna razina) ==== U situacijama kada vizualna procjena nije dovoljna, forenzička analiza oslanja se na matematičke metode. Digitalna slika nije ništa drugo nego matrica brojeva. Primjenom **diskretne Fourierove transformacije (DFT)** ili **kosinusne transformacije (DCT)**, sliku prebacujemo iz prostorne domene u frekvencijsku domenu. {{ :racfor_wiki:seminari2025:gan-artifacts.png?400 |}} \\ **Slika 3:** Multimodalna analiza. Gore: Vidljivi artefakti na uhu (zamućenje i stapanje tekstura). Dolje: Fourierov spektar koji otkriva mrežaste anomalije nastale procesom up-samplinga u GAN mreži. Deepfake slike, posebno one nastale GAN-ovima, često pokazuju abnormalnosti u visokim frekvencijama. To je posljedica operacije **Up-samplinga** (povećanja rezolucije) unutar generatora, koja ostavlja karakteristične uzorke nalik šahovnici u spektru frekvencija, što je jasan znak da slika nije nastala prirodnim putem na senzoru kamere. ===== 4. Praktična primjena: automatizirana analiza koda ===== U sklopu ovog rada prikazana je konceptualna Python skripta koja koristi biblioteku **OpenCV** za analizu distribucije boja na licu, što može biti prvi indikator tzv. "blending" artefakata (grešaka nastalih pri stapanju lažnog lica s pozadinom). import cv2 import numpy as np from matplotlib import pyplot as plt def forensic_histogram_analysis(video_path, frame_number): """ Funkcija za ekstrakciju okvira i analizu histograma boja. Nagla odstupanja u histogramu mogu indicirati manipulaciju. """ cap = cv2.VideoCapture(video_path) cap.set(cv2.CAP_PROP_POS_FRAMES, frame_number) ret, frame = cap.read() if not ret: print("Greška pri učitavanju videa.") return # Konverzija u YCrCb prostor boja (često se koristi u forenzici kože) # Y = luma (svjetlina), Cr/Cb = chroma (boja) ycrcb_image = cv2.cvtColor(frame, cv2.COLOR_BGR2YCrCb) # Razdvajanje kanala y, cr, cb = cv2.split(ycrcb_image) # Prikaz statistike za Chrominance kanale print(f"Prosjek Cr kanala: {np.mean(cr)}") print(f"Varijanca Cr kanala: {np.var(cr)}") # Detekcija anomalija: sintetička lica često imaju manju varijancu boja if np.var(cr) < 150: # Arbitrarni prag za primjer print("[ALARM] Detektirana niska varijanca boje - moguća sintetička koža.") else: print("[OK] Varijanca boje unutar prirodnih parametara.") cap.release() # Pokretanje analize na sumnjivom dokazu forensic_histogram_analysis('dokazni_materijal_case_404.mp4', 120) **Objašnjenje koda:** Gornji kod učitava videozapis i izolira specifičan kadar. Ključni korak je konverzija iz standardnog RGB modela u **YCrCb** model boja. Zašto? Zato što RGB miješa informaciju o svjetlini i boji. U forenzici ljudske kože, YCrCb je preferiran jer odvaja osvjetljenje (Y) od informacije o boji (Cr i Cb). Ljudska koža ima vrlo specifičan potpis u Cr/Cb kanalima. Deepfake algoritmi često "zaglađuju" ten, smanjujući prirodni šum i nepravilnosti kože, što rezultira neprirodno niskom varijancom (raspršenjem) u podacima o boji. Skripta izračunava tu varijancu i, ako je ona preniska, podiže alarm da se radi o potencijalno umjetno generiranoj teksturi. ===== 5. Audio forenzika: kloniranje glasa ===== Dok je video manipulacija vizualno atraktivna, audio manipulacija predstavlja možda i veću neposrednu sigurnosnu prijetnju, posebno u korporativnom sektoru. Moderni **Text-to-Speech (TTS)** sustavi poput modela **Tacotron 2** ili **VALL-E** mogu klonirati nečiji glas na temelju samo tri sekunde originalnog audio zapisa. {{ :racfor_wiki:seminari2025:comparison-of-wave-representation-spectrogram.png?400 |}} \\ **Slika 4:** Usporedba autentičnog i sintetičkog zvuka. Prvi red: Originalni valni oblik i puni spektrogram. Drugi i treći red: Deepfake zapisi (Wav2Lip, SV2TTS) pokazuju gubitak podataka u visokim frekvencijama i 'mutne' MFCC značajke. Forenzička analiza audija fokusira se na: * **Analizu spektrograma:** Traženje "rezova" u visokim frekvencijama (iznad 16kHz) jer mnogi modeli generiraju zvuk samo do određene frekvencije. * **Analizu disanja:** Ljudi moraju uzeti dah dok govore. Sintetički glasovi često govore duge rečenice bez pauze za udah ili su ti udasi ubačeni na neprirodna mjesta. * **Mikro-tremore:** Ljudske glasnice proizvode specifične mikro-vibracije koje su jedinstvene za svaku osobu. Sintetički glas je često "previše savršen" i linearan. ===== 6. Studije slučaja ===== Teoriju je najbolje potkrijepiti primjerima iz stvarne prakse koji demonstriraju modus operandi počinitelja. === Slučaj 1: Prijevara direktora u Velikoj Britaniji (2019) === Ovo je bio prvi zabilježeni slučaj velike krađe korištenjem AI-a. Izvršni direktor energetske tvrtke primio je poziv od svog nadređenog iz matične tvrtke u Njemačkoj. Glas je bio identičan – imao je isti njemački naglasak i melodiju govora. **Napad:** Glas je zatražio hitan transfer 220.000 eura na račun dobavljača u Mađarskoj. **Ishod:** Direktor je izvršio uplatu. Prijevara je otkrivena tek kada je "glas" zvao ponovno tražeći još novca, ali ovaj put s drugog broja. **Forenzički zaključak:** Istraga je pokazala da su napadači koristili komercijalni softver za kloniranje glasa treniran na javnim nastupima njemačkog direktora. === Slučaj 2: Deepfake video Volodimira Zelenskog (2022) === Tijekom sukoba u Ukrajini, hakeri su kompromitirali ukrajinsku informativnu web stranicu i uploadali video u kojem predsjednik Zelensky poziva vojnike na polaganje oružja. **Detekcija:** Video je bio niske kvalitete (Deepfake niske rezolucije). Forenzičari i javnost odmah su uočili nesrazmjer između veličine glave i tijela, kao i neprirodnu statičnost tijela dok se glava pomicala. **Važnost:** Iako tehnički loš, ovaj pokušaj demonstrirao je potencijal Deepfakea kao oružja u hibridnom ratovanju i dezinformacijskim kampanjama. ===== 7. Pravni okvir i dokazna snaga ===== Tehnologija se razvija eksponencijalno, dok se zakonodavstvo mijenja linearno. Ipak, Europska unija predvodi globalne napore u regulaciji. ==== 7.1. EU AI Act (Akt o umjetnoj inteligenciji) ==== Ovaj pionirski zakon klasificira AI sustave prema razini rizika. Sustavi koji generiraju Deepfake sadržaj (uključujući ChatGPT, Midjourney, itd.) podliježu **obvezama transparentnosti**. To znači da sintetički sadržaj mora biti jasno označen (npr. vodenim žigom ili metapodacima) kako bi korisnik znao da komunicira s strojem. Kršenje ovih odredbi povlači drakonske novčane kazne. ==== 7.2. Izazov "The Liar's Dividend" ==== Najveći pravni izazov koji Deepfake donosi nije samo to što lažni dokazi mogu proći kao pravi, već obrnuto. Fenomen **"Liar's Dividend"** opisuje situaciju u kojoj počinitelj stvarnog kaznenog djela (npr. političar uhvaćen u primanju mita na videu) na sudu tvrdi: "To nisam ja, to je Deepfake!". Zbog postojanja ove tehnologije, stvara se opravdana sumnja za svaki digitalni dokaz, čime se otežava posao tužiteljstvu. ==== 7.3. Lanac skrbništva ==== Kako bi se digitalni dokaz priznao na sudu u RH, ključan je integritet lanca skrbništva: - **Akvizicija:** U praksi digitalne forenzike dokaz se u pravilu hashira odmah po preuzimanju - **Dokumentacija:** Svaki pristup datoteci mora biti zabilježen. - **Ponovljivost:** Metoda kojom je vještak utvrdio da je video lažan mora biti znanstveno utemeljena i ponovljiva od strane drugog, neovisnog vještaka. ===== 8. Zaključak ===== Forenzika se u doba generativne umjetne inteligencije suočava s kontinuiranom dinamikom nadmetanja između napada i obrane. Svaki put kad istraživači objave novu metodu detekcije (npr. nepravilnost u zjenicama), kreatori Deepfake modela tu informaciju koriste kako bi trenirali nove modele koji ispravljaju tu specifičnu grešku. Zaključno, potpuna automatizirana detekcija vjerojatno nikada neće biti 100% pouzdana zbog prirode adverzarijskih napada. Budućnost forenzike leži u **kriptografskoj provjeri izvora** (npr. C2PA standard gdje kamere digitalno potpisuju snimku u trenutku nastanka) i **hibridnom pristupu** koji kombinira AI alate s ljudskom ekspertizom i kontekstualnom analizom. Forenzičari budućnosti moraju biti podjednako vješti u pravnim procedurama kao i u Python programiranju te analizi podataka. ===== 9. Literatura ===== * Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville A. & Bengio, Y. (2014). //Generative adversarial nets//. NIPS. * Mirsky, Y., & Lee, W. (2021). //The Creation and Detection of Deepfakes: A Survey//. ACM Computing Surveys (CSUR), 2020 * Farid, H. (2019). //Image Forensics//. The MIT Press. * Europol (2022). //Facing Reality? Law enforcement and the challenge of deepfakes//. Publications Office of the European Union. * Dokumentacija biblioteke OpenCV: [[https://opencv.org/|OpenCV.org]]}}