Sadržaj

Forenzika u vremenu AI-deepfake dokaza

Sažetak

Eksponencijalni razvoj generativne umjetne inteligencije (GenAI) doveo je do stvaranja sofisticiranih sintetičkih medija poznatih kao “Deepfakes”. Ovi mediji, kreirani pomoću arhitektura dubokog učenja poput generativnih suparničkih mreža (GAN) i difuzijskih modela, predstavljaju značajan izazov za digitalnu forenziku jer dovode u pitanje dosadašnju pouzdanost vizualnih dokaza. Ovaj rad analizira tehnološki okvir nastanka lažnih zapisa, identificira ključne forenzičke artefakte u vizualnoj i audio domeni te raspravlja o pravnim izazovima očuvanja lanca dokaza u kaznenom postupku. Kroz seminar se demonstrira i praktična primjena algoritama računalnog vida za detekciju anomalija na razini piksela.


1. Uvod: Nova era digitalne obmane

U modernom informacijskom društvu, digitalni video i audio zapisi predstavljaju zlatni standard materijalnih dokaza. Od snimaka nadzornih kamera (CCTV) do audio zapisa presretnutih razgovora, pravosudni sustav snažno se oslanja na pretpostavku da je digitalni zapis vjeran prikaz stvarnosti. Međutim, ulaskom u treće desetljeće 21. stoljeća, suočavamo se s fenomenom koji neki autori opisuju kao “kolaps informacijskog ekosustava”.

Pojam Deepfake (kovanica od riječi “Deep Learning” i “Fake”) označava sintetičke medije u kojima je osoba na postojećoj slici ili videu zamijenjena likom druge osobe koristeći umjetne neuronske mreže. Iako je manipulacija fotografijama stara koliko i sama fotografija, današnja tehnologija razlikuje se u tri ključna aspekta:

  1. Demokratizacija: Alati su javno dostupni, besplatni i ne zahtijevaju duboko tehničko predznanje.
  2. Realizam: Kvaliteta generiranih zapisa često nadilazi ljudsku percepciju.
  3. Skalabilnost: Moguće je automatizirano generirati tisuće lažnih zapisa u kratkom vremenu.

Glavni cilj ovog seminarskog rada nije samo opisati prijetnju, već definirati jasne metodološke korake koje forenzičar mora poduzeti kako bi razlikovao autentični zapis od sintetičkog. Postavlja se pitanje pouzdanosti ljudske percepcije i algoritamskih metoda u analizi digitalnih dokaza.

2. Tehnološka arhitektura generiranja

Da bismo razumjeli kako detektirati manipulaciju, potrebno je dubinski razumjeti proces njezina nastanka. Deepfake tehnologija temelji se na složenim matematičkim operacijama unutar višeslojnih neuronskih mreža.

2.1. Varijacijski autoenkoderi (VAE)

Prvi val Deepfake aplikacija (poput one koja se pojavila na Redditu 2017. godine) koristio je autoenkodere. Riječ je o vrsti neuronske mreže koja uči “sažeti” (komprimirati) ulazne podatke u prikaz niske dimenzije.

Proces se sastoji od dva dijela:

Ključni mehanizam kod zamjene lica je u korištenju dijeljenog enkodera i dva različita dekodera. Mreža nauči “pročitati” izraze lica osobe A, ali se za rekonstrukciju koristi dekoder koji je treniran na licu osobe B. Rezultat je lice osobe B koje radi mimiku osobe A.

Slika 1: Arhitektura Autoenkodera. Gore: Proces treniranja gdje se uče značajke oba lica. Dolje: Proces generiranja gdje se latentne značajke lica A rekonstruiraju pomoću Decodera B.
Slika 1: Arhitektura autoenkodera. Gore: Proces treniranja gdje se uče značajke oba lica. Dolje: Proces generiranja gdje se latentne značajke lica A rekonstruiraju pomoću Decodera B.

2.2. Generativne suparničke mreže (GAN)

Naprednija metoda, koju je 2014. predstavio Ian Goodfellow, omogućila je znatno višu razinu realizma. GAN arhitektura temelji se na teoriji igara (Game Theory), točnije na igri nulte sume između dva suprotstavljena modela:

  1. Generator (G): Njegov cilj je stvoriti lažni uzorak (sliku) koji je toliko dobar da će prevariti diskriminator. On na ulazu ne vidi stvarne slike, već nasumični šum (random noise vector).
  2. Diskriminator (D): Njegov zadatak je klasifikacija. On dobiva miks pravih slika iz baze podataka i lažnih slika od generatora te mora pogoditi koja je koja.

gan-arhitecture.jpg
Slika 2: Shematski prikaz GAN mreže. Generator i diskriminator su u konstantnom sukobu, pri čemu generator uči na povratnoj informaciji od diskriminatora.

Kroz tisuće ciklusa učenja, generator uči na svojim greškama. Ako diskriminator lako prepozna lažnu sliku, generator prilagođava svoje parametre (weights and biases) putem procesa zvanog povratna propagacija pogreške (Backpropagation). Na kraju procesa, generator stvara slike koje su statistički nerazlučive od stvarnih.

2.3. Difuzijski modeli (Stable Diffusion)

Najnovija generacija alata (od 2023. nadalje) koristi difuzijske modele. Oni funkcioniraju dodavanjem Gaussovog šuma slici dok ona ne postane neprepoznatljiva, a zatim uče obrnuti proces tj. uklanjanje šuma kako bi se dobila čista slika. Ovi modeli su superiorni u generiranju tekstura kože i osvjetljenja, što ih čini iznimno teškima za detekciju.

3. Forenzički artefakti i metode detekcije

Unatoč napretku AI modela, oni nisu savršeni. Ostavljaju tragove, tzv. artefakte, koje vješti forenzičar može uočiti analizom na tri razine: semantičkoj, fizičkoj i digitalnoj.

3.1. Vizualni i biološki artefakti (semantička razina)

AI modeli uče na temelju 2D slika s interneta, zbog čega često nemaju razumijevanje 3D fizike ili ljudske biologije.

3.2. Frekvencijska analiza (digitalna razina)

U situacijama kada vizualna procjena nije dovoljna, forenzička analiza oslanja se na matematičke metode. Digitalna slika nije ništa drugo nego matrica brojeva. Primjenom diskretne Fourierove transformacije (DFT) ili kosinusne transformacije (DCT), sliku prebacujemo iz prostorne domene u frekvencijsku domenu.


Slika 3: Multimodalna analiza. Gore: Vidljivi artefakti na uhu (zamućenje i stapanje tekstura). Dolje: Fourierov spektar koji otkriva mrežaste anomalije nastale procesom up-samplinga u GAN mreži.

Deepfake slike, posebno one nastale GAN-ovima, često pokazuju abnormalnosti u visokim frekvencijama. To je posljedica operacije Up-samplinga (povećanja rezolucije) unutar generatora, koja ostavlja karakteristične uzorke nalik šahovnici u spektru frekvencija, što je jasan znak da slika nije nastala prirodnim putem na senzoru kamere.

4. Praktična primjena: automatizirana analiza koda

U sklopu ovog rada prikazana je konceptualna Python skripta koja koristi biblioteku OpenCV za analizu distribucije boja na licu, što može biti prvi indikator tzv. “blending” artefakata (grešaka nastalih pri stapanju lažnog lica s pozadinom).

import cv2
import numpy as np
from matplotlib import pyplot as plt
 
def forensic_histogram_analysis(video_path, frame_number):
    """
    Funkcija za ekstrakciju okvira i analizu histograma boja.
    Nagla odstupanja u histogramu mogu indicirati manipulaciju.
    """
    cap = cv2.VideoCapture(video_path)
    cap.set(cv2.CAP_PROP_POS_FRAMES, frame_number)
    ret, frame = cap.read()
 
    if not ret:
        print("Greška pri učitavanju videa.")
        return
 
    # Konverzija u YCrCb prostor boja (često se koristi u forenzici kože)
    # Y = luma (svjetlina), Cr/Cb = chroma (boja)
    ycrcb_image = cv2.cvtColor(frame, cv2.COLOR_BGR2YCrCb)
 
    # Razdvajanje kanala
    y, cr, cb = cv2.split(ycrcb_image)
 
    # Prikaz statistike za Chrominance kanale
    print(f"Prosjek Cr kanala: {np.mean(cr)}")
    print(f"Varijanca Cr kanala: {np.var(cr)}")
 
    # Detekcija anomalija: sintetička lica često imaju manju varijancu boja
    if np.var(cr) < 150: # Arbitrarni prag za primjer
        print("[ALARM] Detektirana niska varijanca boje - moguća sintetička koža.")
    else:
        print("[OK] Varijanca boje unutar prirodnih parametara.")
 
    cap.release()
 
# Pokretanje analize na sumnjivom dokazu
forensic_histogram_analysis('dokazni_materijal_case_404.mp4', 120)

Objašnjenje koda: Gornji kod učitava videozapis i izolira specifičan kadar. Ključni korak je konverzija iz standardnog RGB modela u YCrCb model boja. Zašto? Zato što RGB miješa informaciju o svjetlini i boji. U forenzici ljudske kože, YCrCb je preferiran jer odvaja osvjetljenje (Y) od informacije o boji (Cr i Cb). Ljudska koža ima vrlo specifičan potpis u Cr/Cb kanalima. Deepfake algoritmi često “zaglađuju” ten, smanjujući prirodni šum i nepravilnosti kože, što rezultira neprirodno niskom varijancom (raspršenjem) u podacima o boji. Skripta izračunava tu varijancu i, ako je ona preniska, podiže alarm da se radi o potencijalno umjetno generiranoj teksturi.

5. Audio forenzika: kloniranje glasa

Dok je video manipulacija vizualno atraktivna, audio manipulacija predstavlja možda i veću neposrednu sigurnosnu prijetnju, posebno u korporativnom sektoru. Moderni Text-to-Speech (TTS) sustavi poput modela Tacotron 2 ili VALL-E mogu klonirati nečiji glas na temelju samo tri sekunde originalnog audio zapisa.


Slika 4: Usporedba autentičnog i sintetičkog zvuka. Prvi red: Originalni valni oblik i puni spektrogram. Drugi i treći red: Deepfake zapisi (Wav2Lip, SV2TTS) pokazuju gubitak podataka u visokim frekvencijama i 'mutne' MFCC značajke.

Forenzička analiza audija fokusira se na:

6. Studije slučaja

Teoriju je najbolje potkrijepiti primjerima iz stvarne prakse koji demonstriraju modus operandi počinitelja.

Slučaj 1: Prijevara direktora u Velikoj Britaniji (2019)

Ovo je bio prvi zabilježeni slučaj velike krađe korištenjem AI-a. Izvršni direktor energetske tvrtke primio je poziv od svog nadređenog iz matične tvrtke u Njemačkoj. Glas je bio identičan – imao je isti njemački naglasak i melodiju govora. Napad: Glas je zatražio hitan transfer 220.000 eura na račun dobavljača u Mađarskoj. Ishod: Direktor je izvršio uplatu. Prijevara je otkrivena tek kada je “glas” zvao ponovno tražeći još novca, ali ovaj put s drugog broja. Forenzički zaključak: Istraga je pokazala da su napadači koristili komercijalni softver za kloniranje glasa treniran na javnim nastupima njemačkog direktora.

Slučaj 2: Deepfake video Volodimira Zelenskog (2022)

Tijekom sukoba u Ukrajini, hakeri su kompromitirali ukrajinsku informativnu web stranicu i uploadali video u kojem predsjednik Zelensky poziva vojnike na polaganje oružja. Detekcija: Video je bio niske kvalitete (Deepfake niske rezolucije). Forenzičari i javnost odmah su uočili nesrazmjer između veličine glave i tijela, kao i neprirodnu statičnost tijela dok se glava pomicala. Važnost: Iako tehnički loš, ovaj pokušaj demonstrirao je potencijal Deepfakea kao oružja u hibridnom ratovanju i dezinformacijskim kampanjama.

7. Pravni okvir i dokazna snaga

Tehnologija se razvija eksponencijalno, dok se zakonodavstvo mijenja linearno. Ipak, Europska unija predvodi globalne napore u regulaciji.

7.1. EU AI Act (Akt o umjetnoj inteligenciji)

Ovaj pionirski zakon klasificira AI sustave prema razini rizika. Sustavi koji generiraju Deepfake sadržaj (uključujući ChatGPT, Midjourney, itd.) podliježu obvezama transparentnosti. To znači da sintetički sadržaj mora biti jasno označen (npr. vodenim žigom ili metapodacima) kako bi korisnik znao da komunicira s strojem. Kršenje ovih odredbi povlači drakonske novčane kazne.

7.2. Izazov "The Liar's Dividend"

Najveći pravni izazov koji Deepfake donosi nije samo to što lažni dokazi mogu proći kao pravi, već obrnuto. Fenomen “Liar's Dividend” opisuje situaciju u kojoj počinitelj stvarnog kaznenog djela (npr. političar uhvaćen u primanju mita na videu) na sudu tvrdi: “To nisam ja, to je Deepfake!”. Zbog postojanja ove tehnologije, stvara se opravdana sumnja za svaki digitalni dokaz, čime se otežava posao tužiteljstvu.

7.3. Lanac skrbništva

Kako bi se digitalni dokaz priznao na sudu u RH, ključan je integritet lanca skrbništva:

  1. Akvizicija: U praksi digitalne forenzike dokaz se u pravilu hashira odmah po preuzimanju
  2. Dokumentacija: Svaki pristup datoteci mora biti zabilježen.
  3. Ponovljivost: Metoda kojom je vještak utvrdio da je video lažan mora biti znanstveno utemeljena i ponovljiva od strane drugog, neovisnog vještaka.

8. Zaključak

Forenzika se u doba generativne umjetne inteligencije suočava s kontinuiranom dinamikom nadmetanja između napada i obrane. Svaki put kad istraživači objave novu metodu detekcije (npr. nepravilnost u zjenicama), kreatori Deepfake modela tu informaciju koriste kako bi trenirali nove modele koji ispravljaju tu specifičnu grešku.

Zaključno, potpuna automatizirana detekcija vjerojatno nikada neće biti 100% pouzdana zbog prirode adverzarijskih napada. Budućnost forenzike leži u kriptografskoj provjeri izvora (npr. C2PA standard gdje kamere digitalno potpisuju snimku u trenutku nastanka) i hibridnom pristupu koji kombinira AI alate s ljudskom ekspertizom i kontekstualnom analizom. Forenzičari budućnosti moraju biti podjednako vješti u pravnim procedurama kao i u Python programiranju te analizi podataka.

9. Literatura