racfor_wiki:seminari2025:mb53889 – Računalna forenzika / Computer forensics

Napredne file carving metode

Uvod

File carving je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini digitalne forenzike koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne-kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. U praksi se file carving koristi kada su metapodaci namjerno uklonjeni (anti-forenzika), kada je došlo do korupcije datotečnog sustava ili kada se radi s “raw” zapisima gdje struktura nije pouzdana.

Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, konvencionalne metode postaju nedostatne, a potrebno je razviti naprednije algoritme koji koriste strojno učenje i umjetnu inteligenciju. Poseban izazov predstavljaju datoteke visoke entropije (npr. komprimirane, šifrirane) te moderni mediji (SSD/flash) gdje mehanizmi poput wear-leveling-a i TRIM-a mogu smanjiti korisnost pretpostavki o prostornoj blizini fragmenata.

Napredne metode file carvinga uvode nekoliko ključnih pomaka:

Prelazak s heurističkih pravila na podatkovno učenje
Korištenje konteksta između sektora umjesto izolirane obrade
Povećanje automatizacije i smanjenje potrebe za ljudskom analizom

Povijest i razvoj file carvinga

Rani razvoj: File carving nastaje u kontekstu prve digitalne forenzike 1990-ih i ranih 2000-ih kao metoda oporavka datoteka kad su metapodaci nedostupni. Primjerice, simulacije i izumi poput „SmartCarvinga” od A. Pala i dr. bili su prvi korak prema oporavku fragmentiranih datoteka.

DFRWS izazovi: Godine 2006. održan je prvi DFRWS Forensics Challenge, s ciljem razrade boljih file-carving algoritama koji povećavaju broj pronađenih datoteka i smanjuju lažne pozitivne rezultate. Timovi (među pobjednicima bio je i Simson Garfinkel) pokazali su važnost preciznog traženja zaglavlja/repova.

Taksonomija i standardi: Radovi Simsona Garfinkela i sur. uveli su formalnu taksonomiju file carving tehnika (npr. header/footer carving, semantic carving). Također su se razvijali standardni testni skupovi (DFRWS zadaci) i alati za ocjenu.

Klasične metode file carvinga

Rani pristupi file carvingu oslanjali su se na prepoznavanje potpisa (npr. „header/footer”) te ručnu analizu strukture datoteka. Takve metode pretražuju tokove podataka kako bi pronašle početne i završne markere poznatih formata. U slučaju nefragmentiranih datoteka, postupak može biti vrlo učinkovit: pronađe se header, čita se kontinuirano i traži footer, te se rezultat validira.

Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci. Dodatno, kod komprimiranih i visoko entropijskih sadržaja potpisi mogu biti rijetki ili nedovoljni za pouzdanu rekonstrukciju.

Pregled alata za file carving

U praksi se koriste brojni alati koji implementiraju klasične ili napredne metode:

PhotoRec
- Otvorenog koda
- Temelji se na prepoznavanju potpisa
Scalpel
- Nasljednik Foremost-a
- Brz i fleksibilan za ručnu konfiguraciju pravila
Bulk Extractor
- Ne koristi strukturu datotečnog sustava
- Analizira sadržaj za obrasce (npr. email adrese, URL-ove)
X-Ways Forensics
- Komercijalni alat
- Sadrži napredne heuristike za fragmentaciju

Napredne metode još nisu široko integrirane u popularne GUI alate, ali se sve češće nalaze u istraživačkim prototipovima.

Usporedba pristupa: tradicionalno vs. moderno

Usporedba tradicionalnih i modernih pristupa file carvingu:

Tradicionalni pristupi:
- Osnovani na prepoznavanju potpisa (header/footer)
- Oslanjaju se na ručnu analizu
- Ograničena skalabilnost i točnost
Moderni pristupi:
- Korištenje dubokog učenja i kontekstualnog razumijevanja
- Automatska detekcija uzoraka u fragmentima
- Visoka točnost čak i kod nepoznatih formata

Strojno učenje i duboko učenje u file carvingu

S pojavom naprednih metoda strojnog učenja i dubokih neuronskih mreža, nakon 2020. razvijeno je više pristupa za klasifikaciju fragmenata datoteka. U nastavku su opisane neke od ključnih metoda i postignuća na tom području.

Metoda	Godina	Točnost (%)	F1-mjera (%)
Hijerarhijska SVM	2020	67.78	65.00
Byte2Image (CNN)	2023	81.55	79.12
Depthwise CNN	2022	78.45	-
JSANet	2024	86.30	83.90
Transformer (Swin V2)	2025	88.75	85.40

Hijerarhijska klasifikacija uz SVM (2020)

Rad objavljen 2020. u časopisu Machine Learning and Knowledge Extraction predlaže hijerarhijski pristup klasifikaciji fragmenata. Kombinira općenite klasifikatore na višim razinama i specijalizirane klasifikatore na nižim razinama, a svaki čvor hijerarhije trenira se zasebnim SVM-om. Ovakav pristup odgovara stvarnim odnosima među formatima: lakše je prvo razdvojiti široke kategorije (tekst/binarno/multimedija), a zatim finije razlikovati slične formate.

Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; postignuta je prosječna točnost od 67,78 % i F1-mjera od 65 %, uz dodatno poboljšanje nakon optimizacije strukture. Ovaj rad pokazao je kako strukturirana podjela zadatka može poboljšati performanse u odnosu na jednoklasni pristup.

GenSpec i rani pristupi (2020)

Konferencijski rad GenSpec: A File Fragment Classification Approach (ICCIT 2020) predlaže dvostupanjsku klasifikaciju: najprije se fragmenti klasificiraju po sadržaju, a zatim se preciznije određuje format. Autor naglašava da postojeće tehnike za klasifikaciju fragmenata treba poboljšati kako bi bile učinkovite za velik broj fragmenata.

Byte2Vec i Byte2Image (2022)

Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model Byte2Vec koristi skip-gram kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k-najbližih susjeda za klasifikaciju. Time se dobiva “semantika bajtova” kroz kontekst pojavljivanja, analogno NLP-u.

Na ovu ideju nadovezuje se rad “A Byte Sequence is Worth an Image”, koji uvodi tehniku Byte2Image: fragmenti bajtova pretvaraju se u 2D slike kako bi se obuhvatila intra-bajtna (bitna) informacija. Autor koristi klizni prozor po bitovima za očuvanje bitnih značajki i zatim pomoću CNN-a kombinira 2D sliku s izvornim nizom bajtova. Testovi na datasetu FFT-75 pokazuju da ova metoda značajno poboljšava točnost u usporedbi s postojećim pristupima, posebno kod formata s jasnim internim strukturama.

Duboke konvolucijske mreže s rastavljenim konvolucijama (2022)

Konferencijska publikacija iz 2022. predlaže lagani konvolucijski model utemeljen na depthwise separable konvolucijama za klasifikaciju file fragmenata. Model je dizajniran da postigne visoku točnost uz smanjenu složenost; postiže 78,45 % točnosti na FFT‑75 datasetu te je 24 puta brži i 4–5 puta manji od prethodnih konvolucijskih modela. Ovo pokazuje da je optimizacija arhitekture važna kako bi se strojno učenje primijenilo u praksi.

Samopozornost i kontekstualna fuzija (JSANet, 2024)

U 2024. godini predstavljena je Joint Self-Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self-attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self-attention rekalibrira značajke među kanalima, a sektor self-attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment.

Na datasetu VFF-16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje, što je važno za realne forenzičke pipeline-ove.

Transformer‑bazirane metode (2025)

Najnovija istraživanja primjenjuju Transformer arhitekture na zadatak klasifikacije fragmenata. Rad iz 2025. koristi Swin Transformer V2 koji uči hijerarhijske obrasce u sirovim nizovima bajtova i klasificira fragmente bez oslanjanja na ručno dizajnirane značajke. Model nadmašuje tradicionalne metode na 512‑bajtnim blokovima i postiže kompetitivne rezultate na većim blokovima, pri čemu automatizira identifikaciju i smanjuje vrijeme oporavka dokaza.

Objašnjiva umjetna inteligencija (XAI, 2024)

Kako su modeli sve složeniji, raste potreba za transparentnošću i objašnjivošću. Studija iz 2024. primjenjuje SHAP i LIME kako bi objasnila odluke četiri modela klasifikacije file fragmenata. Analiza pokazuje da XAI može identificirati ključne značajke koje utječu na predikcije i tako poboljšati povjerenje te omogućiti prilagodbu modela. Takva objašnjivost posebno je važna u digitalnoj forenzici i kibernetičkoj sigurnosti gdje pogrešne odluke mogu imati pravne posljedice.

Model	Tehnika XAI	Što objašnjava
CNN	SHAP	Važnost pojedinih bajtova
SVM	LIME	Odabir značajki klasifikacije
Transformer	SHAP + LIME	Donošenje odluka u kompleksnim obrascima

Primjena XAI u digitalnoj forenzici

XAI metode igraju ključnu ulogu u razumijevanju i dokumentiranju algoritamskih odluka:

SHAP
- Vizualizira doprinos pojedinih bajtova klasifikaciji
LIME
- Stvara lokalne aproksimacije modela za ljudsku interpretaciju
Feature importance heatmaps
- Pokazuju koji dijelovi fragmenta utječu na odluku

Koristi se u:

Sudskim postupcima za objašnjenje nalaza
Forenzičkim izvješćima za transparentnost
Treningu i validaciji modela u sigurnosnim laboratorijima

Evaluacija i skupovi podataka

Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT-75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF-16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; model postiže poboljšanje točnosti od 16,3 % i brzinu od 5,1 s/GB. Procjena uključuje metrike točnosti i F1-mjere, a trend je povećati točnost uz smanjenje računskih zahtjeva.

Dodatno se koriste i drugi skupovi podataka:

govdocs1 — standardni skup za opću klasifikaciju
FALCON dataset — multimedijski fragmenti visoke entropije
Custom corpora — proizvoljni skupovi za specifične slučajeve

Evaluacija uključuje i sljedeće metrike:

Brzina obrade (npr. MB/s, s/GB)
Robusnost na šum i nepoznate formate
Skalabilnost na velike količine fragmenata

Metoda / pristup	Temeljna ideja	Kako tretira fragmente	Vrsta značajki koje koristi	Prednosti u forenzici	Ograničenja u realnim slučajevima	Tipični datasetovi
Header/Footer carving	Traženje poznatih potpisa zaglavlja i završetka datoteke	Fragmente tretira izolirano; oslanja se na kontinuitet između headera i footera	Ručno definirani potpisi, magični brojevi, strukturalni markeri	Vrlo brz, jednostavan za implementaciju, pouzdan za nefragmentirane datoteke	Ne radi dobro kod fragmentacije, kompresije i nepoznatih formata; velik broj lažnih pozitivnih rezultata	DFRWS test slike, realni disk dumpovi
Heuristički carving	Analiza unutarnje strukture datoteka i validacija polja (duljine, offseti, kontrole)	Pokušava rekonstruirati redoslijed fragmenata kroz validaciju strukture	Ručno dizajnirane heuristike, parseri specifični za formate	Može rekonstruirati fragmentirane datoteke ako je struktura poznata	Zahtijeva duboko znanje formata; ne skalira se; slabo radi s novim verzijama formata	govdocs1, ručno pripremljeni uzorci
SVM hijerarhija	Višerazinska klasifikacija: grube pa fine klase	Svaki fragment klasificira neovisno, ali u hijerarhiji tipova	Statističke značajke (n-grami, entropija, frekvencije bajtova)	Bolja preciznost od jednostavne klasifikacije; dobar balans brzine i točnosti	Ovisi o ručno dizajniranim značajkama; slabije generalizira	govdocs1 (14 klasa, 512 B)
Byte2Vec	Učenje “semantike bajtova” kroz kontekst pojavljivanja (skip-gram)	Fragmente promatra kao sekvence gdje je važan lokalni kontekst bajtova	Naučene vektorske reprezentacije bajtova (embeddings)	Ne zahtijeva ručno definirane značajke; hvata suptilne obrasce	Ograničen kapacitet modela; ne koristi prostornu (bitnu) strukturu	FFT-75
Byte2Image (CNN)	Pretvara niz bajtova u 2D sliku radi hvatanja bitnih obrazaca	Fragmente tretira kao prostorne entitete (slike)	Bit-shift transformacije + CNN značajke	Hvata intra-bajtne informacije; vrlo dobra točnost kod strukturiranih formata	Veći memorijski zahtjevi; sporije od lakših CNN modela	FFT-75
Depthwise CNN	Optimizirani CNN s rastavljenim konvolucijama	Fragmente tretira izolirano, ali vrlo učinkovito	Automatski naučene konvolucijske značajke	Vrlo brz, malen model, pogodan za velike količine podataka	Ne koristi kontekst susjednih sektora	FFT-75
JSANet (Self-Attention)	Kombinira pažnju po bajtovima, kanalima i sektorima	Uvažava kontekst susjednih sektora	Attention mehanizmi na više razina	Znatno bolja točnost kod fragmentacije; koristi realni diskovni kontekst	Složenija arhitektura; zahtijeva GPU	VFF-16
Transformer (Swin V2)	Uči hijerarhijske obrasce kroz attention nad cijelim fragmentom	Hvata dugodosežne zavisnosti unutar fragmenta	Potpuno naučene značajke bez ručnog dizajna	Najveća točnost; dobra generalizacija na nepoznate formate	Veliki računalni zahtjevi; potreba za optimizacijom	FFT-75, prošireni skupovi
XAI integracija	Objašnjavanje odluka modela (SHAP, LIME)	Analizira koje pozicije u fragmentu utječu na odluku	Važnost značajki i bajtova	Ključno za forenzička izvješća i sudsku prihvatljivost	Ne poboljšava točnost, već interpretaciju	Primjenjivo na sve navedene datasetove

Izazovi i budući razvoj

Unatoč napretku, ručna analiza strukture datoteka i dalje se široko koristi, ali ne jamči potpune rezultate. Napredne metode često se oslanjaju na pretpostavke o strukturi datoteka i zahtijevaju prethodno znanje, što ograničava njihovu primjenu u heterogenim okruženjima. Rastuća količina podataka i fragmentacija stvaraju izazov skalabilnosti; istraživači stoga razvijaju lagane modele i tehnike samopozornosti.

Perspektive uključuju:

integraciju umjetne inteligencije za automatsku identifikaciju fragmenata, klasteriranje i rekonstrukciju;

širenje skupova podataka na multimedijske i kriptirane datoteke;

primjenu federiranog učenja radi zaštite privatnosti.

Također, očekuje se da će objašnjiva umjetna inteligencija postati standardni dio novih alata zbog regulatornih i etičkih zahtjeva.

Metoda	Prednosti	Ograničenja
SVM	Brza i jednostavna implementacija	Oslanja se na ručne značajke
Byte2Image	Uključuje bitnu bajtnu strukturu	Veći memorijski zahtjevi
JSANet	Uvažava kontekst sektora	Viša složenost arhitekture
Transformer	Visoka točnost, automatsko učenje	Zahtijeva optimizaciju za izvedbu

Primjene naprednih metoda u praksi

Napredne file carving metode koriste se u različitim stvarnim scenarijima:

Forenzička analiza kompromitiranih sustava
Povrat podataka iz oštećenih diskova
Oporavak dokaza u slučajevima cyber kriminala
Analiza fragmentiranih logova iz memorije

U praksi, učinkovitost metode ovisi o:

Vrsti datoteka (tekstualne, binarne, multimedijalne)
Stupnju fragmentacije
Dostupnosti konteksta (npr. sektori prije/poslije)

Najčešće pogreške i ograničenja

Unatoč napretku, često se javljaju sljedeći problemi:

Pretpostavka nefragmentiranosti:
- Mnogi modeli očekuju cijeli sektor kao jedan fragment
Pretrenirani modeli:
- Slabo generaliziraju na nove vrste datoteka
Zanemarivanje entropije:
- Neki pristupi ne razlikuju podatke niske i visoke entropije
Neobjašnjive pogreške:
- Nema uvida u razloge klasifikacijskih grešaka bez XAI pristupa

Rješenja uključuju povećanje raznolikosti skupova podataka i integraciju XAI alata za analizu.

Zaključak

Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput Byte2Image unose bitnu (intra-bajtnu) informaciju, dok XAI donosi transparentnost i povjerenje u odluke algoritama. Unatoč izazovima vezanim uz fragmentaciju i potrebu za a priori znanjem, trend razvoja jasno pokazuje kako kombinacija umjetne inteligencije i objašnjivosti vodi prema učinkovitijim i pouzdanijim metodama za oporavak datoteka u digitalnoj forenzici.