File carving je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini digitalne forenzike koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne-kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. U praksi se file carving koristi kada su metapodaci namjerno uklonjeni (anti-forenzika), kada je došlo do korupcije datotečnog sustava ili kada se radi s “raw” zapisima gdje struktura nije pouzdana.
Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, konvencionalne metode postaju nedostatne, a potrebno je razviti naprednije algoritme koji koriste strojno učenje i umjetnu inteligenciju. Poseban izazov predstavljaju datoteke visoke entropije (npr. komprimirane, šifrirane) te moderni mediji (SSD/flash) gdje mehanizmi poput wear-leveling-a i TRIM-a mogu smanjiti korisnost pretpostavki o prostornoj blizini fragmenata.
Napredne metode file carvinga uvode nekoliko ključnih pomaka:
Rani pristupi file carvingu oslanjali su se na prepoznavanje potpisa (npr. „header/footer”) te ručnu analizu strukture datoteka. Takve metode pretražuju tokove podataka kako bi pronašle početne i završne markere poznatih formata. U slučaju nefragmentiranih datoteka, postupak može biti vrlo učinkovit: pronađe se header, čita se kontinuirano i traži footer, te se rezultat validira.
Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci. Dodatno, kod komprimiranih i visoko entropijskih sadržaja potpisi mogu biti rijetki ili nedovoljni za pouzdanu rekonstrukciju.
U praksi se koriste brojni alati koji implementiraju klasične ili napredne metode:
Napredne metode još nisu široko integrirane u popularne GUI alate, ali se sve češće nalaze u istraživačkim prototipovima.
Usporedba tradicionalnih i modernih pristupa file carvingu:
S pojavom naprednih metoda strojnog učenja i dubokih neuronskih mreža, nakon 2020. razvijeno je više pristupa za klasifikaciju fragmenata datoteka. U nastavku su opisane neke od ključnih metoda i postignuća na tom području.
| Metoda | Godina | Točnost (%) | F1-mjera (%) |
|---|---|---|---|
| Hijerarhijska SVM | 2020 | 67.78 | 65.00 |
| Byte2Image (CNN) | 2023 | 81.55 | 79.12 |
| Depthwise CNN | 2022 | 78.45 | - |
| JSANet | 2024 | 86.30 | 83.90 |
| Transformer (Swin V2) | 2025 | 88.75 | 85.40 |
Rad objavljen 2020. u časopisu Machine Learning and Knowledge Extraction predlaže hijerarhijski pristup klasifikaciji fragmenata. Kombinira općenite klasifikatore na višim razinama i specijalizirane klasifikatore na nižim razinama, a svaki čvor hijerarhije trenira se zasebnim SVM-om. Ovakav pristup odgovara stvarnim odnosima među formatima: lakše je prvo razdvojiti široke kategorije (tekst/binarno/multimedija), a zatim finije razlikovati slične formate.
Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; postignuta je prosječna točnost od 67,78 % i F1-mjera od 65 %, uz dodatno poboljšanje nakon optimizacije strukture. Ovaj rad pokazao je kako strukturirana podjela zadatka može poboljšati performanse u odnosu na jednoklasni pristup.
Konferencijski rad GenSpec: A File Fragment Classification Approach (ICCIT 2020) predlaže dvostupanjsku klasifikaciju: najprije se fragmenti klasificiraju po sadržaju, a zatim se preciznije određuje format. Autor naglašava da postojeće tehnike za klasifikaciju fragmenata treba poboljšati kako bi bile učinkovite za velik broj fragmenata.
Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model Byte2Vec koristi skip-gram kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k-najbližih susjeda za klasifikaciju. Time se dobiva “semantika bajtova” kroz kontekst pojavljivanja, analogno NLP-u.
Na ovu ideju nadovezuje se rad “A Byte Sequence is Worth an Image”, koji uvodi tehniku Byte2Image: fragmenti bajtova pretvaraju se u 2D slike kako bi se obuhvatila intra-bajtna (bitna) informacija. Autor koristi klizni prozor po bitovima za očuvanje bitnih značajki i zatim pomoću CNN-a kombinira 2D sliku s izvornim nizom bajtova. Testovi na datasetu FFT-75 pokazuju da ova metoda značajno poboljšava točnost u usporedbi s postojećim pristupima, posebno kod formata s jasnim internim strukturama.
Konferencijska publikacija iz 2022. predlaže lagani konvolucijski model utemeljen na depthwise separable konvolucijama za klasifikaciju file fragmenata. Model je dizajniran da postigne visoku točnost uz smanjenu složenost; postiže 78,45 % točnosti na FFT‑75 datasetu te je 24 puta brži i 4–5 puta manji od prethodnih konvolucijskih modela. Ovo pokazuje da je optimizacija arhitekture važna kako bi se strojno učenje primijenilo u praksi.
U 2024. godini predstavljena je Joint Self-Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self-attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self-attention rekalibrira značajke među kanalima, a sektor self-attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment.
Na datasetu VFF-16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje, što je važno za realne forenzičke pipeline-ove.
Najnovija istraživanja primjenjuju Transformer arhitekture na zadatak klasifikacije fragmenata. Rad iz 2025. koristi Swin Transformer V2 koji uči hijerarhijske obrasce u sirovim nizovima bajtova i klasificira fragmente bez oslanjanja na ručno dizajnirane značajke. Model nadmašuje tradicionalne metode na 512‑bajtnim blokovima i postiže kompetitivne rezultate na većim blokovima, pri čemu automatizira identifikaciju i smanjuje vrijeme oporavka dokaza.
Kako su modeli sve složeniji, raste potreba za transparentnošću i objašnjivošću. Studija iz 2024. primjenjuje SHAP i LIME kako bi objasnila odluke četiri modela klasifikacije file fragmenata. Analiza pokazuje da XAI može identificirati ključne značajke koje utječu na predikcije i tako poboljšati povjerenje te omogućiti prilagodbu modela. Takva objašnjivost posebno je važna u digitalnoj forenzici i kibernetičkoj sigurnosti gdje pogrešne odluke mogu imati pravne posljedice.
| Model | Tehnika XAI | Što objašnjava |
|---|---|---|
| CNN | SHAP | Važnost pojedinih bajtova |
| SVM | LIME | Odabir značajki klasifikacije |
| Transformer | SHAP + LIME | Donošenje odluka u kompleksnim obrascima |
XAI metode igraju ključnu ulogu u razumijevanju i dokumentiranju algoritamskih odluka:
Koristi se u:
Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT-75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF-16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; model postiže poboljšanje točnosti od 16,3 % i brzinu od 5,1 s/GB. Procjena uključuje metrike točnosti i F1-mjere, a trend je povećati točnost uz smanjenje računskih zahtjeva.
Dodatno se koriste i drugi skupovi podataka:
Evaluacija uključuje i sljedeće metrike:
| Metoda / pristup | Temeljna ideja | Kako tretira fragmente | Vrsta značajki koje koristi | Prednosti u forenzici | Ograničenja u realnim slučajevima | Tipični datasetovi |
|---|---|---|---|---|---|---|
| Header/Footer carving | Traženje poznatih potpisa zaglavlja i završetka datoteke | Fragmente tretira izolirano; oslanja se na kontinuitet između headera i footera | Ručno definirani potpisi, magični brojevi, strukturalni markeri | Vrlo brz, jednostavan za implementaciju, pouzdan za nefragmentirane datoteke | Ne radi dobro kod fragmentacije, kompresije i nepoznatih formata; velik broj lažnih pozitivnih rezultata | DFRWS test slike, realni disk dumpovi |
| Heuristički carving | Analiza unutarnje strukture datoteka i validacija polja (duljine, offseti, kontrole) | Pokušava rekonstruirati redoslijed fragmenata kroz validaciju strukture | Ručno dizajnirane heuristike, parseri specifični za formate | Može rekonstruirati fragmentirane datoteke ako je struktura poznata | Zahtijeva duboko znanje formata; ne skalira se; slabo radi s novim verzijama formata | govdocs1, ručno pripremljeni uzorci |
| SVM hijerarhija | Višerazinska klasifikacija: grube pa fine klase | Svaki fragment klasificira neovisno, ali u hijerarhiji tipova | Statističke značajke (n-grami, entropija, frekvencije bajtova) | Bolja preciznost od jednostavne klasifikacije; dobar balans brzine i točnosti | Ovisi o ručno dizajniranim značajkama; slabije generalizira | govdocs1 (14 klasa, 512 B) |
| Byte2Vec | Učenje “semantike bajtova” kroz kontekst pojavljivanja (skip-gram) | Fragmente promatra kao sekvence gdje je važan lokalni kontekst bajtova | Naučene vektorske reprezentacije bajtova (embeddings) | Ne zahtijeva ručno definirane značajke; hvata suptilne obrasce | Ograničen kapacitet modela; ne koristi prostornu (bitnu) strukturu | FFT-75 |
| Byte2Image (CNN) | Pretvara niz bajtova u 2D sliku radi hvatanja bitnih obrazaca | Fragmente tretira kao prostorne entitete (slike) | Bit-shift transformacije + CNN značajke | Hvata intra-bajtne informacije; vrlo dobra točnost kod strukturiranih formata | Veći memorijski zahtjevi; sporije od lakših CNN modela | FFT-75 |
| Depthwise CNN | Optimizirani CNN s rastavljenim konvolucijama | Fragmente tretira izolirano, ali vrlo učinkovito | Automatski naučene konvolucijske značajke | Vrlo brz, malen model, pogodan za velike količine podataka | Ne koristi kontekst susjednih sektora | FFT-75 |
| JSANet (Self-Attention) | Kombinira pažnju po bajtovima, kanalima i sektorima | Uvažava kontekst susjednih sektora | Attention mehanizmi na više razina | Znatno bolja točnost kod fragmentacije; koristi realni diskovni kontekst | Složenija arhitektura; zahtijeva GPU | VFF-16 |
| Transformer (Swin V2) | Uči hijerarhijske obrasce kroz attention nad cijelim fragmentom | Hvata dugodosežne zavisnosti unutar fragmenta | Potpuno naučene značajke bez ručnog dizajna | Najveća točnost; dobra generalizacija na nepoznate formate | Veliki računalni zahtjevi; potreba za optimizacijom | FFT-75, prošireni skupovi |
| XAI integracija | Objašnjavanje odluka modela (SHAP, LIME) | Analizira koje pozicije u fragmentu utječu na odluku | Važnost značajki i bajtova | Ključno za forenzička izvješća i sudsku prihvatljivost | Ne poboljšava točnost, već interpretaciju | Primjenjivo na sve navedene datasetove |
Unatoč napretku, ručna analiza strukture datoteka i dalje se široko koristi, ali ne jamči potpune rezultate. Napredne metode često se oslanjaju na pretpostavke o strukturi datoteka i zahtijevaju prethodno znanje, što ograničava njihovu primjenu u heterogenim okruženjima. Rastuća količina podataka i fragmentacija stvaraju izazov skalabilnosti; istraživači stoga razvijaju lagane modele i tehnike samopozornosti.
Perspektive uključuju:
integraciju umjetne inteligencije za automatsku identifikaciju fragmenata, klasteriranje i rekonstrukciju;
širenje skupova podataka na multimedijske i kriptirane datoteke;
primjenu federiranog učenja radi zaštite privatnosti.
Također, očekuje se da će objašnjiva umjetna inteligencija postati standardni dio novih alata zbog regulatornih i etičkih zahtjeva.
| Metoda | Prednosti | Ograničenja |
|---|---|---|
| SVM | Brza i jednostavna implementacija | Oslanja se na ručne značajke |
| Byte2Image | Uključuje bitnu bajtnu strukturu | Veći memorijski zahtjevi |
| JSANet | Uvažava kontekst sektora | Viša složenost arhitekture |
| Transformer | Visoka točnost, automatsko učenje | Zahtijeva optimizaciju za izvedbu |
Napredne file carving metode koriste se u različitim stvarnim scenarijima:
U praksi, učinkovitost metode ovisi o:
Unatoč napretku, često se javljaju sljedeći problemi:
Rješenja uključuju povećanje raznolikosti skupova podataka i integraciju XAI alata za analizu.
Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput Byte2Image unose bitnu (intra-bajtnu) informaciju, dok XAI donosi transparentnost i povjerenje u odluke algoritama. Unatoč izazovima vezanim uz fragmentaciju i potrebu za a priori znanjem, trend razvoja jasno pokazuje kako kombinacija umjetne inteligencije i objašnjivosti vodi prema učinkovitijim i pouzdanijim metodama za oporavak datoteka u digitalnoj forenzici.