===== Napredne file carving metode =====

===== Uvod =====

**File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini digitalne forenzike koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne-kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. U praksi se file carving koristi kada su metapodaci namjerno uklonjeni (anti-forenzika), kada je došlo do korupcije datotečnog sustava ili kada se radi s “raw” zapisima gdje struktura nije pouzdana.

Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, konvencionalne metode postaju nedostatne, a potrebno je razviti naprednije algoritme koji koriste strojno učenje i umjetnu inteligenciju. Poseban izazov predstavljaju datoteke visoke entropije (npr. komprimirane, šifrirane) te moderni mediji (SSD/flash) gdje mehanizmi poput wear-leveling-a i TRIM-a mogu smanjiti korisnost pretpostavki o prostornoj blizini fragmenata.

**Napredne metode** file carvinga uvode nekoliko ključnih pomaka:

  * Prelazak s heurističkih pravila na podatkovno učenje
  * Korištenje konteksta između sektora umjesto izolirane obrade
  * Povećanje automatizacije i smanjenje potrebe za ljudskom analizom

==== Povijest i razvoj file carvinga ====

  * **Rani razvoj:** File carving nastaje u kontekstu prve digitalne forenzike 1990-ih i ranih 2000-ih kao metoda oporavka datoteka kad su metapodaci nedostupni. Primjerice, simulacije i izumi poput „SmartCarvinga” od A. Pala i dr. bili su prvi korak prema oporavku fragmentiranih datoteka.
  
  * **DFRWS izazovi:** Godine 2006. održan je prvi [[https://www.dfrws.org|DFRWS Forensics Challenge]], s ciljem razrade boljih file-carving algoritama koji povećavaju broj pronađenih datoteka i smanjuju lažne pozitivne rezultate. Timovi (među pobjednicima bio je i Simson Garfinkel) pokazali su važnost preciznog traženja zaglavlja/repova.
  
  * **Taksonomija i standardi:** Radovi Simsona Garfinkela i sur. uveli su formalnu taksonomiju file carving tehnika (npr. //header/footer carving//, //semantic carving//). Također su se razvijali standardni testni skupovi (DFRWS zadaci) i alati za ocjenu.


==== Klasične metode file carvinga ====

Rani pristupi file carvingu oslanjali su se na prepoznavanje potpisa (npr. „header/footer”) te ručnu analizu strukture datoteka. Takve metode pretražuju tokove podataka kako bi pronašle početne i završne markere poznatih formata. U slučaju nefragmentiranih datoteka, postupak može biti vrlo učinkovit: pronađe se header, čita se kontinuirano i traži footer, te se rezultat validira.

Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci. Dodatno, kod komprimiranih i visoko entropijskih sadržaja potpisi mogu biti rijetki ili nedovoljni za pouzdanu rekonstrukciju.

==== Pregled alata za file carving ====

U praksi se koriste brojni alati koji implementiraju klasične ili napredne metode:

  * PhotoRec
    * Otvorenog koda
    * Temelji se na prepoznavanju potpisa
  * Scalpel
    * Nasljednik Foremost-a
    * Brz i fleksibilan za ručnu konfiguraciju pravila
  * Bulk Extractor
    * Ne koristi strukturu datotečnog sustava
    * Analizira sadržaj za obrasce (npr. email adrese, URL-ove)
  * X-Ways Forensics
    * Komercijalni alat
    * Sadrži napredne heuristike za fragmentaciju

Napredne metode još nisu široko integrirane u popularne GUI alate, ali se sve češće nalaze u istraživačkim prototipovima.


===== Usporedba pristupa: tradicionalno vs. moderno =====

Usporedba tradicionalnih i modernih pristupa file carvingu:

  * Tradicionalni pristupi:
    * Osnovani na prepoznavanju potpisa (header/footer)
    * Oslanjaju se na ručnu analizu
    * Ograničena skalabilnost i točnost
  * Moderni pristupi:
    * Korištenje dubokog učenja i kontekstualnog razumijevanja
    * Automatska detekcija uzoraka u fragmentima
    * Visoka točnost čak i kod nepoznatih formata


===== Strojno učenje i duboko učenje u file carvingu =====

S pojavom naprednih metoda strojnog učenja i dubokih neuronskih mreža, nakon 2020. razvijeno je više pristupa za klasifikaciju fragmenata datoteka. U nastavku su opisane neke od ključnih metoda i postignuća na tom području.

^ Metoda ^ Godina ^ Točnost (%) ^ F1-mjera (%) ^
| Hijerarhijska SVM | 2020 | 67.78 | 65.00 |
| Byte2Image (CNN) | 2023 | 81.55 | 79.12 |
| Depthwise CNN | 2022 | 78.45 | - |
| JSANet | 2024 | 86.30 | 83.90 |
| Transformer (Swin V2) | 2025 | 88.75 | 85.40 |


===== Hijerarhijska klasifikacija uz SVM (2020) =====

Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// predlaže hijerarhijski pristup klasifikaciji fragmenata. Kombinira općenite klasifikatore na višim razinama i specijalizirane klasifikatore na nižim razinama, a svaki čvor hijerarhije trenira se zasebnim SVM-om. Ovakav pristup odgovara stvarnim odnosima među formatima: lakše je prvo razdvojiti široke kategorije (tekst/binarno/multimedija), a zatim finije razlikovati slične formate.

Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; postignuta je prosječna točnost od 67,78 % i F1-mjera od 65 %, uz dodatno poboljšanje nakon optimizacije strukture. Ovaj rad pokazao je kako strukturirana podjela zadatka može poboljšati performanse u odnosu na jednoklasni pristup.

==== GenSpec i rani pristupi (2020) ====

Konferencijski rad //GenSpec: A File Fragment Classification Approach// (ICCIT 2020) predlaže dvostupanjsku klasifikaciju: najprije se fragmenti klasificiraju po sadržaju, a zatim se preciznije određuje format. Autor naglašava da postojeće tehnike za klasifikaciju fragmenata treba poboljšati kako bi bile učinkovite za velik broj fragmenata.

==== Byte2Vec i Byte2Image (2022) ====

Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model Byte2Vec koristi //skip-gram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k-najbližih susjeda za klasifikaciju. Time se dobiva “semantika bajtova” kroz kontekst pojavljivanja, analogno NLP-u.

Na ovu ideju nadovezuje se rad "A Byte Sequence is Worth an Image", koji uvodi tehniku Byte2Image: fragmenti bajtova pretvaraju se u 2D slike kako bi se obuhvatila intra-bajtna (bitna) informacija. Autor koristi klizni prozor po bitovima za očuvanje bitnih značajki i zatim pomoću CNN-a kombinira 2D sliku s izvornim nizom bajtova. Testovi na datasetu FFT-75 pokazuju da ova metoda značajno poboljšava točnost u usporedbi s postojećim pristupima, posebno kod formata s jasnim internim strukturama.

===== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) =====

Konferencijska publikacija iz 2022. predlaže lagani konvolucijski model utemeljen na depthwise separable konvolucijama za klasifikaciju file fragmenata. Model je dizajniran da postigne visoku točnost uz smanjenu složenost; postiže 78,45 % točnosti na FFT‑75 datasetu te je 24 puta brži i 4–5 puta manji od prethodnih konvolucijskih modela. Ovo pokazuje da je optimizacija arhitekture važna kako bi se strojno učenje primijenilo u praksi.

===== Samopozornost i kontekstualna fuzija (JSANet, 2024) =====

U 2024. godini predstavljena je Joint Self-Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self-attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self-attention rekalibrira značajke među kanalima, a sektor self-attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment.

Na datasetu VFF-16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje, što je važno za realne forenzičke pipeline-ove.

===== Transformer‑bazirane metode (2025) =====

Najnovija istraživanja primjenjuju Transformer arhitekture na zadatak klasifikacije fragmenata. Rad iz 2025. koristi Swin Transformer V2 koji uči hijerarhijske obrasce u sirovim nizovima bajtova i klasificira fragmente bez oslanjanja na ručno dizajnirane značajke. Model nadmašuje tradicionalne metode na 512‑bajtnim blokovima i postiže kompetitivne rezultate na većim blokovima, pri čemu automatizira identifikaciju i smanjuje vrijeme oporavka dokaza.

{{:racfor_wiki:seminari2025:538892.png?400|}}
===== Objašnjiva umjetna inteligencija (XAI, 2024) =====

Kako su modeli sve složeniji, raste potreba za transparentnošću i objašnjivošću. Studija iz 2024. primjenjuje SHAP i LIME kako bi objasnila odluke četiri modela klasifikacije file fragmenata. Analiza pokazuje da XAI može identificirati ključne značajke koje utječu na predikcije i tako poboljšati povjerenje te omogućiti prilagodbu modela. Takva objašnjivost posebno je važna u digitalnoj forenzici i kibernetičkoj sigurnosti gdje pogrešne odluke mogu imati pravne posljedice.

^ Model ^ Tehnika XAI ^ Što objašnjava ^
| CNN | SHAP | Važnost pojedinih bajtova |
| SVM | LIME | Odabir značajki klasifikacije |
| Transformer | SHAP + LIME | Donošenje odluka u kompleksnim obrascima |

==== Primjena XAI u digitalnoj forenzici ====

**XAI metode** igraju ključnu ulogu u razumijevanju i dokumentiranju algoritamskih odluka:

  * SHAP
    * Vizualizira doprinos pojedinih bajtova klasifikaciji
  * LIME
    * Stvara lokalne aproksimacije modela za ljudsku interpretaciju
  * Feature importance heatmaps
    * Pokazuju koji dijelovi fragmenta utječu na odluku

Koristi se u:

  * Sudskim postupcima za objašnjenje nalaza
  * Forenzičkim izvješćima za transparentnost
  * Treningu i validaciji modela u sigurnosnim laboratorijima

{{:racfor_wiki:seminari2025:538893.png?200|}}

==== Evaluacija i skupovi podataka ====

Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT-75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF-16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; model postiže poboljšanje točnosti od 16,3 % i brzinu od 5,1 s/GB. Procjena uključuje metrike točnosti i F1-mjere, a trend je povećati točnost uz smanjenje računskih zahtjeva.

Dodatno se koriste i drugi skupovi podataka:

  * govdocs1 — standardni skup za opću klasifikaciju
  * FALCON dataset — multimedijski fragmenti visoke entropije
  * Custom corpora — proizvoljni skupovi za specifične slučajeve

Evaluacija uključuje i sljedeće metrike:

  * Brzina obrade (npr. MB/s, s/GB)
  * Robusnost na šum i nepoznate formate
  * Skalabilnost na velike količine fragmenata

^ Metoda / pristup ^ Temeljna ideja ^ Kako tretira fragmente ^ Vrsta značajki koje koristi ^ Prednosti u forenzici ^ Ograničenja u realnim slučajevima ^ Tipični datasetovi ^
| Header/Footer carving | Traženje poznatih potpisa zaglavlja i završetka datoteke | Fragmente tretira izolirano; oslanja se na kontinuitet između headera i footera | Ručno definirani potpisi, magični brojevi, strukturalni markeri | Vrlo brz, jednostavan za implementaciju, pouzdan za nefragmentirane datoteke | Ne radi dobro kod fragmentacije, kompresije i nepoznatih formata; velik broj lažnih pozitivnih rezultata | DFRWS test slike, realni disk dumpovi |
| Heuristički carving | Analiza unutarnje strukture datoteka i validacija polja (duljine, offseti, kontrole) | Pokušava rekonstruirati redoslijed fragmenata kroz validaciju strukture | Ručno dizajnirane heuristike, parseri specifični za formate | Može rekonstruirati fragmentirane datoteke ako je struktura poznata | Zahtijeva duboko znanje formata; ne skalira se; slabo radi s novim verzijama formata | govdocs1, ručno pripremljeni uzorci |
| SVM hijerarhija | Višerazinska klasifikacija: grube pa fine klase | Svaki fragment klasificira neovisno, ali u hijerarhiji tipova | Statističke značajke (n-grami, entropija, frekvencije bajtova) | Bolja preciznost od jednostavne klasifikacije; dobar balans brzine i točnosti | Ovisi o ručno dizajniranim značajkama; slabije generalizira | govdocs1 (14 klasa, 512 B) |
| Byte2Vec | Učenje “semantike bajtova” kroz kontekst pojavljivanja (skip-gram) | Fragmente promatra kao sekvence gdje je važan lokalni kontekst bajtova | Naučene vektorske reprezentacije bajtova (embeddings) | Ne zahtijeva ručno definirane značajke; hvata suptilne obrasce | Ograničen kapacitet modela; ne koristi prostornu (bitnu) strukturu | FFT-75 |
| Byte2Image (CNN) | Pretvara niz bajtova u 2D sliku radi hvatanja bitnih obrazaca | Fragmente tretira kao prostorne entitete (slike) | Bit-shift transformacije + CNN značajke | Hvata intra-bajtne informacije; vrlo dobra točnost kod strukturiranih formata | Veći memorijski zahtjevi; sporije od lakših CNN modela | FFT-75 |
| Depthwise CNN | Optimizirani CNN s rastavljenim konvolucijama | Fragmente tretira izolirano, ali vrlo učinkovito | Automatski naučene konvolucijske značajke | Vrlo brz, malen model, pogodan za velike količine podataka | Ne koristi kontekst susjednih sektora | FFT-75 |
| JSANet (Self-Attention) | Kombinira pažnju po bajtovima, kanalima i sektorima | Uvažava kontekst susjednih sektora | Attention mehanizmi na više razina | Znatno bolja točnost kod fragmentacije; koristi realni diskovni kontekst | Složenija arhitektura; zahtijeva GPU | VFF-16 |
| Transformer (Swin V2) | Uči hijerarhijske obrasce kroz attention nad cijelim fragmentom | Hvata dugodosežne zavisnosti unutar fragmenta | Potpuno naučene značajke bez ručnog dizajna | Najveća točnost; dobra generalizacija na nepoznate formate | Veliki računalni zahtjevi; potreba za optimizacijom | FFT-75, prošireni skupovi |
| XAI integracija | Objašnjavanje odluka modela (SHAP, LIME) | Analizira koje pozicije u fragmentu utječu na odluku | Važnost značajki i bajtova | Ključno za forenzička izvješća i sudsku prihvatljivost | Ne poboljšava točnost, već interpretaciju | Primjenjivo na sve navedene datasetove |

===== Izazovi i budući razvoj =====

Unatoč napretku, ručna analiza strukture datoteka i dalje se široko koristi, ali ne jamči potpune rezultate. Napredne metode često se oslanjaju na pretpostavke o strukturi datoteka i zahtijevaju prethodno znanje, što ograničava njihovu primjenu u heterogenim okruženjima. Rastuća količina podataka i fragmentacija stvaraju izazov skalabilnosti; istraživači stoga razvijaju lagane modele i tehnike samopozornosti.

Perspektive uključuju:

integraciju umjetne inteligencije za automatsku identifikaciju fragmenata, klasteriranje i rekonstrukciju;

širenje skupova podataka na multimedijske i kriptirane datoteke;

primjenu federiranog učenja radi zaštite privatnosti.

Također, očekuje se da će objašnjiva umjetna inteligencija postati standardni dio novih alata zbog regulatornih i etičkih zahtjeva.

^ Metoda ^ Prednosti ^ Ograničenja ^
| SVM | Brza i jednostavna implementacija | Oslanja se na ručne značajke |
| Byte2Image | Uključuje bitnu bajtnu strukturu | Veći memorijski zahtjevi |
| JSANet | Uvažava kontekst sektora | Viša složenost arhitekture |
| Transformer | Visoka točnost, automatsko učenje | Zahtijeva optimizaciju za izvedbu |

==== Primjene naprednih metoda u praksi ====

Napredne file carving metode koriste se u različitim stvarnim scenarijima:

  * Forenzička analiza kompromitiranih sustava
  * Povrat podataka iz oštećenih diskova
  * Oporavak dokaza u slučajevima cyber kriminala
  * Analiza fragmentiranih logova iz memorije

U praksi, učinkovitost metode ovisi o:

  * Vrsti datoteka (tekstualne, binarne, multimedijalne)
  * Stupnju fragmentacije
  * Dostupnosti konteksta (npr. sektori prije/poslije)


==== Najčešće pogreške i ograničenja ====

Unatoč napretku, često se javljaju sljedeći problemi:

  * Pretpostavka nefragmentiranosti:
    * Mnogi modeli očekuju cijeli sektor kao jedan fragment
  * Pretrenirani modeli:
    * Slabo generaliziraju na nove vrste datoteka
  * Zanemarivanje entropije:
    * Neki pristupi ne razlikuju podatke niske i visoke entropije
  * Neobjašnjive pogreške:
    * Nema uvida u razloge klasifikacijskih grešaka bez XAI pristupa

Rješenja uključuju povećanje raznolikosti skupova podataka i integraciju XAI alata za analizu.


===== Zaključak =====

Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput Byte2Image unose bitnu (intra-bajtnu) informaciju, dok XAI donosi transparentnost i povjerenje u odluke algoritama. Unatoč izazovima vezanim uz fragmentaciju i potrebu za a priori znanjem, trend razvoja jasno pokazuje kako kombinacija umjetne inteligencije i objašnjivosti vodi prema učinkovitijim i pouzdanijim metodama za oporavak datoteka u digitalnoj forenzici.

===== Literatura =====

[[https://doi.org/10.3390/make2030012|Bhatt
, M., Mishra, A., Kabir, M. W. U., Blake-Gatto, S. E., Rajendra, R., Hoque, M. T., & Ahmed, I. (2020). Hierarchy-Based File Fragment Classification. Machine Learning and Knowledge Extraction, 2(3), 216–232.]]

[[https://doi.org/10.3390/electronics13132438|Jinad
, R., Islam, A., & Shashidhar, N. (2024). Interpretability and Transparency of Machine Learning in File Fragment Analysis with Explainable Artificial Intelligence. Electronics, 13(13), 2438.]]

[[https://doi.org/10.32620/reks.2023.3.16|Boiko
, M., Moskalenko, V., & Shovkoplias, O. (2023). Advanced file carving: ontology, models and methods. Radioelectronic and Computer Systems, No. 3(107), 204–216.]]

[[https://doi.org/10.1109/ICCIT-144147971.2020.9213818|Alsubhi
, M. A., Moussa, A. N., Alfaqiri, A. S., & Khaleel, F. L. (2020). GenSpec: A File Fragment Classification Approach. In Proc. of the 2020 IEEE Int. Conf. on Computing and Information Technology (ICCIT-1441), pp. 1–5.]]

[[https://doi.org/10.1016/j.future.2021.09.019|Haque
, M. E., & Tozal, M. E. (2022). Byte embeddings for file fragment classification. Future Generation Computer Systems, 127, 448–461.]]

[[https://doi.org/10.1109/AICAS57966.2023.10168636|Liu
, W., Wang, Y., Wu, K., Yap, K. H., & Chau, L. P. (2023). A Byte Sequence is Worth an Image: CNN for File Fragment Classification Using Bit Shift and n-Gram Embeddings. In Proc. of the IEEE 5th Int. Conf. on Artificial Intelligence Circuits and Systems (AICAS 2023).]]

[[https://arxiv.org/abs/2305.00656|Ghaleb
, M., Saaim, K. M., Felemban, M., Al-Saleh, S., & Al-Mulhem, A. (2023). File Fragment Classification using Light-Weight Convolutional Neural Networks. arXiv:2305.00656.]]

[[https://doi.org/10.1016/j.knosys.2024.111565|Wang
, Y., Liu, W., Wu, K., Yap, K. H., & Chau, L. P. (2024). Intra- and inter-sector contextual information fusion with joint self-attention for file fragment classification. Knowledge-Based Systems, 291, Article 111565.]]

[[https://www.researchgate.net/publication/393049441_Transformer-Based_File_Fragment_Type_Classification_for_File_Carving_in_Digital_Forensics|Guzhov
, A., & Wirth, C. T. (2025). Transformer-Based File Fragment Type Classification for File Carving in Digital Forensics. In Proc. of the 24th European Conf. on Cyber Warfare and Security (ECCWS 2025), pp. 169–176.]]