Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
Prijevodi ove stranice:

Napredne file carving metode

Uvod

File carving je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini digitalne forenzike koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne-kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. U praksi se file carving koristi kada su metapodaci namjerno uklonjeni (anti-forenzika), kada je došlo do korupcije datotečnog sustava ili kada se radi s “raw” zapisima gdje struktura nije pouzdana.

Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, konvencionalne metode postaju nedostatne, a potrebno je razviti naprednije algoritme koji koriste strojno učenje i umjetnu inteligenciju. Poseban izazov predstavljaju datoteke visoke entropije (npr. komprimirane, šifrirane) te moderni mediji (SSD/flash) gdje mehanizmi poput wear-leveling-a i TRIM-a mogu smanjiti korisnost pretpostavki o prostornoj blizini fragmenata.

Napredne metode file carvinga uvode nekoliko ključnih pomaka:

  • Prelazak s heurističkih pravila na podatkovno učenje
  • Korištenje konteksta između sektora umjesto izolirane obrade
  • Povećanje automatizacije i smanjenje potrebe za ljudskom analizom

Povijest i razvoj file carvinga

  • Rani razvoj: File carving nastaje u kontekstu prve digitalne forenzike 1990-ih i ranih 2000-ih kao metoda oporavka datoteka kad su metapodaci nedostupni. Primjerice, simulacije i izumi poput „SmartCarvinga” od A. Pala i dr. bili su prvi korak prema oporavku fragmentiranih datoteka.
  • DFRWS izazovi: Godine 2006. održan je prvi DFRWS Forensics Challenge, s ciljem razrade boljih file-carving algoritama koji povećavaju broj pronađenih datoteka i smanjuju lažne pozitivne rezultate. Timovi (među pobjednicima bio je i Simson Garfinkel) pokazali su važnost preciznog traženja zaglavlja/repova.
  • Taksonomija i standardi: Radovi Simsona Garfinkela i sur. uveli su formalnu taksonomiju file carving tehnika (npr. header/footer carving, semantic carving). Također su se razvijali standardni testni skupovi (DFRWS zadaci) i alati za ocjenu.

Klasične metode file carvinga

Rani pristupi file carvingu oslanjali su se na prepoznavanje potpisa (npr. „header/footer”) te ručnu analizu strukture datoteka. Takve metode pretražuju tokove podataka kako bi pronašle početne i završne markere poznatih formata. U slučaju nefragmentiranih datoteka, postupak može biti vrlo učinkovit: pronađe se header, čita se kontinuirano i traži footer, te se rezultat validira.

Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci. Dodatno, kod komprimiranih i visoko entropijskih sadržaja potpisi mogu biti rijetki ili nedovoljni za pouzdanu rekonstrukciju.

Pregled alata za file carving

U praksi se koriste brojni alati koji implementiraju klasične ili napredne metode:

  • PhotoRec
    • Otvorenog koda
    • Temelji se na prepoznavanju potpisa
  • Scalpel
    • Nasljednik Foremost-a
    • Brz i fleksibilan za ručnu konfiguraciju pravila
  • Bulk Extractor
    • Ne koristi strukturu datotečnog sustava
    • Analizira sadržaj za obrasce (npr. email adrese, URL-ove)
  • X-Ways Forensics
    • Komercijalni alat
    • Sadrži napredne heuristike za fragmentaciju

Napredne metode još nisu široko integrirane u popularne GUI alate, ali se sve češće nalaze u istraživačkim prototipovima.

Usporedba pristupa: tradicionalno vs. moderno

Usporedba tradicionalnih i modernih pristupa file carvingu:

  • Tradicionalni pristupi:
    • Osnovani na prepoznavanju potpisa (header/footer)
    • Oslanjaju se na ručnu analizu
    • Ograničena skalabilnost i točnost
  • Moderni pristupi:
    • Korištenje dubokog učenja i kontekstualnog razumijevanja
    • Automatska detekcija uzoraka u fragmentima
    • Visoka točnost čak i kod nepoznatih formata

Strojno učenje i duboko učenje u file carvingu

S pojavom naprednih metoda strojnog učenja i dubokih neuronskih mreža, nakon 2020. razvijeno je više pristupa za klasifikaciju fragmenata datoteka. U nastavku su opisane neke od ključnih metoda i postignuća na tom području.

Metoda Godina Točnost (%) F1-mjera (%)
Hijerarhijska SVM 2020 67.78 65.00
Byte2Image (CNN) 2023 81.55 79.12
Depthwise CNN 2022 78.45 -
JSANet 2024 86.30 83.90
Transformer (Swin V2) 2025 88.75 85.40

Hijerarhijska klasifikacija uz SVM (2020)

Rad objavljen 2020. u časopisu Machine Learning and Knowledge Extraction predlaže hijerarhijski pristup klasifikaciji fragmenata. Kombinira općenite klasifikatore na višim razinama i specijalizirane klasifikatore na nižim razinama, a svaki čvor hijerarhije trenira se zasebnim SVM-om. Ovakav pristup odgovara stvarnim odnosima među formatima: lakše je prvo razdvojiti široke kategorije (tekst/binarno/multimedija), a zatim finije razlikovati slične formate.

Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; postignuta je prosječna točnost od 67,78 % i F1-mjera od 65 %, uz dodatno poboljšanje nakon optimizacije strukture. Ovaj rad pokazao je kako strukturirana podjela zadatka može poboljšati performanse u odnosu na jednoklasni pristup.

GenSpec i rani pristupi (2020)

Konferencijski rad GenSpec: A File Fragment Classification Approach (ICCIT 2020) predlaže dvostupanjsku klasifikaciju: najprije se fragmenti klasificiraju po sadržaju, a zatim se preciznije određuje format. Autor naglašava da postojeće tehnike za klasifikaciju fragmenata treba poboljšati kako bi bile učinkovite za velik broj fragmenata.

Byte2Vec i Byte2Image (2022)

Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model Byte2Vec koristi skip-gram kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k-najbližih susjeda za klasifikaciju. Time se dobiva “semantika bajtova” kroz kontekst pojavljivanja, analogno NLP-u.

Na ovu ideju nadovezuje se rad “A Byte Sequence is Worth an Image”, koji uvodi tehniku Byte2Image: fragmenti bajtova pretvaraju se u 2D slike kako bi se obuhvatila intra-bajtna (bitna) informacija. Autor koristi klizni prozor po bitovima za očuvanje bitnih značajki i zatim pomoću CNN-a kombinira 2D sliku s izvornim nizom bajtova. Testovi na datasetu FFT-75 pokazuju da ova metoda značajno poboljšava točnost u usporedbi s postojećim pristupima, posebno kod formata s jasnim internim strukturama.

Duboke konvolucijske mreže s rastavljenim konvolucijama (2022)

Konferencijska publikacija iz 2022. predlaže lagani konvolucijski model utemeljen na depthwise separable konvolucijama za klasifikaciju file fragmenata. Model je dizajniran da postigne visoku točnost uz smanjenu složenost; postiže 78,45 % točnosti na FFT‑75 datasetu te je 24 puta brži i 4–5 puta manji od prethodnih konvolucijskih modela. Ovo pokazuje da je optimizacija arhitekture važna kako bi se strojno učenje primijenilo u praksi.

Samopozornost i kontekstualna fuzija (JSANet, 2024)

U 2024. godini predstavljena je Joint Self-Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self-attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self-attention rekalibrira značajke među kanalima, a sektor self-attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment.

Na datasetu VFF-16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje, što je važno za realne forenzičke pipeline-ove.

Transformer‑bazirane metode (2025)

Najnovija istraživanja primjenjuju Transformer arhitekture na zadatak klasifikacije fragmenata. Rad iz 2025. koristi Swin Transformer V2 koji uči hijerarhijske obrasce u sirovim nizovima bajtova i klasificira fragmente bez oslanjanja na ručno dizajnirane značajke. Model nadmašuje tradicionalne metode na 512‑bajtnim blokovima i postiže kompetitivne rezultate na većim blokovima, pri čemu automatizira identifikaciju i smanjuje vrijeme oporavka dokaza.

Objašnjiva umjetna inteligencija (XAI, 2024)

Kako su modeli sve složeniji, raste potreba za transparentnošću i objašnjivošću. Studija iz 2024. primjenjuje SHAP i LIME kako bi objasnila odluke četiri modela klasifikacije file fragmenata. Analiza pokazuje da XAI može identificirati ključne značajke koje utječu na predikcije i tako poboljšati povjerenje te omogućiti prilagodbu modela. Takva objašnjivost posebno je važna u digitalnoj forenzici i kibernetičkoj sigurnosti gdje pogrešne odluke mogu imati pravne posljedice.

Model Tehnika XAI Što objašnjava
CNN SHAP Važnost pojedinih bajtova
SVM LIME Odabir značajki klasifikacije
Transformer SHAP + LIME Donošenje odluka u kompleksnim obrascima

Primjena XAI u digitalnoj forenzici

XAI metode igraju ključnu ulogu u razumijevanju i dokumentiranju algoritamskih odluka:

  • SHAP
    • Vizualizira doprinos pojedinih bajtova klasifikaciji
  • LIME
    • Stvara lokalne aproksimacije modela za ljudsku interpretaciju
  • Feature importance heatmaps
    • Pokazuju koji dijelovi fragmenta utječu na odluku

Koristi se u:

  • Sudskim postupcima za objašnjenje nalaza
  • Forenzičkim izvješćima za transparentnost
  • Treningu i validaciji modela u sigurnosnim laboratorijima

Evaluacija i skupovi podataka

Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT-75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF-16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; model postiže poboljšanje točnosti od 16,3 % i brzinu od 5,1 s/GB. Procjena uključuje metrike točnosti i F1-mjere, a trend je povećati točnost uz smanjenje računskih zahtjeva.

Dodatno se koriste i drugi skupovi podataka:

  • govdocs1 — standardni skup za opću klasifikaciju
  • FALCON dataset — multimedijski fragmenti visoke entropije
  • Custom corpora — proizvoljni skupovi za specifične slučajeve

Evaluacija uključuje i sljedeće metrike:

  • Brzina obrade (npr. MB/s, s/GB)
  • Robusnost na šum i nepoznate formate
  • Skalabilnost na velike količine fragmenata
Metoda / pristup Temeljna ideja Kako tretira fragmente Vrsta značajki koje koristi Prednosti u forenzici Ograničenja u realnim slučajevima Tipični datasetovi
Header/Footer carving Traženje poznatih potpisa zaglavlja i završetka datoteke Fragmente tretira izolirano; oslanja se na kontinuitet između headera i footera Ručno definirani potpisi, magični brojevi, strukturalni markeri Vrlo brz, jednostavan za implementaciju, pouzdan za nefragmentirane datoteke Ne radi dobro kod fragmentacije, kompresije i nepoznatih formata; velik broj lažnih pozitivnih rezultata DFRWS test slike, realni disk dumpovi
Heuristički carving Analiza unutarnje strukture datoteka i validacija polja (duljine, offseti, kontrole) Pokušava rekonstruirati redoslijed fragmenata kroz validaciju strukture Ručno dizajnirane heuristike, parseri specifični za formate Može rekonstruirati fragmentirane datoteke ako je struktura poznata Zahtijeva duboko znanje formata; ne skalira se; slabo radi s novim verzijama formata govdocs1, ručno pripremljeni uzorci
SVM hijerarhija Višerazinska klasifikacija: grube pa fine klase Svaki fragment klasificira neovisno, ali u hijerarhiji tipova Statističke značajke (n-grami, entropija, frekvencije bajtova) Bolja preciznost od jednostavne klasifikacije; dobar balans brzine i točnosti Ovisi o ručno dizajniranim značajkama; slabije generalizira govdocs1 (14 klasa, 512 B)
Byte2Vec Učenje “semantike bajtova” kroz kontekst pojavljivanja (skip-gram) Fragmente promatra kao sekvence gdje je važan lokalni kontekst bajtova Naučene vektorske reprezentacije bajtova (embeddings) Ne zahtijeva ručno definirane značajke; hvata suptilne obrasce Ograničen kapacitet modela; ne koristi prostornu (bitnu) strukturu FFT-75
Byte2Image (CNN) Pretvara niz bajtova u 2D sliku radi hvatanja bitnih obrazaca Fragmente tretira kao prostorne entitete (slike) Bit-shift transformacije + CNN značajke Hvata intra-bajtne informacije; vrlo dobra točnost kod strukturiranih formata Veći memorijski zahtjevi; sporije od lakših CNN modela FFT-75
Depthwise CNN Optimizirani CNN s rastavljenim konvolucijama Fragmente tretira izolirano, ali vrlo učinkovito Automatski naučene konvolucijske značajke Vrlo brz, malen model, pogodan za velike količine podataka Ne koristi kontekst susjednih sektora FFT-75
JSANet (Self-Attention) Kombinira pažnju po bajtovima, kanalima i sektorima Uvažava kontekst susjednih sektora Attention mehanizmi na više razina Znatno bolja točnost kod fragmentacije; koristi realni diskovni kontekst Složenija arhitektura; zahtijeva GPU VFF-16
Transformer (Swin V2) Uči hijerarhijske obrasce kroz attention nad cijelim fragmentom Hvata dugodosežne zavisnosti unutar fragmenta Potpuno naučene značajke bez ručnog dizajna Najveća točnost; dobra generalizacija na nepoznate formate Veliki računalni zahtjevi; potreba za optimizacijom FFT-75, prošireni skupovi
XAI integracija Objašnjavanje odluka modela (SHAP, LIME) Analizira koje pozicije u fragmentu utječu na odluku Važnost značajki i bajtova Ključno za forenzička izvješća i sudsku prihvatljivost Ne poboljšava točnost, već interpretaciju Primjenjivo na sve navedene datasetove

Izazovi i budući razvoj

Unatoč napretku, ručna analiza strukture datoteka i dalje se široko koristi, ali ne jamči potpune rezultate. Napredne metode često se oslanjaju na pretpostavke o strukturi datoteka i zahtijevaju prethodno znanje, što ograničava njihovu primjenu u heterogenim okruženjima. Rastuća količina podataka i fragmentacija stvaraju izazov skalabilnosti; istraživači stoga razvijaju lagane modele i tehnike samopozornosti.

Perspektive uključuju:

integraciju umjetne inteligencije za automatsku identifikaciju fragmenata, klasteriranje i rekonstrukciju;

širenje skupova podataka na multimedijske i kriptirane datoteke;

primjenu federiranog učenja radi zaštite privatnosti.

Također, očekuje se da će objašnjiva umjetna inteligencija postati standardni dio novih alata zbog regulatornih i etičkih zahtjeva.

Metoda Prednosti Ograničenja
SVM Brza i jednostavna implementacija Oslanja se na ručne značajke
Byte2Image Uključuje bitnu bajtnu strukturu Veći memorijski zahtjevi
JSANet Uvažava kontekst sektora Viša složenost arhitekture
Transformer Visoka točnost, automatsko učenje Zahtijeva optimizaciju za izvedbu

Primjene naprednih metoda u praksi

Napredne file carving metode koriste se u različitim stvarnim scenarijima:

  • Forenzička analiza kompromitiranih sustava
  • Povrat podataka iz oštećenih diskova
  • Oporavak dokaza u slučajevima cyber kriminala
  • Analiza fragmentiranih logova iz memorije

U praksi, učinkovitost metode ovisi o:

  • Vrsti datoteka (tekstualne, binarne, multimedijalne)
  • Stupnju fragmentacije
  • Dostupnosti konteksta (npr. sektori prije/poslije)

Najčešće pogreške i ograničenja

Unatoč napretku, često se javljaju sljedeći problemi:

  • Pretpostavka nefragmentiranosti:
    • Mnogi modeli očekuju cijeli sektor kao jedan fragment
  • Pretrenirani modeli:
    • Slabo generaliziraju na nove vrste datoteka
  • Zanemarivanje entropije:
    • Neki pristupi ne razlikuju podatke niske i visoke entropije
  • Neobjašnjive pogreške:
    • Nema uvida u razloge klasifikacijskih grešaka bez XAI pristupa

Rješenja uključuju povećanje raznolikosti skupova podataka i integraciju XAI alata za analizu.

Zaključak

Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput Byte2Image unose bitnu (intra-bajtnu) informaciju, dok XAI donosi transparentnost i povjerenje u odluke algoritama. Unatoč izazovima vezanim uz fragmentaciju i potrebu za a priori znanjem, trend razvoja jasno pokazuje kako kombinacija umjetne inteligencije i objašnjivosti vodi prema učinkovitijim i pouzdanijim metodama za oporavak datoteka u digitalnoj forenzici.

Literatura

Bhatt , M., Mishra, A., Kabir, M. W. U., Blake-Gatto, S. E., Rajendra, R., Hoque, M. T., & Ahmed, I. (2020). Hierarchy-Based File Fragment Classification. Machine Learning and Knowledge Extraction, 2(3), 216–232.

Jinad , R., Islam, A., & Shashidhar, N. (2024). Interpretability and Transparency of Machine Learning in File Fragment Analysis with Explainable Artificial Intelligence. Electronics, 13(13), 2438.

Boiko , M., Moskalenko, V., & Shovkoplias, O. (2023). Advanced file carving: ontology, models and methods. Radioelectronic and Computer Systems, No. 3(107), 204–216.

Alsubhi , M. A., Moussa, A. N., Alfaqiri, A. S., & Khaleel, F. L. (2020). GenSpec: A File Fragment Classification Approach. In Proc. of the 2020 IEEE Int. Conf. on Computing and Information Technology (ICCIT-1441), pp. 1–5.

Haque , M. E., & Tozal, M. E. (2022). Byte embeddings for file fragment classification. Future Generation Computer Systems, 127, 448–461.

Liu , W., Wang, Y., Wu, K., Yap, K. H., & Chau, L. P. (2023). A Byte Sequence is Worth an Image: CNN for File Fragment Classification Using Bit Shift and n-Gram Embeddings. In Proc. of the IEEE 5th Int. Conf. on Artificial Intelligence Circuits and Systems (AICAS 2023).

Ghaleb , M., Saaim, K. M., Felemban, M., Al-Saleh, S., & Al-Mulhem, A. (2023). File Fragment Classification using Light-Weight Convolutional Neural Networks. arXiv:2305.00656.

Wang , Y., Liu, W., Wu, K., Yap, K. H., & Chau, L. P. (2024). Intra- and inter-sector contextual information fusion with joint self-attention for file fragment classification. Knowledge-Based Systems, 291, Article 111565.

Guzhov , A., & Wirth, C. T. (2025). Transformer-Based File Fragment Type Classification for File Carving in Digital Forensics. In Proc. of the 24th European Conf. on Cyber Warfare and Security (ECCWS 2025), pp. 169–176.

racfor_wiki/seminari2025/mb53889.txt · Zadnja izmjena: 2026/01/28 14:07 od Martin Bogoje
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0