===== Napredne file carving metode ===== ===== Uvod ===== **File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini digitalne forenzike koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne-kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. U praksi se file carving koristi kada su metapodaci namjerno uklonjeni (anti-forenzika), kada je došlo do korupcije datotečnog sustava ili kada se radi s “raw” zapisima gdje struktura nije pouzdana. Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, konvencionalne metode postaju nedostatne, a potrebno je razviti naprednije algoritme koji koriste strojno učenje i umjetnu inteligenciju. Poseban izazov predstavljaju datoteke visoke entropije (npr. komprimirane, šifrirane) te moderni mediji (SSD/flash) gdje mehanizmi poput wear-leveling-a i TRIM-a mogu smanjiti korisnost pretpostavki o prostornoj blizini fragmenata. **Napredne metode** file carvinga uvode nekoliko ključnih pomaka: * Prelazak s heurističkih pravila na podatkovno učenje * Korištenje konteksta između sektora umjesto izolirane obrade * Povećanje automatizacije i smanjenje potrebe za ljudskom analizom ==== Povijest i razvoj file carvinga ==== * **Rani razvoj:** File carving nastaje u kontekstu prve digitalne forenzike 1990-ih i ranih 2000-ih kao metoda oporavka datoteka kad su metapodaci nedostupni. Primjerice, simulacije i izumi poput „SmartCarvinga” od A. Pala i dr. bili su prvi korak prema oporavku fragmentiranih datoteka. * **DFRWS izazovi:** Godine 2006. održan je prvi [[https://www.dfrws.org|DFRWS Forensics Challenge]], s ciljem razrade boljih file-carving algoritama koji povećavaju broj pronađenih datoteka i smanjuju lažne pozitivne rezultate. Timovi (među pobjednicima bio je i Simson Garfinkel) pokazali su važnost preciznog traženja zaglavlja/repova. * **Taksonomija i standardi:** Radovi Simsona Garfinkela i sur. uveli su formalnu taksonomiju file carving tehnika (npr. //header/footer carving//, //semantic carving//). Također su se razvijali standardni testni skupovi (DFRWS zadaci) i alati za ocjenu. ==== Klasične metode file carvinga ==== Rani pristupi file carvingu oslanjali su se na prepoznavanje potpisa (npr. „header/footer”) te ručnu analizu strukture datoteka. Takve metode pretražuju tokove podataka kako bi pronašle početne i završne markere poznatih formata. U slučaju nefragmentiranih datoteka, postupak može biti vrlo učinkovit: pronađe se header, čita se kontinuirano i traži footer, te se rezultat validira. Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci. Dodatno, kod komprimiranih i visoko entropijskih sadržaja potpisi mogu biti rijetki ili nedovoljni za pouzdanu rekonstrukciju. ==== Pregled alata za file carving ==== U praksi se koriste brojni alati koji implementiraju klasične ili napredne metode: * PhotoRec * Otvorenog koda * Temelji se na prepoznavanju potpisa * Scalpel * Nasljednik Foremost-a * Brz i fleksibilan za ručnu konfiguraciju pravila * Bulk Extractor * Ne koristi strukturu datotečnog sustava * Analizira sadržaj za obrasce (npr. email adrese, URL-ove) * X-Ways Forensics * Komercijalni alat * Sadrži napredne heuristike za fragmentaciju Napredne metode još nisu široko integrirane u popularne GUI alate, ali se sve češće nalaze u istraživačkim prototipovima. ===== Usporedba pristupa: tradicionalno vs. moderno ===== Usporedba tradicionalnih i modernih pristupa file carvingu: * Tradicionalni pristupi: * Osnovani na prepoznavanju potpisa (header/footer) * Oslanjaju se na ručnu analizu * Ograničena skalabilnost i točnost * Moderni pristupi: * Korištenje dubokog učenja i kontekstualnog razumijevanja * Automatska detekcija uzoraka u fragmentima * Visoka točnost čak i kod nepoznatih formata ===== Strojno učenje i duboko učenje u file carvingu ===== S pojavom naprednih metoda strojnog učenja i dubokih neuronskih mreža, nakon 2020. razvijeno je više pristupa za klasifikaciju fragmenata datoteka. U nastavku su opisane neke od ključnih metoda i postignuća na tom području. ^ Metoda ^ Godina ^ Točnost (%) ^ F1-mjera (%) ^ | Hijerarhijska SVM | 2020 | 67.78 | 65.00 | | Byte2Image (CNN) | 2023 | 81.55 | 79.12 | | Depthwise CNN | 2022 | 78.45 | - | | JSANet | 2024 | 86.30 | 83.90 | | Transformer (Swin V2) | 2025 | 88.75 | 85.40 | ===== Hijerarhijska klasifikacija uz SVM (2020) ===== Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// predlaže hijerarhijski pristup klasifikaciji fragmenata. Kombinira općenite klasifikatore na višim razinama i specijalizirane klasifikatore na nižim razinama, a svaki čvor hijerarhije trenira se zasebnim SVM-om. Ovakav pristup odgovara stvarnim odnosima među formatima: lakše je prvo razdvojiti široke kategorije (tekst/binarno/multimedija), a zatim finije razlikovati slične formate. Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; postignuta je prosječna točnost od 67,78 % i F1-mjera od 65 %, uz dodatno poboljšanje nakon optimizacije strukture. Ovaj rad pokazao je kako strukturirana podjela zadatka može poboljšati performanse u odnosu na jednoklasni pristup. ==== GenSpec i rani pristupi (2020) ==== Konferencijski rad //GenSpec: A File Fragment Classification Approach// (ICCIT 2020) predlaže dvostupanjsku klasifikaciju: najprije se fragmenti klasificiraju po sadržaju, a zatim se preciznije određuje format. Autor naglašava da postojeće tehnike za klasifikaciju fragmenata treba poboljšati kako bi bile učinkovite za velik broj fragmenata. ==== Byte2Vec i Byte2Image (2022) ==== Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model Byte2Vec koristi //skip-gram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k-najbližih susjeda za klasifikaciju. Time se dobiva “semantika bajtova” kroz kontekst pojavljivanja, analogno NLP-u. Na ovu ideju nadovezuje se rad "A Byte Sequence is Worth an Image", koji uvodi tehniku Byte2Image: fragmenti bajtova pretvaraju se u 2D slike kako bi se obuhvatila intra-bajtna (bitna) informacija. Autor koristi klizni prozor po bitovima za očuvanje bitnih značajki i zatim pomoću CNN-a kombinira 2D sliku s izvornim nizom bajtova. Testovi na datasetu FFT-75 pokazuju da ova metoda značajno poboljšava točnost u usporedbi s postojećim pristupima, posebno kod formata s jasnim internim strukturama. ===== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) ===== Konferencijska publikacija iz 2022. predlaže lagani konvolucijski model utemeljen na depthwise separable konvolucijama za klasifikaciju file fragmenata. Model je dizajniran da postigne visoku točnost uz smanjenu složenost; postiže 78,45 % točnosti na FFT‑75 datasetu te je 24 puta brži i 4–5 puta manji od prethodnih konvolucijskih modela. Ovo pokazuje da je optimizacija arhitekture važna kako bi se strojno učenje primijenilo u praksi. ===== Samopozornost i kontekstualna fuzija (JSANet, 2024) ===== U 2024. godini predstavljena je Joint Self-Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self-attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self-attention rekalibrira značajke među kanalima, a sektor self-attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment. Na datasetu VFF-16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje, što je važno za realne forenzičke pipeline-ove. ===== Transformer‑bazirane metode (2025) ===== Najnovija istraživanja primjenjuju Transformer arhitekture na zadatak klasifikacije fragmenata. Rad iz 2025. koristi Swin Transformer V2 koji uči hijerarhijske obrasce u sirovim nizovima bajtova i klasificira fragmente bez oslanjanja na ručno dizajnirane značajke. Model nadmašuje tradicionalne metode na 512‑bajtnim blokovima i postiže kompetitivne rezultate na većim blokovima, pri čemu automatizira identifikaciju i smanjuje vrijeme oporavka dokaza. {{:racfor_wiki:seminari2025:538892.png?400|}} ===== Objašnjiva umjetna inteligencija (XAI, 2024) ===== Kako su modeli sve složeniji, raste potreba za transparentnošću i objašnjivošću. Studija iz 2024. primjenjuje SHAP i LIME kako bi objasnila odluke četiri modela klasifikacije file fragmenata. Analiza pokazuje da XAI može identificirati ključne značajke koje utječu na predikcije i tako poboljšati povjerenje te omogućiti prilagodbu modela. Takva objašnjivost posebno je važna u digitalnoj forenzici i kibernetičkoj sigurnosti gdje pogrešne odluke mogu imati pravne posljedice. ^ Model ^ Tehnika XAI ^ Što objašnjava ^ | CNN | SHAP | Važnost pojedinih bajtova | | SVM | LIME | Odabir značajki klasifikacije | | Transformer | SHAP + LIME | Donošenje odluka u kompleksnim obrascima | ==== Primjena XAI u digitalnoj forenzici ==== **XAI metode** igraju ključnu ulogu u razumijevanju i dokumentiranju algoritamskih odluka: * SHAP * Vizualizira doprinos pojedinih bajtova klasifikaciji * LIME * Stvara lokalne aproksimacije modela za ljudsku interpretaciju * Feature importance heatmaps * Pokazuju koji dijelovi fragmenta utječu na odluku Koristi se u: * Sudskim postupcima za objašnjenje nalaza * Forenzičkim izvješćima za transparentnost * Treningu i validaciji modela u sigurnosnim laboratorijima {{:racfor_wiki:seminari2025:538893.png?200|}} ==== Evaluacija i skupovi podataka ==== Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT-75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF-16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; model postiže poboljšanje točnosti od 16,3 % i brzinu od 5,1 s/GB. Procjena uključuje metrike točnosti i F1-mjere, a trend je povećati točnost uz smanjenje računskih zahtjeva. Dodatno se koriste i drugi skupovi podataka: * govdocs1 — standardni skup za opću klasifikaciju * FALCON dataset — multimedijski fragmenti visoke entropije * Custom corpora — proizvoljni skupovi za specifične slučajeve Evaluacija uključuje i sljedeće metrike: * Brzina obrade (npr. MB/s, s/GB) * Robusnost na šum i nepoznate formate * Skalabilnost na velike količine fragmenata ^ Metoda / pristup ^ Temeljna ideja ^ Kako tretira fragmente ^ Vrsta značajki koje koristi ^ Prednosti u forenzici ^ Ograničenja u realnim slučajevima ^ Tipični datasetovi ^ | Header/Footer carving | Traženje poznatih potpisa zaglavlja i završetka datoteke | Fragmente tretira izolirano; oslanja se na kontinuitet između headera i footera | Ručno definirani potpisi, magični brojevi, strukturalni markeri | Vrlo brz, jednostavan za implementaciju, pouzdan za nefragmentirane datoteke | Ne radi dobro kod fragmentacije, kompresije i nepoznatih formata; velik broj lažnih pozitivnih rezultata | DFRWS test slike, realni disk dumpovi | | Heuristički carving | Analiza unutarnje strukture datoteka i validacija polja (duljine, offseti, kontrole) | Pokušava rekonstruirati redoslijed fragmenata kroz validaciju strukture | Ručno dizajnirane heuristike, parseri specifični za formate | Može rekonstruirati fragmentirane datoteke ako je struktura poznata | Zahtijeva duboko znanje formata; ne skalira se; slabo radi s novim verzijama formata | govdocs1, ručno pripremljeni uzorci | | SVM hijerarhija | Višerazinska klasifikacija: grube pa fine klase | Svaki fragment klasificira neovisno, ali u hijerarhiji tipova | Statističke značajke (n-grami, entropija, frekvencije bajtova) | Bolja preciznost od jednostavne klasifikacije; dobar balans brzine i točnosti | Ovisi o ručno dizajniranim značajkama; slabije generalizira | govdocs1 (14 klasa, 512 B) | | Byte2Vec | Učenje “semantike bajtova” kroz kontekst pojavljivanja (skip-gram) | Fragmente promatra kao sekvence gdje je važan lokalni kontekst bajtova | Naučene vektorske reprezentacije bajtova (embeddings) | Ne zahtijeva ručno definirane značajke; hvata suptilne obrasce | Ograničen kapacitet modela; ne koristi prostornu (bitnu) strukturu | FFT-75 | | Byte2Image (CNN) | Pretvara niz bajtova u 2D sliku radi hvatanja bitnih obrazaca | Fragmente tretira kao prostorne entitete (slike) | Bit-shift transformacije + CNN značajke | Hvata intra-bajtne informacije; vrlo dobra točnost kod strukturiranih formata | Veći memorijski zahtjevi; sporije od lakših CNN modela | FFT-75 | | Depthwise CNN | Optimizirani CNN s rastavljenim konvolucijama | Fragmente tretira izolirano, ali vrlo učinkovito | Automatski naučene konvolucijske značajke | Vrlo brz, malen model, pogodan za velike količine podataka | Ne koristi kontekst susjednih sektora | FFT-75 | | JSANet (Self-Attention) | Kombinira pažnju po bajtovima, kanalima i sektorima | Uvažava kontekst susjednih sektora | Attention mehanizmi na više razina | Znatno bolja točnost kod fragmentacije; koristi realni diskovni kontekst | Složenija arhitektura; zahtijeva GPU | VFF-16 | | Transformer (Swin V2) | Uči hijerarhijske obrasce kroz attention nad cijelim fragmentom | Hvata dugodosežne zavisnosti unutar fragmenta | Potpuno naučene značajke bez ručnog dizajna | Najveća točnost; dobra generalizacija na nepoznate formate | Veliki računalni zahtjevi; potreba za optimizacijom | FFT-75, prošireni skupovi | | XAI integracija | Objašnjavanje odluka modela (SHAP, LIME) | Analizira koje pozicije u fragmentu utječu na odluku | Važnost značajki i bajtova | Ključno za forenzička izvješća i sudsku prihvatljivost | Ne poboljšava točnost, već interpretaciju | Primjenjivo na sve navedene datasetove | ===== Izazovi i budući razvoj ===== Unatoč napretku, ručna analiza strukture datoteka i dalje se široko koristi, ali ne jamči potpune rezultate. Napredne metode često se oslanjaju na pretpostavke o strukturi datoteka i zahtijevaju prethodno znanje, što ograničava njihovu primjenu u heterogenim okruženjima. Rastuća količina podataka i fragmentacija stvaraju izazov skalabilnosti; istraživači stoga razvijaju lagane modele i tehnike samopozornosti. Perspektive uključuju: integraciju umjetne inteligencije za automatsku identifikaciju fragmenata, klasteriranje i rekonstrukciju; širenje skupova podataka na multimedijske i kriptirane datoteke; primjenu federiranog učenja radi zaštite privatnosti. Također, očekuje se da će objašnjiva umjetna inteligencija postati standardni dio novih alata zbog regulatornih i etičkih zahtjeva. ^ Metoda ^ Prednosti ^ Ograničenja ^ | SVM | Brza i jednostavna implementacija | Oslanja se na ručne značajke | | Byte2Image | Uključuje bitnu bajtnu strukturu | Veći memorijski zahtjevi | | JSANet | Uvažava kontekst sektora | Viša složenost arhitekture | | Transformer | Visoka točnost, automatsko učenje | Zahtijeva optimizaciju za izvedbu | ==== Primjene naprednih metoda u praksi ==== Napredne file carving metode koriste se u različitim stvarnim scenarijima: * Forenzička analiza kompromitiranih sustava * Povrat podataka iz oštećenih diskova * Oporavak dokaza u slučajevima cyber kriminala * Analiza fragmentiranih logova iz memorije U praksi, učinkovitost metode ovisi o: * Vrsti datoteka (tekstualne, binarne, multimedijalne) * Stupnju fragmentacije * Dostupnosti konteksta (npr. sektori prije/poslije) ==== Najčešće pogreške i ograničenja ==== Unatoč napretku, često se javljaju sljedeći problemi: * Pretpostavka nefragmentiranosti: * Mnogi modeli očekuju cijeli sektor kao jedan fragment * Pretrenirani modeli: * Slabo generaliziraju na nove vrste datoteka * Zanemarivanje entropije: * Neki pristupi ne razlikuju podatke niske i visoke entropije * Neobjašnjive pogreške: * Nema uvida u razloge klasifikacijskih grešaka bez XAI pristupa Rješenja uključuju povećanje raznolikosti skupova podataka i integraciju XAI alata za analizu. ===== Zaključak ===== Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput Byte2Image unose bitnu (intra-bajtnu) informaciju, dok XAI donosi transparentnost i povjerenje u odluke algoritama. Unatoč izazovima vezanim uz fragmentaciju i potrebu za a priori znanjem, trend razvoja jasno pokazuje kako kombinacija umjetne inteligencije i objašnjivosti vodi prema učinkovitijim i pouzdanijim metodama za oporavak datoteka u digitalnoj forenzici. ===== Literatura ===== [[https://doi.org/10.3390/make2030012|Bhatt , M., Mishra, A., Kabir, M. W. U., Blake-Gatto, S. E., Rajendra, R., Hoque, M. T., & Ahmed, I. (2020). Hierarchy-Based File Fragment Classification. Machine Learning and Knowledge Extraction, 2(3), 216–232.]] [[https://doi.org/10.3390/electronics13132438|Jinad , R., Islam, A., & Shashidhar, N. (2024). Interpretability and Transparency of Machine Learning in File Fragment Analysis with Explainable Artificial Intelligence. Electronics, 13(13), 2438.]] [[https://doi.org/10.32620/reks.2023.3.16|Boiko , M., Moskalenko, V., & Shovkoplias, O. (2023). Advanced file carving: ontology, models and methods. Radioelectronic and Computer Systems, No. 3(107), 204–216.]] [[https://doi.org/10.1109/ICCIT-144147971.2020.9213818|Alsubhi , M. A., Moussa, A. N., Alfaqiri, A. S., & Khaleel, F. L. (2020). GenSpec: A File Fragment Classification Approach. In Proc. of the 2020 IEEE Int. Conf. on Computing and Information Technology (ICCIT-1441), pp. 1–5.]] [[https://doi.org/10.1016/j.future.2021.09.019|Haque , M. E., & Tozal, M. E. (2022). Byte embeddings for file fragment classification. Future Generation Computer Systems, 127, 448–461.]] [[https://doi.org/10.1109/AICAS57966.2023.10168636|Liu , W., Wang, Y., Wu, K., Yap, K. H., & Chau, L. P. (2023). A Byte Sequence is Worth an Image: CNN for File Fragment Classification Using Bit Shift and n-Gram Embeddings. In Proc. of the IEEE 5th Int. Conf. on Artificial Intelligence Circuits and Systems (AICAS 2023).]] [[https://arxiv.org/abs/2305.00656|Ghaleb , M., Saaim, K. M., Felemban, M., Al-Saleh, S., & Al-Mulhem, A. (2023). File Fragment Classification using Light-Weight Convolutional Neural Networks. arXiv:2305.00656.]] [[https://doi.org/10.1016/j.knosys.2024.111565|Wang , Y., Liu, W., Wu, K., Yap, K. H., & Chau, L. P. (2024). Intra- and inter-sector contextual information fusion with joint self-attention for file fragment classification. Knowledge-Based Systems, 291, Article 111565.]] [[https://www.researchgate.net/publication/393049441_Transformer-Based_File_Fragment_Type_Classification_for_File_Carving_in_Digital_Forensics|Guzhov , A., & Wirth, C. T. (2025). Transformer-Based File Fragment Type Classification for File Carving in Digital Forensics. In Proc. of the 24th European Conf. on Cyber Warfare and Security (ECCWS 2025), pp. 169–176.]]