Razlike

Slijede razlike između dviju inačica stranice.

--- racfor_wiki:seminari2025:mb53889 [2026/01/28 13:49]
mb53889 [Strojno učenje i duboko učenje u file carvingu]
+++ racfor_wiki:seminari2025:mb53889 [2026/01/28 14:07] (trenutno)
mb53889
@@ Redak 3: / Redak 3: @@
 ===== Uvod =====
-**File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini **digitalne forenzike** koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne‑kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, konvencionalne metode postaju nedostatne, a potrebno je razviti naprednije algoritme koji koriste **strojno učenje** i **umjetnu inteligenciju**.
+**File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini digitalne forenzike koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne-kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. U praksi se file carving koristi kada su metapodaci namjerno uklonjeni (anti-forenzika), kada je došlo do korupcije datotečnog sustava ili kada se radi s “raw” zapisima gdje struktura nije pouzdana.
+Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, konvencionalne metode postaju nedostatne, a potrebno je razviti naprednije algoritme koji koriste strojno učenje i umjetnu inteligenciju. Poseban izazov predstavljaju datoteke visoke entropije (npr. komprimirane, šifrirane) te moderni mediji (SSD/flash) gdje mehanizmi poput wear-leveling-a i TRIM-a mogu smanjiti korisnost pretpostavki o prostornoj blizini fragmenata.
 **Napredne metode** file carvinga uvode nekoliko ključnih pomaka:
@@ Redak 22: / Redak 24: @@
 ==== Klasične metode file carvinga ====
-Rani pristupi file carvingu oslanjali su se na **prepoznavanje potpisa** (npr. „header/footer”) te ručnu analizu strukture datoteka. Takve metode pretražuju tokove podataka kako bi pronašle početne i završne markere poznatih formata. Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci.
+Rani pristupi file carvingu oslanjali su se na prepoznavanje potpisa (npr. „header/footer”) te ručnu analizu strukture datoteka. Takve metode pretražuju tokove podataka kako bi pronašle početne i završne markere poznatih formata. U slučaju nefragmentiranih datoteka, postupak može biti vrlo učinkovit: pronađe se header, čita se kontinuirano i traži footer, te se rezultat validira.
+Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci. Dodatno, kod komprimiranih i visoko entropijskih sadržaja potpisi mogu biti rijetki ili nedovoljni za pouzdanu rekonstrukciju.
 ==== Pregled alata za file carving ====
@@ Redak 71: / Redak 75: @@
-==== Hijerarhijska klasifikacija uz SVM (2020) ====
+===== Hijerarhijska klasifikacija uz SVM (2020) =====
-Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// predlaže **hijerarhijski pristup** klasifikaciji fragmenata. Kombinira općenite klasifikatore na višim razinama i specijalizirane klasifikatore na nižim razinama, a svaki čvor hijerarhije trenira se zasebnim SVM-om. Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; postignuta je prosječna točnost od 67,78 % i F1-mjera od 65 %, uz dodatno poboljšanje nakon optimizacije strukture. Ovaj rad pokazao je kako strukturirana podjela zadatka može poboljšati performanse u odnosu na jednoklasni pristup.
+Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// predlaže hijerarhijski pristup klasifikaciji fragmenata. Kombinira općenite klasifikatore na višim razinama i specijalizirane klasifikatore na nižim razinama, a svaki čvor hijerarhije trenira se zasebnim SVM-om. Ovakav pristup odgovara stvarnim odnosima među formatima: lakše je prvo razdvojiti široke kategorije (tekst/binarno/multimedija), a zatim finije razlikovati slične formate.
+Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; postignuta je prosječna točnost od 67,78 % i F1-mjera od 65 %, uz dodatno poboljšanje nakon optimizacije strukture. Ovaj rad pokazao je kako strukturirana podjela zadatka može poboljšati performanse u odnosu na jednoklasni pristup.
 ==== GenSpec i rani pristupi (2020) ====
@@ Redak 81: / Redak 87: @@
 ==== Byte2Vec i Byte2Image (2022) ====
-Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model **Byte2Vec** koristi //skip‑gram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k‑najbližih susjeda za klasifikaciju. Na ovu ideju nadovezuje se rad "A Byte Sequence is Worth an Image", koji uvodi tehniku Byte2Image: fragmenti bajtova pretvaraju se u 2D slike kako bi se obuhvatila intra‑bajtna (bitna) informacija. Autor koristi klizni prozor po bitovima za očuvanje bitnih značajki i zatim pomoću CNN‑a kombinira 2D sliku s izvornim nizom bajtova. Testovi na datasetu FFT‑75 pokazuju da ova metoda značajno poboljšava točnost u usporedbi s postojećim pristupima.
+Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model Byte2Vec koristi //skip-gram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k-najbližih susjeda za klasifikaciju. Time se dobiva “semantika bajtova” kroz kontekst pojavljivanja, analogno NLP-u.
-==== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) ====
+Na ovu ideju nadovezuje se rad "A Byte Sequence is Worth an Image", koji uvodi tehniku Byte2Image: fragmenti bajtova pretvaraju se u 2D slike kako bi se obuhvatila intra-bajtna (bitna) informacija. Autor koristi klizni prozor po bitovima za očuvanje bitnih značajki i zatim pomoću CNN-a kombinira 2D sliku s izvornim nizom bajtova. Testovi na datasetu FFT-75 pokazuju da ova metoda značajno poboljšava točnost u usporedbi s postojećim pristupima, posebno kod formata s jasnim internim strukturama.
+===== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) =====
 Konferencijska publikacija iz 2022. predlaže lagani konvolucijski model utemeljen na depthwise separable konvolucijama za klasifikaciju file fragmenata. Model je dizajniran da postigne visoku točnost uz smanjenu složenost; postiže 78,45 % točnosti na FFT‑75 datasetu te je 24 puta brži i 4–5 puta manji od prethodnih konvolucijskih modela. Ovo pokazuje da je optimizacija arhitekture važna kako bi se strojno učenje primijenilo u praksi.
-==== Samopozornost i kontekstualna fuzija (JSANet, 2024) ====
+===== Samopozornost i kontekstualna fuzija (JSANet, 2024) =====
+U 2024. godini predstavljena je Joint Self-Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self-attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self-attention rekalibrira značajke među kanalima, a sektor self-attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment.
-U 2024. godini predstavljena je Joint Self‑Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self‑attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self‑attention rekalibrira značajke među kanalima, a sektor self‑attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment. Na datasetu VFF‑16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje.
+Na datasetu VFF-16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje, što je važno za realne forenzičke pipeline-ove.
-==== Transformer‑bazirane metode (2025) ====
+===== Transformer‑bazirane metode (2025) =====
 Najnovija istraživanja primjenjuju Transformer arhitekture na zadatak klasifikacije fragmenata. Rad iz 2025. koristi Swin Transformer V2 koji uči hijerarhijske obrasce u sirovim nizovima bajtova i klasificira fragmente bez oslanjanja na ručno dizajnirane značajke. Model nadmašuje tradicionalne metode na 512‑bajtnim blokovima i postiže kompetitivne rezultate na većim blokovima, pri čemu automatizira identifikaciju i smanjuje vrijeme oporavka dokaza.
 {{:racfor_wiki:seminari2025:538892.png?400|}}
-==== Objašnjiva umjetna inteligencija (XAI, 2024) ====
+===== Objašnjiva umjetna inteligencija (XAI, 2024) =====
 Kako su modeli sve složeniji, raste potreba za transparentnošću i objašnjivošću. Studija iz 2024. primjenjuje SHAP i LIME kako bi objasnila odluke četiri modela klasifikacije file fragmenata. Analiza pokazuje da XAI može identificirati ključne značajke koje utječu na predikcije i tako poboljšati povjerenje te omogućiti prilagodbu modela. Takva objašnjivost posebno je važna u digitalnoj forenzici i kibernetičkoj sigurnosti gdje pogrešne odluke mogu imati pravne posljedice.
@@ Redak 126: / Redak 136: @@
 ==== Evaluacija i skupovi podataka ====
-Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT‑75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF‑16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; model postiže poboljšanje točnosti od 16,3 % i brzinu od 5,1 s/GB. Procjena uključuje metrike točnosti i F1‑mjere, a trend je povećati točnost uz smanjenje računskih zahtjeva.
+Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT-75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF-16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; model postiže poboljšanje točnosti od 16,3 % i brzinu od 5,1 s/GB. Procjena uključuje metrike točnosti i F1-mjere, a trend je povećati točnost uz smanjenje računskih zahtjeva.
 Dodatno se koriste i drugi skupovi podataka:
@@ Redak 140: / Redak 150: @@
   * Skalabilnost na velike količine fragmenata
+^ Metoda / pristup ^ Temeljna ideja ^ Kako tretira fragmente ^ Vrsta značajki koje koristi ^ Prednosti u forenzici ^ Ograničenja u realnim slučajevima ^ Tipični datasetovi ^
+| Header/Footer carving | Traženje poznatih potpisa zaglavlja i završetka datoteke | Fragmente tretira izolirano; oslanja se na kontinuitet između headera i footera | Ručno definirani potpisi, magični brojevi, strukturalni markeri | Vrlo brz, jednostavan za implementaciju, pouzdan za nefragmentirane datoteke | Ne radi dobro kod fragmentacije, kompresije i nepoznatih formata; velik broj lažnih pozitivnih rezultata | DFRWS test slike, realni disk dumpovi |
+| Heuristički carving | Analiza unutarnje strukture datoteka i validacija polja (duljine, offseti, kontrole) | Pokušava rekonstruirati redoslijed fragmenata kroz validaciju strukture | Ručno dizajnirane heuristike, parseri specifični za formate | Može rekonstruirati fragmentirane datoteke ako je struktura poznata | Zahtijeva duboko znanje formata; ne skalira se; slabo radi s novim verzijama formata | govdocs1, ručno pripremljeni uzorci |
+| SVM hijerarhija | Višerazinska klasifikacija: grube pa fine klase | Svaki fragment klasificira neovisno, ali u hijerarhiji tipova | Statističke značajke (n-grami, entropija, frekvencije bajtova) | Bolja preciznost od jednostavne klasifikacije; dobar balans brzine i točnosti | Ovisi o ručno dizajniranim značajkama; slabije generalizira | govdocs1 (14 klasa, 512 B) |
+| Byte2Vec | Učenje “semantike bajtova” kroz kontekst pojavljivanja (skip-gram) | Fragmente promatra kao sekvence gdje je važan lokalni kontekst bajtova | Naučene vektorske reprezentacije bajtova (embeddings) | Ne zahtijeva ručno definirane značajke; hvata suptilne obrasce | Ograničen kapacitet modela; ne koristi prostornu (bitnu) strukturu | FFT-75 |
+| Byte2Image (CNN) | Pretvara niz bajtova u 2D sliku radi hvatanja bitnih obrazaca | Fragmente tretira kao prostorne entitete (slike) | Bit-shift transformacije + CNN značajke | Hvata intra-bajtne informacije; vrlo dobra točnost kod strukturiranih formata | Veći memorijski zahtjevi; sporije od lakših CNN modela | FFT-75 |
+| Depthwise CNN | Optimizirani CNN s rastavljenim konvolucijama | Fragmente tretira izolirano, ali vrlo učinkovito | Automatski naučene konvolucijske značajke | Vrlo brz, malen model, pogodan za velike količine podataka | Ne koristi kontekst susjednih sektora | FFT-75 |
+| JSANet (Self-Attention) | Kombinira pažnju po bajtovima, kanalima i sektorima | Uvažava kontekst susjednih sektora | Attention mehanizmi na više razina | Znatno bolja točnost kod fragmentacije; koristi realni diskovni kontekst | Složenija arhitektura; zahtijeva GPU | VFF-16 |
+| Transformer (Swin V2) | Uči hijerarhijske obrasce kroz attention nad cijelim fragmentom | Hvata dugodosežne zavisnosti unutar fragmenta | Potpuno naučene značajke bez ručnog dizajna | Najveća točnost; dobra generalizacija na nepoznate formate | Veliki računalni zahtjevi; potreba za optimizacijom | FFT-75, prošireni skupovi |
+| XAI integracija | Objašnjavanje odluka modela (SHAP, LIME) | Analizira koje pozicije u fragmentu utječu na odluku | Važnost značajki i bajtova | Ključno za forenzička izvješća i sudsku prihvatljivost | Ne poboljšava točnost, već interpretaciju | Primjenjivo na sve navedene datasetove |
-==== Izazovi i budući razvoj ====
+===== Izazovi i budući razvoj =====
 Unatoč napretku, ručna analiza strukture datoteka i dalje se široko koristi, ali ne jamči potpune rezultate. Napredne metode često se oslanjaju na pretpostavke o strukturi datoteka i zahtijevaju prethodno znanje, što ograničava njihovu primjenu u heterogenim okruženjima. Rastuća količina podataka i fragmentacija stvaraju izazov skalabilnosti; istraživači stoga razvijaju lagane modele i tehnike samopozornosti.
@@ Redak 193: / Redak 213: @@
-==== Zaključak ====
+===== Zaključak =====
-Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput **Byte2Image** unose bitnu (intra‑bajtnu) informaciju, dok XAI donosi transparentnost i povjerenje u odluke algoritama. Unatoč izazovima vezanim uz fragmentaciju i potrebu za a priori znanjem, trend razvoja jasno pokazuje kako kombinacija umjetne inteligencije i objašnjivosti vodi prema učinkovitijim i pouzdanijim metodama za oporavak datoteka u digitalnoj forenzici.
+Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput Byte2Image unose bitnu (intra-bajtnu) informaciju, dok XAI donosi transparentnost i povjerenje u odluke algoritama. Unatoč izazovima vezanim uz fragmentaciju i potrebu za a priori znanjem, trend razvoja jasno pokazuje kako kombinacija umjetne inteligencije i objašnjivosti vodi prema učinkovitijim i pouzdanijim metodama za oporavak datoteka u digitalnoj forenzici.
-==== Literatura ====
+===== Literatura =====
 [[https://doi.org/10.3390/make2030012|Bhatt

racfor_wiki/seminari2025/mb53889.1769608155.txt.gz · Zadnja izmjena: 2026/01/28 13:49 od mb53889