Slijede razlike između dviju inačica stranice.
| Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
|
racfor_wiki:seminari2025:mb53889 [2026/01/28 13:49] Martin Bogoje [Strojno učenje i duboko učenje u file carvingu] |
racfor_wiki:seminari2025:mb53889 [2026/01/28 14:07] (trenutno) Martin Bogoje |
||
|---|---|---|---|
| Redak 3: | Redak 3: | ||
| ===== Uvod ===== | ===== Uvod ===== | ||
| - | **File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini | + | **File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini digitalne forenzike koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne-kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. |
| + | |||
| + | Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, | ||
| **Napredne metode** file carvinga uvode nekoliko ključnih pomaka: | **Napredne metode** file carvinga uvode nekoliko ključnih pomaka: | ||
| Redak 22: | Redak 24: | ||
| ==== Klasične metode file carvinga ==== | ==== Klasične metode file carvinga ==== | ||
| - | Rani pristupi file carvingu oslanjali su se na **prepoznavanje potpisa** (npr. „header/ | + | Rani pristupi file carvingu oslanjali su se na prepoznavanje potpisa (npr. „header/ |
| + | |||
| + | Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci. Dodatno, kod komprimiranih i visoko entropijskih sadržaja potpisi mogu biti rijetki ili nedovoljni za pouzdanu rekonstrukciju. | ||
| ==== Pregled alata za file carving ==== | ==== Pregled alata za file carving ==== | ||
| Redak 71: | Redak 75: | ||
| - | ==== Hijerarhijska klasifikacija uz SVM (2020) ==== | + | ===== Hijerarhijska klasifikacija uz SVM (2020) |
| - | Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// | + | Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// |
| + | |||
| + | Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; | ||
| ==== GenSpec i rani pristupi (2020) ==== | ==== GenSpec i rani pristupi (2020) ==== | ||
| Redak 81: | Redak 87: | ||
| ==== Byte2Vec i Byte2Image (2022) ==== | ==== Byte2Vec i Byte2Image (2022) ==== | ||
| - | Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model **Byte2Vec** koristi //skip‑gram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k‑najbližih susjeda za klasifikaciju. | + | Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model Byte2Vec koristi //skip-gram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k-najbližih susjeda za klasifikaciju. |
| - | ==== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) ==== | + | Na ovu ideju nadovezuje se rad "A Byte Sequence is Worth an Image", |
| + | |||
| + | ===== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) | ||
| Konferencijska publikacija iz 2022. predlaže lagani konvolucijski model utemeljen na depthwise separable konvolucijama za klasifikaciju file fragmenata. Model je dizajniran da postigne visoku točnost uz smanjenu složenost; postiže 78,45 % točnosti na FFT‑75 datasetu te je 24 puta brži i 4–5 puta manji od prethodnih konvolucijskih modela. Ovo pokazuje da je optimizacija arhitekture važna kako bi se strojno učenje primijenilo u praksi. | Konferencijska publikacija iz 2022. predlaže lagani konvolucijski model utemeljen na depthwise separable konvolucijama za klasifikaciju file fragmenata. Model je dizajniran da postigne visoku točnost uz smanjenu složenost; postiže 78,45 % točnosti na FFT‑75 datasetu te je 24 puta brži i 4–5 puta manji od prethodnih konvolucijskih modela. Ovo pokazuje da je optimizacija arhitekture važna kako bi se strojno učenje primijenilo u praksi. | ||
| - | ==== Samopozornost i kontekstualna fuzija (JSANet, 2024) ==== | + | ===== Samopozornost i kontekstualna fuzija (JSANet, 2024) ===== |
| + | |||
| + | U 2024. godini predstavljena je Joint Self-Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self-attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self-attention rekalibrira značajke među kanalima, a sektor self-attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment. | ||
| - | U 2024. godini predstavljena je Joint Self‑Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self‑attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self‑attention rekalibrira značajke među kanalima, a sektor self‑attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment. | + | Na datasetu VFF-16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje, što je važno za realne forenzičke pipeline-ove. |
| - | ==== Transformer‑bazirane metode (2025) ==== | + | ===== Transformer‑bazirane metode (2025) |
| Najnovija istraživanja primjenjuju Transformer arhitekture na zadatak klasifikacije fragmenata. Rad iz 2025. koristi Swin Transformer V2 koji uči hijerarhijske obrasce u sirovim nizovima bajtova i klasificira fragmente bez oslanjanja na ručno dizajnirane značajke. Model nadmašuje tradicionalne metode na 512‑bajtnim blokovima i postiže kompetitivne rezultate na većim blokovima, pri čemu automatizira identifikaciju i smanjuje vrijeme oporavka dokaza. | Najnovija istraživanja primjenjuju Transformer arhitekture na zadatak klasifikacije fragmenata. Rad iz 2025. koristi Swin Transformer V2 koji uči hijerarhijske obrasce u sirovim nizovima bajtova i klasificira fragmente bez oslanjanja na ručno dizajnirane značajke. Model nadmašuje tradicionalne metode na 512‑bajtnim blokovima i postiže kompetitivne rezultate na većim blokovima, pri čemu automatizira identifikaciju i smanjuje vrijeme oporavka dokaza. | ||
| {{: | {{: | ||
| - | ==== Objašnjiva umjetna inteligencija (XAI, 2024) ==== | + | ===== Objašnjiva umjetna inteligencija (XAI, 2024) ===== |
| Kako su modeli sve složeniji, raste potreba za transparentnošću i objašnjivošću. Studija iz 2024. primjenjuje SHAP i LIME kako bi objasnila odluke četiri modela klasifikacije file fragmenata. Analiza pokazuje da XAI može identificirati ključne značajke koje utječu na predikcije i tako poboljšati povjerenje te omogućiti prilagodbu modela. Takva objašnjivost posebno je važna u digitalnoj forenzici i kibernetičkoj sigurnosti gdje pogrešne odluke mogu imati pravne posljedice. | Kako su modeli sve složeniji, raste potreba za transparentnošću i objašnjivošću. Studija iz 2024. primjenjuje SHAP i LIME kako bi objasnila odluke četiri modela klasifikacije file fragmenata. Analiza pokazuje da XAI može identificirati ključne značajke koje utječu na predikcije i tako poboljšati povjerenje te omogućiti prilagodbu modela. Takva objašnjivost posebno je važna u digitalnoj forenzici i kibernetičkoj sigurnosti gdje pogrešne odluke mogu imati pravne posljedice. | ||
| Redak 126: | Redak 136: | ||
| ==== Evaluacija i skupovi podataka ==== | ==== Evaluacija i skupovi podataka ==== | ||
| - | Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT‑75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF‑16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; | + | Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT-75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF-16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; |
| Dodatno se koriste i drugi skupovi podataka: | Dodatno se koriste i drugi skupovi podataka: | ||
| Redak 140: | Redak 150: | ||
| * Skalabilnost na velike količine fragmenata | * Skalabilnost na velike količine fragmenata | ||
| + | ^ Metoda / pristup ^ Temeljna ideja ^ Kako tretira fragmente ^ Vrsta značajki koje koristi ^ Prednosti u forenzici ^ Ograničenja u realnim slučajevima ^ Tipični datasetovi ^ | ||
| + | | Header/ | ||
| + | | Heuristički carving | Analiza unutarnje strukture datoteka i validacija polja (duljine, offseti, kontrole) | Pokušava rekonstruirati redoslijed fragmenata kroz validaciju strukture | Ručno dizajnirane heuristike, parseri specifični za formate | Može rekonstruirati fragmentirane datoteke ako je struktura poznata | Zahtijeva duboko znanje formata; ne skalira se; slabo radi s novim verzijama formata | govdocs1, ručno pripremljeni uzorci | | ||
| + | | SVM hijerarhija | Višerazinska klasifikacija: | ||
| + | | Byte2Vec | Učenje “semantike bajtova” kroz kontekst pojavljivanja (skip-gram) | Fragmente promatra kao sekvence gdje je važan lokalni kontekst bajtova | Naučene vektorske reprezentacije bajtova (embeddings) | Ne zahtijeva ručno definirane značajke; hvata suptilne obrasce | Ograničen kapacitet modela; ne koristi prostornu (bitnu) strukturu | FFT-75 | | ||
| + | | Byte2Image (CNN) | Pretvara niz bajtova u 2D sliku radi hvatanja bitnih obrazaca | Fragmente tretira kao prostorne entitete (slike) | Bit-shift transformacije + CNN značajke | Hvata intra-bajtne informacije; | ||
| + | | Depthwise CNN | Optimizirani CNN s rastavljenim konvolucijama | Fragmente tretira izolirano, ali vrlo učinkovito | Automatski naučene konvolucijske značajke | Vrlo brz, malen model, pogodan za velike količine podataka | Ne koristi kontekst susjednih sektora | FFT-75 | | ||
| + | | JSANet (Self-Attention) | Kombinira pažnju po bajtovima, kanalima i sektorima | Uvažava kontekst susjednih sektora | Attention mehanizmi na više razina | Znatno bolja točnost kod fragmentacije; | ||
| + | | Transformer (Swin V2) | Uči hijerarhijske obrasce kroz attention nad cijelim fragmentom | Hvata dugodosežne zavisnosti unutar fragmenta | Potpuno naučene značajke bez ručnog dizajna | Najveća točnost; dobra generalizacija na nepoznate formate | Veliki računalni zahtjevi; potreba za optimizacijom | FFT-75, prošireni skupovi | | ||
| + | | XAI integracija | Objašnjavanje odluka modela (SHAP, LIME) | Analizira koje pozicije u fragmentu utječu na odluku | Važnost značajki i bajtova | Ključno za forenzička izvješća i sudsku prihvatljivost | Ne poboljšava točnost, već interpretaciju | Primjenjivo na sve navedene datasetove | | ||
| - | ==== Izazovi i budući razvoj ==== | + | ===== Izazovi i budući razvoj |
| Unatoč napretku, ručna analiza strukture datoteka i dalje se široko koristi, ali ne jamči potpune rezultate. Napredne metode često se oslanjaju na pretpostavke o strukturi datoteka i zahtijevaju prethodno znanje, što ograničava njihovu primjenu u heterogenim okruženjima. Rastuća količina podataka i fragmentacija stvaraju izazov skalabilnosti; | Unatoč napretku, ručna analiza strukture datoteka i dalje se široko koristi, ali ne jamči potpune rezultate. Napredne metode često se oslanjaju na pretpostavke o strukturi datoteka i zahtijevaju prethodno znanje, što ograničava njihovu primjenu u heterogenim okruženjima. Rastuća količina podataka i fragmentacija stvaraju izazov skalabilnosti; | ||
| Redak 193: | Redak 213: | ||
| - | ==== Zaključak ==== | + | ===== Zaključak |
| - | Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput **Byte2Image** unose bitnu (intra‑bajtnu) informaciju, | + | Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput Byte2Image unose bitnu (intra-bajtnu) informaciju, |
| - | ==== Literatura ==== | + | ===== Literatura |
| [[https:// | [[https:// | ||