Slijede razlike između dviju inačica stranice.
| Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
|
racfor_wiki:seminari2025:mb53889 [2026/01/28 13:50] Martin Bogoje [Literatura] |
racfor_wiki:seminari2025:mb53889 [2026/01/28 14:07] (trenutno) Martin Bogoje |
||
|---|---|---|---|
| Redak 3: | Redak 3: | ||
| ===== Uvod ===== | ===== Uvod ===== | ||
| - | **File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini | + | **File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini digitalne forenzike koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne-kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. |
| + | |||
| + | Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, | ||
| **Napredne metode** file carvinga uvode nekoliko ključnih pomaka: | **Napredne metode** file carvinga uvode nekoliko ključnih pomaka: | ||
| Redak 22: | Redak 24: | ||
| ==== Klasične metode file carvinga ==== | ==== Klasične metode file carvinga ==== | ||
| - | Rani pristupi file carvingu oslanjali su se na **prepoznavanje potpisa** (npr. „header/ | + | Rani pristupi file carvingu oslanjali su se na prepoznavanje potpisa (npr. „header/ |
| + | |||
| + | Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci. Dodatno, kod komprimiranih i visoko entropijskih sadržaja potpisi mogu biti rijetki ili nedovoljni za pouzdanu rekonstrukciju. | ||
| ==== Pregled alata za file carving ==== | ==== Pregled alata za file carving ==== | ||
| Redak 73: | Redak 77: | ||
| ===== Hijerarhijska klasifikacija uz SVM (2020) ===== | ===== Hijerarhijska klasifikacija uz SVM (2020) ===== | ||
| - | Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// | + | Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// |
| + | |||
| + | Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; | ||
| ==== GenSpec i rani pristupi (2020) ==== | ==== GenSpec i rani pristupi (2020) ==== | ||
| Redak 81: | Redak 87: | ||
| ==== Byte2Vec i Byte2Image (2022) ==== | ==== Byte2Vec i Byte2Image (2022) ==== | ||
| - | Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model **Byte2Vec** koristi //skip‑gram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k‑najbližih susjeda za klasifikaciju. Na ovu ideju nadovezuje se rad "A Byte Sequence is Worth an Image", | + | Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model Byte2Vec koristi //skip-gram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k-najbližih susjeda za klasifikaciju. |
| + | |||
| + | Na ovu ideju nadovezuje se rad "A Byte Sequence is Worth an Image", | ||
| ===== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) ===== | ===== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) ===== | ||
| Redak 89: | Redak 97: | ||
| ===== Samopozornost i kontekstualna fuzija (JSANet, 2024) ===== | ===== Samopozornost i kontekstualna fuzija (JSANet, 2024) ===== | ||
| - | U 2024. godini predstavljena je Joint Self‑Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self‑attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self‑attention rekalibrira značajke među kanalima, a sektor self‑attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment. Na datasetu VFF‑16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje. | + | U 2024. godini predstavljena je Joint Self-Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self-attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self-attention rekalibrira značajke među kanalima, a sektor self-attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment. |
| + | |||
| + | Na datasetu VFF-16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje, što je važno za realne forenzičke pipeline-ove. | ||
| ===== Transformer‑bazirane metode (2025) ===== | ===== Transformer‑bazirane metode (2025) ===== | ||
| Redak 126: | Redak 136: | ||
| ==== Evaluacija i skupovi podataka ==== | ==== Evaluacija i skupovi podataka ==== | ||
| - | Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT‑75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF‑16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; | + | Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT-75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF-16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; |
| Dodatno se koriste i drugi skupovi podataka: | Dodatno se koriste i drugi skupovi podataka: | ||
| Redak 140: | Redak 150: | ||
| * Skalabilnost na velike količine fragmenata | * Skalabilnost na velike količine fragmenata | ||
| + | ^ Metoda / pristup ^ Temeljna ideja ^ Kako tretira fragmente ^ Vrsta značajki koje koristi ^ Prednosti u forenzici ^ Ograničenja u realnim slučajevima ^ Tipični datasetovi ^ | ||
| + | | Header/ | ||
| + | | Heuristički carving | Analiza unutarnje strukture datoteka i validacija polja (duljine, offseti, kontrole) | Pokušava rekonstruirati redoslijed fragmenata kroz validaciju strukture | Ručno dizajnirane heuristike, parseri specifični za formate | Može rekonstruirati fragmentirane datoteke ako je struktura poznata | Zahtijeva duboko znanje formata; ne skalira se; slabo radi s novim verzijama formata | govdocs1, ručno pripremljeni uzorci | | ||
| + | | SVM hijerarhija | Višerazinska klasifikacija: | ||
| + | | Byte2Vec | Učenje “semantike bajtova” kroz kontekst pojavljivanja (skip-gram) | Fragmente promatra kao sekvence gdje je važan lokalni kontekst bajtova | Naučene vektorske reprezentacije bajtova (embeddings) | Ne zahtijeva ručno definirane značajke; hvata suptilne obrasce | Ograničen kapacitet modela; ne koristi prostornu (bitnu) strukturu | FFT-75 | | ||
| + | | Byte2Image (CNN) | Pretvara niz bajtova u 2D sliku radi hvatanja bitnih obrazaca | Fragmente tretira kao prostorne entitete (slike) | Bit-shift transformacije + CNN značajke | Hvata intra-bajtne informacije; | ||
| + | | Depthwise CNN | Optimizirani CNN s rastavljenim konvolucijama | Fragmente tretira izolirano, ali vrlo učinkovito | Automatski naučene konvolucijske značajke | Vrlo brz, malen model, pogodan za velike količine podataka | Ne koristi kontekst susjednih sektora | FFT-75 | | ||
| + | | JSANet (Self-Attention) | Kombinira pažnju po bajtovima, kanalima i sektorima | Uvažava kontekst susjednih sektora | Attention mehanizmi na više razina | Znatno bolja točnost kod fragmentacije; | ||
| + | | Transformer (Swin V2) | Uči hijerarhijske obrasce kroz attention nad cijelim fragmentom | Hvata dugodosežne zavisnosti unutar fragmenta | Potpuno naučene značajke bez ručnog dizajna | Najveća točnost; dobra generalizacija na nepoznate formate | Veliki računalni zahtjevi; potreba za optimizacijom | FFT-75, prošireni skupovi | | ||
| + | | XAI integracija | Objašnjavanje odluka modela (SHAP, LIME) | Analizira koje pozicije u fragmentu utječu na odluku | Važnost značajki i bajtova | Ključno za forenzička izvješća i sudsku prihvatljivost | Ne poboljšava točnost, već interpretaciju | Primjenjivo na sve navedene datasetove | | ||
| ===== Izazovi i budući razvoj ===== | ===== Izazovi i budući razvoj ===== | ||
| Redak 195: | Redak 215: | ||
| ===== Zaključak ===== | ===== Zaključak ===== | ||
| - | Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput **Byte2Image** unose bitnu (intra‑bajtnu) informaciju, | + | Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput Byte2Image unose bitnu (intra-bajtnu) informaciju, |
| ===== Literatura ===== | ===== Literatura ===== | ||