Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.

Razlike

Slijede razlike između dviju inačica stranice.

Poveznica na ovu usporedbu

Starije izmjene na obje strane Starija izmjena
Novija izmjena
Starija izmjena
racfor_wiki:seminari2025:mb53889 [2026/01/28 13:50]
Martin Bogoje [Literatura]
racfor_wiki:seminari2025:mb53889 [2026/01/28 14:07] (trenutno)
Martin Bogoje
Redak 3: Redak 3:
 ===== Uvod ===== ===== Uvod =====
  
-**File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini **digitalne forenzike** koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u nekontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, konvencionalne metode postaju nedostatne, a potrebno je razviti naprednije algoritme koji koriste **strojno učenje** **umjetnu inteligenciju**.+**File carving** je postupak oporavka datoteka iz blokova podataka kada metapodaci ili struktura datotečnog sustava nedostaju ili su oštećeni. Riječ je o ključnoj disciplini digitalne forenzike koja omogućuje rekonstrukciju dokaza iz nepovezanih fragmenata na diskovima, memorijskim uređajima i drugim medijima. Tipične istrage često se suočavaju s fragmentiranim datotekama koje se nalaze u ne-kontinuiranom prostoru diska, a identifikacija vrste i strukture fragmenata ključan je korak u ponovnoj izgradnji cjelovitih datoteka. U praksi se file carving koristi kada su metapodaci namjerno uklonjeni (anti-forenzika), kada je došlo do korupcije datotečnog sustava ili kada se radi s “raw” zapisima gdje struktura nije pouzdana. 
 + 
 +Kako se količina digitalnih podataka i stupanj fragmentacije povećavaju, konvencionalne metode postaju nedostatne, a potrebno je razviti naprednije algoritme koji koriste strojno učenje i umjetnu inteligenciju. Poseban izazov predstavljaju datoteke visoke entropije (npr. komprimirane, šifrirane) te moderni mediji (SSD/flash) gdje mehanizmi poput wear-leveling-a i TRIM-a mogu smanjiti korisnost pretpostavki o prostornoj blizini fragmenata.
  
 **Napredne metode** file carvinga uvode nekoliko ključnih pomaka: **Napredne metode** file carvinga uvode nekoliko ključnih pomaka:
Redak 22: Redak 24:
 ==== Klasične metode file carvinga ==== ==== Klasične metode file carvinga ====
  
-Rani pristupi file carvingu oslanjali su se na **prepoznavanje potpisa** (npr. „header/footer”) te ručnu analizu strukture datoteka. Takve metode pretražuju tokove podataka kako bi pronašle početne i završne markere poznatih formata. Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci.+Rani pristupi file carvingu oslanjali su se na prepoznavanje potpisa (npr. „header/footer”) te ručnu analizu strukture datoteka. Takve metode pretražuju tokove podataka kako bi pronašle početne i završne markere poznatih formata. U slučaju nefragmentiranih datoteka, postupak može biti vrlo učinkovit: pronađe se header, čita se kontinuirano i traži footer, te se rezultat validira. 
 + 
 +Analize ukazuju da je najrašireniji pristup još uvijek ručna analiza unutarnje strukture datoteka i traženje specifičnih uzoraka koji omogućuju sastavljanje fragmenata u ispravan redoslijed. Međutim, takav rad ne jamči potpune rezultate i zahtijeva prethodno poznavanje formata; studija ističe da je nužno imati a priori informacije o strukturi ili sadržaju kako bi se uspješno izdvojili fragmentirani podaci. Dodatno, kod komprimiranih i visoko entropijskih sadržaja potpisi mogu biti rijetki ili nedovoljni za pouzdanu rekonstrukciju.
  
 ==== Pregled alata za file carving ==== ==== Pregled alata za file carving ====
Redak 73: Redak 77:
 ===== Hijerarhijska klasifikacija uz SVM (2020) ===== ===== Hijerarhijska klasifikacija uz SVM (2020) =====
  
-Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// predlaže **hijerarhijski pristup** klasifikaciji fragmenata. Kombinira općenite klasifikatore na višim razinama i specijalizirane klasifikatore na nižim razinama, a svaki čvor hijerarhije trenira se zasebnim SVM-om. Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; postignuta je prosječna točnost od 67,78 % i F1-mjera od 65 %, uz dodatno poboljšanje nakon optimizacije strukture. Ovaj rad pokazao je kako strukturirana podjela zadatka može poboljšati performanse u odnosu na jednoklasni pristup.+Rad objavljen 2020. u časopisu //Machine Learning and Knowledge Extraction// predlaže hijerarhijski pristup klasifikaciji fragmenata. Kombinira općenite klasifikatore na višim razinama i specijalizirane klasifikatore na nižim razinama, a svaki čvor hijerarhije trenira se zasebnim SVM-om. Ovakav pristup odgovara stvarnim odnosima među formatima: lakše je prvo razdvojiti široke kategorije (tekst/binarno/multimedija), a zatim finije razlikovati slične formate. 
 + 
 +Model je testiran na 14 vrsta datoteka sa 512-bajtnim fragmentima; postignuta je prosječna točnost od 67,78 % i F1-mjera od 65 %, uz dodatno poboljšanje nakon optimizacije strukture. Ovaj rad pokazao je kako strukturirana podjela zadatka može poboljšati performanse u odnosu na jednoklasni pristup.
  
 ==== GenSpec i rani pristupi (2020) ==== ==== GenSpec i rani pristupi (2020) ====
Redak 81: Redak 87:
 ==== Byte2Vec i Byte2Image (2022) ==== ==== Byte2Vec i Byte2Image (2022) ====
  
-Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model **Byte2Vec** koristi //skipgram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje knajbližih susjeda za klasifikaciju. Na ovu ideju nadovezuje se rad "A Byte Sequence is Worth an Image", koji uvodi tehniku Byte2Image: fragmenti bajtova pretvaraju se u 2D slike kako bi se obuhvatila intrabajtna (bitna) informacija. Autor koristi klizni prozor po bitovima za očuvanje bitnih značajki i zatim pomoću CNNa kombinira 2D sliku s izvornim nizom bajtova. Testovi na datasetu FFT75 pokazuju da ova metoda značajno poboljšava točnost u usporedbi s postojećim pristupima.+Uz sve veću primjenu učenja temeljenog na podacima, istraživači su adaptirali jezične modele na zadatak klasifikacije fragmenata. Model Byte2Vec koristi //skip-gram// kako bi mapirao pojedinačne bajtove u vektorske reprezentacije te primjenjuje k-najbližih susjeda za klasifikaciju. Time se dobiva “semantika bajtova” kroz kontekst pojavljivanja, analogno NLP-u. 
 + 
 +Na ovu ideju nadovezuje se rad "A Byte Sequence is Worth an Image", koji uvodi tehniku Byte2Image: fragmenti bajtova pretvaraju se u 2D slike kako bi se obuhvatila intra-bajtna (bitna) informacija. Autor koristi klizni prozor po bitovima za očuvanje bitnih značajki i zatim pomoću CNN-a kombinira 2D sliku s izvornim nizom bajtova. Testovi na datasetu FFT-75 pokazuju da ova metoda značajno poboljšava točnost u usporedbi s postojećim pristupima, posebno kod formata s jasnim internim strukturama.
  
 ===== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) ===== ===== Duboke konvolucijske mreže s rastavljenim konvolucijama (2022) =====
Redak 89: Redak 97:
 ===== Samopozornost i kontekstualna fuzija (JSANet, 2024) ===== ===== Samopozornost i kontekstualna fuzija (JSANet, 2024) =====
  
-U 2024. godini predstavljena je Joint SelfAttention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu selfattention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal selfattention rekalibrira značajke među kanalima, a sektor selfattention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment. Na datasetu VFF16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje.+U 2024. godini predstavljena je Joint Self-Attention Network (JSANet) koja kombinira samopozornost po bajtovima, kanalima i sektorima. Za razliku od ranijih metoda koje obrađuju fragmente izolirano, JSANet koristi kontekst između susjednih sektora kako bi poboljšao reprezentaciju fragmenata. U modulu self-attention po bajtovima prepoznaju se značajni bajtovi unutar sektora, kanal self-attention rekalibrira značajke među kanalima, a sektor self-attention iskorištava činjenicu da se susjedni sektori vjerojatno odnose na isti fragment. 
 + 
 +Na datasetu VFF-16 model postiže povećanje točnosti za više od 16,3 % u odnosu na bazni pristup i pruža brzinu od 5,1 s/GB uz GPU ubrzanje, što je važno za realne forenzičke pipeline-ove.
  
 ===== Transformer‑bazirane metode (2025) ===== ===== Transformer‑bazirane metode (2025) =====
Redak 126: Redak 136:
 ==== Evaluacija i skupovi podataka ==== ==== Evaluacija i skupovi podataka ====
  
-Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; model postiže poboljšanje točnosti od 16,3 % i brzinu od 5,1 s/GB. Procjena uključuje metrike točnosti i F1mjere, a trend je povećati točnost uz smanjenje računskih zahtjeva.+Napredne metode procjenjuju se na standardnim skupovima podataka. Radovi koji primjenjuju hijerarhijsku klasifikaciju koriste fragmente od 512 bajtova iz dataset-a govdocs1 i 14 različitih tipova datoteka. Dataset FFT-75 sadrži 75 klasa fragmenata i predstavlja glavnu osnovu za usporedbu u radovima Byte2Image, depthwise CNN i Transformer modela. JSANet uvodi dataset VFF-16 s fragmentima promjenjive duljine kako bi se bolje simuliralo stvarne uvjete fragmentacije; model postiže poboljšanje točnosti od 16,3 % i brzinu od 5,1 s/GB. Procjena uključuje metrike točnosti i F1-mjere, a trend je povećati točnost uz smanjenje računskih zahtjeva.
  
 Dodatno se koriste i drugi skupovi podataka: Dodatno se koriste i drugi skupovi podataka:
Redak 140: Redak 150:
   * Skalabilnost na velike količine fragmenata   * Skalabilnost na velike količine fragmenata
  
 +^ Metoda / pristup ^ Temeljna ideja ^ Kako tretira fragmente ^ Vrsta značajki koje koristi ^ Prednosti u forenzici ^ Ograničenja u realnim slučajevima ^ Tipični datasetovi ^
 +| Header/Footer carving | Traženje poznatih potpisa zaglavlja i završetka datoteke | Fragmente tretira izolirano; oslanja se na kontinuitet između headera i footera | Ručno definirani potpisi, magični brojevi, strukturalni markeri | Vrlo brz, jednostavan za implementaciju, pouzdan za nefragmentirane datoteke | Ne radi dobro kod fragmentacije, kompresije i nepoznatih formata; velik broj lažnih pozitivnih rezultata | DFRWS test slike, realni disk dumpovi |
 +| Heuristički carving | Analiza unutarnje strukture datoteka i validacija polja (duljine, offseti, kontrole) | Pokušava rekonstruirati redoslijed fragmenata kroz validaciju strukture | Ručno dizajnirane heuristike, parseri specifični za formate | Može rekonstruirati fragmentirane datoteke ako je struktura poznata | Zahtijeva duboko znanje formata; ne skalira se; slabo radi s novim verzijama formata | govdocs1, ručno pripremljeni uzorci |
 +| SVM hijerarhija | Višerazinska klasifikacija: grube pa fine klase | Svaki fragment klasificira neovisno, ali u hijerarhiji tipova | Statističke značajke (n-grami, entropija, frekvencije bajtova) | Bolja preciznost od jednostavne klasifikacije; dobar balans brzine i točnosti | Ovisi o ručno dizajniranim značajkama; slabije generalizira | govdocs1 (14 klasa, 512 B) |
 +| Byte2Vec | Učenje “semantike bajtova” kroz kontekst pojavljivanja (skip-gram) | Fragmente promatra kao sekvence gdje je važan lokalni kontekst bajtova | Naučene vektorske reprezentacije bajtova (embeddings) | Ne zahtijeva ručno definirane značajke; hvata suptilne obrasce | Ograničen kapacitet modela; ne koristi prostornu (bitnu) strukturu | FFT-75 |
 +| Byte2Image (CNN) | Pretvara niz bajtova u 2D sliku radi hvatanja bitnih obrazaca | Fragmente tretira kao prostorne entitete (slike) | Bit-shift transformacije + CNN značajke | Hvata intra-bajtne informacije; vrlo dobra točnost kod strukturiranih formata | Veći memorijski zahtjevi; sporije od lakših CNN modela | FFT-75 |
 +| Depthwise CNN | Optimizirani CNN s rastavljenim konvolucijama | Fragmente tretira izolirano, ali vrlo učinkovito | Automatski naučene konvolucijske značajke | Vrlo brz, malen model, pogodan za velike količine podataka | Ne koristi kontekst susjednih sektora | FFT-75 |
 +| JSANet (Self-Attention) | Kombinira pažnju po bajtovima, kanalima i sektorima | Uvažava kontekst susjednih sektora | Attention mehanizmi na više razina | Znatno bolja točnost kod fragmentacije; koristi realni diskovni kontekst | Složenija arhitektura; zahtijeva GPU | VFF-16 |
 +| Transformer (Swin V2) | Uči hijerarhijske obrasce kroz attention nad cijelim fragmentom | Hvata dugodosežne zavisnosti unutar fragmenta | Potpuno naučene značajke bez ručnog dizajna | Najveća točnost; dobra generalizacija na nepoznate formate | Veliki računalni zahtjevi; potreba za optimizacijom | FFT-75, prošireni skupovi |
 +| XAI integracija | Objašnjavanje odluka modela (SHAP, LIME) | Analizira koje pozicije u fragmentu utječu na odluku | Važnost značajki i bajtova | Ključno za forenzička izvješća i sudsku prihvatljivost | Ne poboljšava točnost, već interpretaciju | Primjenjivo na sve navedene datasetove |
  
 ===== Izazovi i budući razvoj ===== ===== Izazovi i budući razvoj =====
Redak 195: Redak 215:
 ===== Zaključak ===== ===== Zaključak =====
  
-Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput **Byte2Image** unose bitnu (intrabajtnu) informaciju, dok XAI donosi transparentnost i povjerenje u odluke algoritama. Unatoč izazovima vezanim uz fragmentaciju i potrebu za a priori znanjem, trend razvoja jasno pokazuje kako kombinacija umjetne inteligencije i objašnjivosti vodi prema učinkovitijim i pouzdanijim metodama za oporavak datoteka u digitalnoj forenzici.+Napredne file carving metode nakon 2020. prelaze okvire konvencionalnih tehnika i oslanjaju se na strojno učenje i duboko učenje. Hijerarhijske SVM strukture, lagane konvolucijske mreže, samopozornost i Transformer modeli značajno povećavaju točnost oporavka datoteka. Tehnike poput Byte2Image unose bitnu (intra-bajtnu) informaciju, dok XAI donosi transparentnost i povjerenje u odluke algoritama. Unatoč izazovima vezanim uz fragmentaciju i potrebu za a priori znanjem, trend razvoja jasno pokazuje kako kombinacija umjetne inteligencije i objašnjivosti vodi prema učinkovitijim i pouzdanijim metodama za oporavak datoteka u digitalnoj forenzici.
  
 ===== Literatura ===== ===== Literatura =====
racfor_wiki/seminari2025/mb53889.1769608250.txt.gz · Zadnja izmjena: 2026/01/28 13:50 od Martin Bogoje
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0