Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.

Razlike

Slijede razlike između dviju inačica stranice.

Poveznica na ovu usporedbu

Starije izmjene na obje strane Starija izmjena
Novija izmjena
Starija izmjena
racfor_wiki:seminari:klasifikacija_datotecnih_fragmenata [2023/02/15 22:56]
rd51779 [Literatura]
racfor_wiki:seminari:klasifikacija_datotecnih_fragmenata [2024/12/05 12:24] (trenutno)
Redak 1: Redak 1:
 ===== Klasifikacija datotečnih fragmenata ===== ===== Klasifikacija datotečnih fragmenata =====
 +
 +[[ https://ferhr-my.sharepoint.com/:v:/g/personal/rd51779_fer_hr/ETJUqWcBBXxGi4sdDmiBkawBJjHrvxIfbSpg55J47EMG-A?e=diCeGy|Video prezentacija ]]
 ===== Sažetak ===== ===== Sažetak =====
 U ovom seminarskom radu kratko ću objasniti neke značajke datoteka, što je to datotečna fragmentacija, te zašto do nje dolazi. Također ću opisati nekoliko algoritama koji se koriste za klasifikaciju datotečnih fragmenata. To su algoritmi strojnog učenja: kNN, konvolucijske i neuronske mreže. U ovom seminarskom radu kratko ću objasniti neke značajke datoteka, što je to datotečna fragmentacija, te zašto do nje dolazi. Također ću opisati nekoliko algoritama koji se koriste za klasifikaciju datotečnih fragmenata. To su algoritmi strojnog učenja: kNN, konvolucijske i neuronske mreže.
Redak 5: Redak 7:
 Klasifikacija datotetčnih fragmenata igra važnu ulogu u digitalnoj forenzici. Dokazi se mogu naći u izbrisanim/skrivenim fragmentima. Tehnologije rezbarenja datoteka obično se primjenjuju za rekonstrukciju datoteka iz tih fragmenata za daljnje forenzičko istraživanje. Ispravno klasificiranje ovih fragmenata nužan je korak za učinkovito rezbarenje datoteka. Inače, rezbarenjem datoteka bi morali isprobati sve kombinacije ogromnog broja datotečnih fragmenata i to bi rezultiralo ogromnim računskim troškom. Osim toga, točnost klasifikacije datotečnih fragmenta značajno utječe i na točnost rezbarenja datoteke budući da pogrešno klasificirani fragmenti predstavljaju šum na ulazu. Klasifikacija datotetčnih fragmenata igra važnu ulogu u digitalnoj forenzici. Dokazi se mogu naći u izbrisanim/skrivenim fragmentima. Tehnologije rezbarenja datoteka obično se primjenjuju za rekonstrukciju datoteka iz tih fragmenata za daljnje forenzičko istraživanje. Ispravno klasificiranje ovih fragmenata nužan je korak za učinkovito rezbarenje datoteka. Inače, rezbarenjem datoteka bi morali isprobati sve kombinacije ogromnog broja datotečnih fragmenata i to bi rezultiralo ogromnim računskim troškom. Osim toga, točnost klasifikacije datotečnih fragmenta značajno utječe i na točnost rezbarenja datoteke budući da pogrešno klasificirani fragmenti predstavljaju šum na ulazu.
  
-Rana istraživanja o klasifikaciji datotečnih fragmenata koriste punu ekstenziju datoteke, magični broj ili metapodatke datoteka. Ove metode imaju visoku točnost klasifikacije samo kada se metapodaci mogu pronaći i izdvojiti iz medija za pohranu s fragmentima. Stoga imaju manje praktične primjene u digitalnoj forenzici jer metapodaci datotečnih fragmenata obično u stvarnim slučajevima nedostaju.+Rana istraživanja o klasifikaciji datotečnih fragmenata koriste punu ekstenziju datoteke, čarobni broj ili metapodatke datoteka. Ove metode imaju visoku točnost klasifikacije samo kada se metapodaci mogu pronaći i izdvojiti iz medija za pohranu s fragmentima. Stoga imaju manje praktične primjene u digitalnoj forenzici jer metapodaci datotečnih fragmenata obično u stvarnim slučajevima nedostaju.
  
 Posljednjih godina predloženi su algoritmi za klasifikaciju datotečnih fragmenata temeljeni na sadržaju koji izdvajaju N-gram, Shannonovu entropiju, Hammingovu težinu i statističke pravilnosti bajtova. U nekim shemama koriste se tradicionalne tehnike strojnog učenja kako bi se poboljšala izvedba ovih algoritama klasifikacije. Međutim, za datoteke visoke entropije kao što su komprimirane datoteke (npr. zip datoteka ili .jpg datoteka) i šifrirane datoteke, točnost nije toliko visoka koliko se očekivalo. Posljednjih godina predloženi su algoritmi za klasifikaciju datotečnih fragmenata temeljeni na sadržaju koji izdvajaju N-gram, Shannonovu entropiju, Hammingovu težinu i statističke pravilnosti bajtova. U nekim shemama koriste se tradicionalne tehnike strojnog učenja kako bi se poboljšala izvedba ovih algoritama klasifikacije. Međutim, za datoteke visoke entropije kao što su komprimirane datoteke (npr. zip datoteka ili .jpg datoteka) i šifrirane datoteke, točnost nije toliko visoka koliko se očekivalo.
Redak 52: Redak 54:
 ===== Algoritmi ===== ===== Algoritmi =====
 == kNN == == kNN ==
 +K-najbližh susjeda (kNN) vrsta je nadziranog algoritma učenja koji se koristi i za regresiju i za klasifikaciju. KNN pokušava predvidjeti točnu klasu za testne podatke izračunavanjem udaljenosti između testnih podataka i svih točaka treninga. Zatim odabere k broj točaka koje su najbliže podacima testa. 
 +
 +kNN algoritam izračunava vjerojatnost da testni podaci pripadaju klasama podataka o obuci 'K' i bit će odabrana klasa koja ima najveću vjerojatnost. U slučaju regresije, vrijednost je srednja vrijednost 'K' odabranih točaka treninga.
 +
 +Kostur algoritma:
 +
 +1. Izabere se k > 0 i uzorak
 +
 +2. Izabere se k ulaza najbližih uzorku
 +
 +3. Izračunamo klasifikaciju ulaza pomoću Euklidske udaljenosti
 +
 +4. Istu tu klasifikaciju odredimo za uzorak
 +
 +{{ :racfor_wiki:datoteke_i_datotecni_sustavi:knn.png?400 |}}
 +
 +Rad u kojem se koristi neuronska mreža za klasifikaciju datotečnih fragmenata: [5]
 +
 == Neuronske mreže == == Neuronske mreže ==
 Neuronska mreža vrsta je algoritma strojnog učenja koji je dizajniran za simulaciju ponašanja ljudskog mozga pri obradi i analizi informacija. Sastoji se od više međusobno povezanih slojeva umjetnih neurona koji zajedno rade na prepoznavanju uzoraka i predviđanju. Neuronska mreža vrsta je algoritma strojnog učenja koji je dizajniran za simulaciju ponašanja ljudskog mozga pri obradi i analizi informacija. Sastoji se od više međusobno povezanih slojeva umjetnih neurona koji zajedno rade na prepoznavanju uzoraka i predviđanju.
Redak 84: Redak 104:
 Rad u kojem se koristi konvolucijska neuronska mreža za klasifikaciju datotečnih fragmenata: [3] Rad u kojem se koristi konvolucijska neuronska mreža za klasifikaciju datotečnih fragmenata: [3]
 ===== Zaključak ===== ===== Zaključak =====
 +U ovom seminarskom radu kratko su objašnjene neke značajke datoteka, što je to datotečna fragmentacija, te zašto do nje dolazi. Također je opisano nekoliko algoritama koji se koriste za klasifikaciju datotečnih fragmenata. Osim toga dani su primjeri znanstvenih radova u kojima se koriste navedeni algoritmi. Od svih algoritama izdvojio bih algoritam [1] kao najbrži i najpouzdaniji. Iz istih razloga baš je taj algoritam naveden u prikaznicama na predmetu, te se preporučuje da se upravo njega koristi za klasifikaciju datotečnih fragmenata u industriji.
 ===== Literatura ===== ===== Literatura =====
  
Redak 96: Redak 117:
  
 [4] [[https://www.fer.unizg.hr/predmet/struce1|Gradivo predmeta Strojno učenje 1]] [4] [[https://www.fer.unizg.hr/predmet/struce1|Gradivo predmeta Strojno učenje 1]]
 +
 +[5] [[https://link.springer.com/content/pdf/10.1007/978-3-642-24212-0_5.pdf|Fast Content-Based File Type Identification
 +Irfan Ahmed, Kyung-Suk Lhee, Hyun-Jung Shin and Man-Pyo Hong]]
racfor_wiki/seminari/klasifikacija_datotecnih_fragmenata.1676501811.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0