Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.

Razlike

Slijede razlike između dviju inačica stranice.

Poveznica na ovu usporedbu

Starije izmjene na obje strane Starija izmjena
Novija izmjena
Starija izmjena
racfor_wiki:seminari:klasifikacija_datotecnih_fragmenata [2023/02/15 22:40]
rd51779 [Literatura]
racfor_wiki:seminari:klasifikacija_datotecnih_fragmenata [2024/12/05 12:24] (trenutno)
Redak 1: Redak 1:
 ===== Klasifikacija datotečnih fragmenata ===== ===== Klasifikacija datotečnih fragmenata =====
 +
 +[[ https://ferhr-my.sharepoint.com/:v:/g/personal/rd51779_fer_hr/ETJUqWcBBXxGi4sdDmiBkawBJjHrvxIfbSpg55J47EMG-A?e=diCeGy|Video prezentacija ]]
 ===== Sažetak ===== ===== Sažetak =====
 U ovom seminarskom radu kratko ću objasniti neke značajke datoteka, što je to datotečna fragmentacija, te zašto do nje dolazi. Također ću opisati nekoliko algoritama koji se koriste za klasifikaciju datotečnih fragmenata. To su algoritmi strojnog učenja: kNN, konvolucijske i neuronske mreže. U ovom seminarskom radu kratko ću objasniti neke značajke datoteka, što je to datotečna fragmentacija, te zašto do nje dolazi. Također ću opisati nekoliko algoritama koji se koriste za klasifikaciju datotečnih fragmenata. To su algoritmi strojnog učenja: kNN, konvolucijske i neuronske mreže.
Redak 5: Redak 7:
 Klasifikacija datotetčnih fragmenata igra važnu ulogu u digitalnoj forenzici. Dokazi se mogu naći u izbrisanim/skrivenim fragmentima. Tehnologije rezbarenja datoteka obično se primjenjuju za rekonstrukciju datoteka iz tih fragmenata za daljnje forenzičko istraživanje. Ispravno klasificiranje ovih fragmenata nužan je korak za učinkovito rezbarenje datoteka. Inače, rezbarenjem datoteka bi morali isprobati sve kombinacije ogromnog broja datotečnih fragmenata i to bi rezultiralo ogromnim računskim troškom. Osim toga, točnost klasifikacije datotečnih fragmenta značajno utječe i na točnost rezbarenja datoteke budući da pogrešno klasificirani fragmenti predstavljaju šum na ulazu. Klasifikacija datotetčnih fragmenata igra važnu ulogu u digitalnoj forenzici. Dokazi se mogu naći u izbrisanim/skrivenim fragmentima. Tehnologije rezbarenja datoteka obično se primjenjuju za rekonstrukciju datoteka iz tih fragmenata za daljnje forenzičko istraživanje. Ispravno klasificiranje ovih fragmenata nužan je korak za učinkovito rezbarenje datoteka. Inače, rezbarenjem datoteka bi morali isprobati sve kombinacije ogromnog broja datotečnih fragmenata i to bi rezultiralo ogromnim računskim troškom. Osim toga, točnost klasifikacije datotečnih fragmenta značajno utječe i na točnost rezbarenja datoteke budući da pogrešno klasificirani fragmenti predstavljaju šum na ulazu.
  
-Rana istraživanja o klasifikaciji datotečnih fragmenata koriste punu ekstenziju datoteke, magični broj ili metapodatke datoteka. Ove metode imaju visoku točnost klasifikacije samo kada se metapodaci mogu pronaći i izdvojiti iz medija za pohranu s fragmentima. Stoga imaju manje praktične primjene u digitalnoj forenzici jer metapodaci datotečnih fragmenata obično u stvarnim slučajevima nedostaju.+Rana istraživanja o klasifikaciji datotečnih fragmenata koriste punu ekstenziju datoteke, čarobni broj ili metapodatke datoteka. Ove metode imaju visoku točnost klasifikacije samo kada se metapodaci mogu pronaći i izdvojiti iz medija za pohranu s fragmentima. Stoga imaju manje praktične primjene u digitalnoj forenzici jer metapodaci datotečnih fragmenata obično u stvarnim slučajevima nedostaju.
  
 Posljednjih godina predloženi su algoritmi za klasifikaciju datotečnih fragmenata temeljeni na sadržaju koji izdvajaju N-gram, Shannonovu entropiju, Hammingovu težinu i statističke pravilnosti bajtova. U nekim shemama koriste se tradicionalne tehnike strojnog učenja kako bi se poboljšala izvedba ovih algoritama klasifikacije. Međutim, za datoteke visoke entropije kao što su komprimirane datoteke (npr. zip datoteka ili .jpg datoteka) i šifrirane datoteke, točnost nije toliko visoka koliko se očekivalo. Posljednjih godina predloženi su algoritmi za klasifikaciju datotečnih fragmenata temeljeni na sadržaju koji izdvajaju N-gram, Shannonovu entropiju, Hammingovu težinu i statističke pravilnosti bajtova. U nekim shemama koriste se tradicionalne tehnike strojnog učenja kako bi se poboljšala izvedba ovih algoritama klasifikacije. Međutim, za datoteke visoke entropije kao što su komprimirane datoteke (npr. zip datoteka ili .jpg datoteka) i šifrirane datoteke, točnost nije toliko visoka koliko se očekivalo.
Redak 52: Redak 54:
 ===== Algoritmi ===== ===== Algoritmi =====
 == kNN == == kNN ==
-== Konvolucijske mreže ==+K-najbližh susjeda (kNN) vrsta je nadziranog algoritma učenja koji se koristi i za regresiju i za klasifikaciju. KNN pokušava predvidjeti točnu klasu za testne podatke izračunavanjem udaljenosti između testnih podataka i svih točaka treninga. Zatim odabere k broj točaka koje su najbliže podacima testa.  
 + 
 +kNN algoritam izračunava vjerojatnost da testni podaci pripadaju klasama podataka o obuci 'K' i bit će odabrana klasa koja ima najveću vjerojatnost. U slučaju regresije, vrijednost je srednja vrijednost 'K' odabranih točaka treninga. 
 + 
 +Kostur algoritma: 
 + 
 +1. Izabere se k > 0 i uzorak 
 + 
 +2. Izabere se k ulaza najbližih uzorku 
 + 
 +3. Izračunamo klasifikaciju ulaza pomoću Euklidske udaljenosti 
 + 
 +4. Istu tu klasifikaciju odredimo za uzorak 
 + 
 +{{ :racfor_wiki:datoteke_i_datotecni_sustavi:knn.png?400 |}} 
 + 
 +Rad u kojem se koristi neuronska mreža za klasifikaciju datotečnih fragmenata: [5] 
 == Neuronske mreže == == Neuronske mreže ==
 Neuronska mreža vrsta je algoritma strojnog učenja koji je dizajniran za simulaciju ponašanja ljudskog mozga pri obradi i analizi informacija. Sastoji se od više međusobno povezanih slojeva umjetnih neurona koji zajedno rade na prepoznavanju uzoraka i predviđanju. Neuronska mreža vrsta je algoritma strojnog učenja koji je dizajniran za simulaciju ponašanja ljudskog mozga pri obradi i analizi informacija. Sastoji se od više međusobno povezanih slojeva umjetnih neurona koji zajedno rade na prepoznavanju uzoraka i predviđanju.
Redak 72: Redak 91:
 {{ :racfor_wiki:datoteke_i_datotecni_sustavi:1_z1_igfo1c6tq4tz1iwjraw.png?400 |}} {{ :racfor_wiki:datoteke_i_datotecni_sustavi:1_z1_igfo1c6tq4tz1iwjraw.png?400 |}}
  
-Rad u kojem se koristi neuronska mreža za klasifikaciju datotečnih fragmenata: [3]+Rad u kojem se koristi neuronska mreža za klasifikaciju datotečnih fragmenata: [1]
  
 +== Konvolucijske mreže ==
 +Konvolucijske neuronske mreže (CNN) vrsta su umjetne neuronske mreže koja je posebno dizajnirana za obradu podataka koji imaju mrežnu strukturu, kao što su slike, video ili audio. Često se koriste za zadatke prepoznavanja slika i klasifikacije, kao i za druge primjene kao što je obrada prirodnog jezika i prepoznavanje govora.
 +
 +Glavna razlika između CNN-a i običnih neuronskih mreža je u tome što su CNN-ovi dizajnirani za rad s podacima koji imaju strukturu sličnu mreži, dok su obične neuronske mreže prikladnije za rad s podacima koji imaju linearnu ili sekvencijalnu strukturu. U običnoj neuronskoj mreži svaki neuron u jednom sloju povezan je sa svakim neuronom u sljedećem sloju. To znači da mreža može naučiti prepoznavati obrasce u podacima koji nisu nužno prostorno povezani.
 +
 +Nasuprot tome, u CNN-u, neuroni su organizirani u "slojeve" koji su posebno dizajnirani za obradu ulaznih podataka s prostornom strukturom. Slojevi u CNN-u obično uključuju konvolucijske slojeve, skupne slojeve i potpuno povezane slojeve. U konvolucijskom sloju, mreža primjenjuje skup filtera na ulazne podatke, pri čemu svaki filter uči prepoznati određeni uzorak u ulazu. Izlaz konvolucijskog sloja zatim prolazi kroz sloj za udruživanje, koji smanjuje prostorne dimenzije izlaza, dok zadržava najvažnije značajke. Na kraju, izlaz prolazi kroz potpuno povezani sloj, koji obavlja konačnu klasifikaciju ili zadatak regresije. Slika 4. prikazujejednu konvolucijsku neuronsku mrežu:
 +
 +{{ :racfor_wiki:seminari:ug_cnn_scheme.png?400 |}}
 +
 +Rad u kojem se koristi konvolucijska neuronska mreža za klasifikaciju datotečnih fragmenata: [3]
 ===== Zaključak ===== ===== Zaključak =====
 +U ovom seminarskom radu kratko su objašnjene neke značajke datoteka, što je to datotečna fragmentacija, te zašto do nje dolazi. Također je opisano nekoliko algoritama koji se koriste za klasifikaciju datotečnih fragmenata. Osim toga dani su primjeri znanstvenih radova u kojima se koriste navedeni algoritmi. Od svih algoritama izdvojio bih algoritam [1] kao najbrži i najpouzdaniji. Iz istih razloga baš je taj algoritam naveden u prikaznicama na predmetu, te se preporučuje da se upravo njega koristi za klasifikaciju datotečnih fragmenata u industriji.
 ===== Literatura ===== ===== Literatura =====
  
Redak 81: Redak 111:
 [2] [[https://ieeexplore.ieee.org/document/8424645|File Fragment Classification Using Grayscale Image Conversion and Deep Learning in Digital Forensics]] [2] [[https://ieeexplore.ieee.org/document/8424645|File Fragment Classification Using Grayscale Image Conversion and Deep Learning in Digital Forensics]]
  
 +[3] [[https://www.researchgate.net/publication/327336441_File_Fragment_Type_Identification_with_Convolutional_Neural_Networks|File Fragment Type Identification with Convolutional Neural Networks
 +Yanchao Wang, Zhongqian Su, Dayi Song
 +Conference: the 2018 International Conference
 +]]
 +
 +[4] [[https://www.fer.unizg.hr/predmet/struce1|Gradivo predmeta Strojno učenje 1]]
 +
 +[5] [[https://link.springer.com/content/pdf/10.1007/978-3-642-24212-0_5.pdf|Fast Content-Based File Type Identification
 +Irfan Ahmed, Kyung-Suk Lhee, Hyun-Jung Shin and Man-Pyo Hong]]
racfor_wiki/seminari/klasifikacija_datotecnih_fragmenata.1676500812.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0