Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:malware:detekcija_malicioznih_pdf_datoteka_metodama_strojnog_ucenja [2020/01/05 19:08] iilic2 Cro |
racfor_wiki:malware:detekcija_malicioznih_pdf_datoteka_metodama_strojnog_ucenja [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 4: | Redak 4: | ||
Kompleksnost i struktura modernih digitalnih dokumenata omogućuje skrivanje ili namjerno predstavljanje malicioznog koda kao skupa korisnih podataka. Iz tog razloga se takozvani //trojanski dokumenti// često koriste kao sredstvo za distribuciju malicioznog koda, često djelujući kao legitimni i korisni dokumenti. Cilj takvih napada je iskoristiti ranjivosti u klijentskoj aplikaciji kako bi se postiglo izvršavanje proizvoljnog programskog koda. PDF dokumenti, jedni od najraširenije korištenih dokumenata, su postali popularni zahvaljujući svojoj jednostavnosti i širokom spektru funkcionalnosti koje nude. Ovaj seminar obradit će metodu statičke analize PDF dokumenata koja uz pomoć algoritama strojnog učenja obavlja klasifikaciju PDF dokumenta na benigni ili maliciozni dokument. Osim klasifikacije benignog/ | Kompleksnost i struktura modernih digitalnih dokumenata omogućuje skrivanje ili namjerno predstavljanje malicioznog koda kao skupa korisnih podataka. Iz tog razloga se takozvani //trojanski dokumenti// često koriste kao sredstvo za distribuciju malicioznog koda, često djelujući kao legitimni i korisni dokumenti. Cilj takvih napada je iskoristiti ranjivosti u klijentskoj aplikaciji kako bi se postiglo izvršavanje proizvoljnog programskog koda. PDF dokumenti, jedni od najraširenije korištenih dokumenata, su postali popularni zahvaljujući svojoj jednostavnosti i širokom spektru funkcionalnosti koje nude. Ovaj seminar obradit će metodu statičke analize PDF dokumenata koja uz pomoć algoritama strojnog učenja obavlja klasifikaciju PDF dokumenta na benigni ili maliciozni dokument. Osim klasifikacije benignog/ | ||
- | |||
===== Uvod ===== | ===== Uvod ===== | ||
- | Trojanski dokumenti iskorištavaju ranjivosti sve većeg broja aplikacija za pregledavanje dokumenata, često u kombinaciji s društvenim inženjeringom kako bi zavarali žrtve o legitimnosti tih dokumenata. Na primjer, skrivanje malicioznog koda u lažne izvode iz banke, izvješća tvrtki itd. Općenito postoje dvije vrste napada. Prvi su phishing napadi izvedeni na velikoj skali čiji je cilj špijunaža i prikupljanje podataka o velikom broju slučajnih žrtava. Drugi tip su ciljani napadi koji koriste znanje o određenoj osobi ili entitetu. | + | Trojanski dokumenti iskorištavaju ranjivosti sve većeg broja aplikacija za pregledavanje dokumenata, često u kombinaciji s društvenim inženjeringom kako bi zavarali žrtve o legitimnosti tih dokumenata. Na primjer, skrivanje malicioznog koda u lažne izvode iz banke, izvješća tvrtki itd. Općenito postoje dvije vrste napada. Prvi su phishing napadi izvedeni na velikoj skali čiji je cilj špijunaža i prikupljanje podataka o velikom broju slučajnih žrtava. Drugi tip su ciljani napadi koji koriste znanje o određenoj osobi ili entitetu.\\ |
- | + | ||
- | \\ | + | |
\\ | \\ | ||
PDF dokumenti jedan su od najpopularnijih formata datoteka za izvođenje ovih vrsta napada. Napadači koriste mnogo različitih metoda i strategija za izvođenje tih napada koristeći PDF datotečni format. Neki od tih metoda su: | PDF dokumenti jedan su od najpopularnijih formata datoteka za izvođenje ovih vrsta napada. Napadači koriste mnogo različitih metoda i strategija za izvođenje tih napada koristeći PDF datotečni format. Neki od tih metoda su: | ||
Redak 16: | Redak 13: | ||
* korištenje dokumenta za prijenos kompletnog malicioznog koda na računalo žrtve | * korištenje dokumenta za prijenos kompletnog malicioznog koda na računalo žrtve | ||
* korištenje dokumenta koji ima ugrađen kod za preuzimanje malicioznog koda s interneta | * korištenje dokumenta koji ima ugrađen kod za preuzimanje malicioznog koda s interneta | ||
- | Za otkrivanje malicioznih PDF dokumenata obično postoje dva pristupa. Prvi pristup je statička analiza dokumenta koja koristi //signature analysis// | + | Za otkrivanje malicioznih PDF dokumenata obično postoje dva pristupa. Prvi pristup je statička analiza dokumenta koja koristi //signature analysis// |
- | + | ||
- | \\ \\ Metoda opisana u ovom seminaru bazirana je statičkoj analizi. Korištenjem regularnih izraza, za svaki dokument u skupu podataka izvlače se značajke iz metapodataka dokumenta te njegovih strukturnih elemenata, bez potrebe za dekodiranjem samog PDF dokumenta. Te se značajke zatim predaju algoritmu strojnog učenja zvanim //Random forests//, čiji je cilj naučiti uzorke koji se nalaze u podacima te iskoristiti te uzorke za razlikovanje benignih od malicioznih dokumenata. | + | |
- | \\ Temeljna je pretpostavka da će svaka dva benigna dokumenta imati slične ekstrahirane značajke. Ista pretpostavka vrijedi i za dva maliciozna dokumenta. No, dva dokumenta neće imati slične značajke ako je jedan od njih benigni, a drugi maliciozan. | + | |
- | \\ Glavna prednost pristupa koji koristi algoritme strojnog učenja je mogućnost generaliziranja na nove vrste malicioznog koda. Metoda je agnostična na specifične ranjivosti te ne zahtijeva prethodno znanje o obiteljima malicioznog koda. | + | |
===== Ekstrakcija i selekcija značajki ===== | ===== Ekstrakcija i selekcija značajki ===== | ||
- | Koriste se dva različita skupa podataka, jedan za fazu treniranja i drugi za fazu testiranja. Detaljnije informacije o skupovima podataka i načinu njihova prikupljanja mogu se naći u originalnom članku ove metode [1]. | + | Koriste se dva različita skupa podataka, jedan za fazu treniranja i drugi za fazu testiranja. Detaljnije informacije o skupovima podataka i načinu njihova prikupljanja mogu se naći u originalnom članku ove metode [1]. \\ {{ : |
- | + | ||
- | \\ {{ : | + | |
* Broj font objekata ("/ | * Broj font objekata ("/ | ||
Redak 36: | Redak 27: | ||
* Suma piksela u svim slikama | * Suma piksela u svim slikama | ||
* … | * … | ||
- | Ova metoda ekstrakcije značajki također dobro radi i na enkriptiranim dokumentima jer kod takvih dokumenata metapodaci i strukturalni elementi ostaju dekriptirani. Gotovo sve značajke su numeričke, a one koje nisu se transformiraju tako da postanu numeričke. | + | Ova metoda ekstrakcije značajki također dobro radi i na enkriptiranim dokumentima jer kod takvih dokumenata metapodaci i strukturalni elementi ostaju dekriptirani. Gotovo sve značajke su numeričke, a one koje nisu se transformiraju tako da postanu numeričke. \\ Sve značajke su odabrane na način da se neutralizira ovisnost o nizovima znakova i bajtova specifičnim za neki napad ili familiju malicioznog koda, s razlogom da se poveća generalizacija algoritma strojnog učenja. Također, izbjegavaju se značajke poput imena autora ili broj znakova u polju imena autora. |
- | \\ Sve značajke su odabrane na način da se neutralizira ovisnost o nizovima znakova i bajtova specifičnim za neki napad ili familiju malicioznog koda, s razlogom da se poveća generalizacija algoritma strojnog učenja. Također, izbjegavaju se značajke poput imena autora ili broj znakova u polju imena autora. | + | |
===== Klasifikacija korištenjem algoritma Random forests ===== | ===== Klasifikacija korištenjem algoritma Random forests ===== | ||
- | Random forests algoritam je zapravo ansambl velikog broja stabala odlučivanja koji su trenirani na slučajnim podskupovima skupa značajki. Rezultat se dobiva metodom glasanja stabala odluke. Više o Random forests algoritmu može se pronaći u [2]. | + | Random forests algoritam je zapravo ansambl velikog broja stabala odlučivanja koji su trenirani na slučajnim podskupovima skupa značajki. Rezultat se dobiva metodom glasanja stabala odluke. Više o Random forests algoritmu može se pronaći u [2]. \\ \\ Ova metoda uključuje treniranje dva različita Random forests klasifikatora. Prvi klasifikator odlučuje o tome je li PDF dokument benigni ili maliciozan. Drugi klasifikator primjenjuje se samo na maliciozne PDF dokumente. Njegova uloga je klasifikacija dokumenta na one koji su namijenjeni phishing napadima na velikoj skali ili na one koji su namijenjeni za ciljane napade. Na donjoj slici ilustriran je ovaj pristup. Benigni dokumenti su označeni sa " |
- | \\ \\ Ova metoda uključuje treniranje dva različita Random forests klasifikatora. Prvi klasifikator odlučuje o tome je li PDF dokument benigni ili maliciozan. Drugi klasifikator primjenjuje se samo na maliciozne PDF dokumente. Njegova uloga je klasifikacija dokumenta na one koji su namijenjeni phishing napadima na velikoj skali ili na one koji su namijenjeni za ciljane napade. Na donjoj slici ilustriran je ovaj pristup. Benigni dokumenti su označeni sa " | + | |
- | + | ||
- | \\ \\ {{ : | + | |
- | \\ \\ Važno je da mehanizam za detekciju bilo koje vrste malicioznih datoteka, pa tako i PDF datoteka, bude otporan na metode izbjegavanja otkrivanja (eng. detection evasion). Napadači uz poznavanje algoritma detekcije mogu pokušati zavarati sustav namjernim prilagođavanjem dokumenta kako bi proizveli dokument koji izgleda benigno. Zato je važno da sustav za detekciju bude robustan i otporan na takve napade. Takve vrste napada na sustave bazirane na algoritmima strojnog učenja nazivamo napadi neprijateljskim primjerima (eng. adversarial attack). Cilj im je izgraditi primjer dokumenta koji će prevariti klasifikator. | + | |
- | \\ Ova metoda pokazuje visok stupanj otpornosti na napade neprijateljskim primjerima. Međutim, autori ove metode pokazuju da je robusnost moguće povećati perturbacijom skupa značajki za učenje algoritma. U suštini cilj je unijeti neku razinu šuma u podatke, što će imati efekt porasta varijabilnosti u podacima. Algoritmu strojnog učenja bit će otežano favoriziranje određenih značajki u odnosu na druge. | + | |
===== Rezultati i analiza ===== | ===== Rezultati i analiza ===== | ||
- | Svaki od klasifikatora je evaluiran na testnom skupu dokumenata. Rezultati su prikazani u sljedećim tablicama, koristeći standardne klasifikacijske metrike [5]. | + | Svaki od klasifikatora je evaluiran na testnom skupu dokumenata. Rezultati su prikazani u sljedećim tablicama, koristeći standardne klasifikacijske metrike [5]. \\ \\ Donja tablica prikazuje performanse prvog klasifikatora benignih i malicioznih PDF dokumenata. Vidljivo je da je postotak detekcije malicioznih primjera vrlo visok (TP rate u tablici), dok je razina //false positive// |
- | \\ \\ Donja tablica prikazuje performanse prvog klasifikatora benignih i malicioznih PDF dokumenata. Vidljivo je da je postotak detekcije malicioznih primjera vrlo visok (TP rate u tablici), dok je razina //false positive// | + | |
- | \\ {{ : | + | |
- | \\ {{ : | + | |
===== Zaključak ===== | ===== Zaključak ===== |