Sljedivost je jedna od glavnih načela znanstvenog rada. U računalnoj forenzici, kao i u mnogim područjima, sljedivost nije moguća bez objavljenih korištenih skupova podataka. Podaci su često memorijski veliki, ponekad je teško pronaći adekvante ili ih generirati. U ovom seminaru opisani su neki javno dostupni servisi za općenite skupove podataka za računalnu forenziku. Skupovi s navedenih servisa korišteni su za otkrivanje računalno generiranih slika osoba, otkrivanje metapodataka o slikama s bespilotnih letjelica,
Ključne riječi: računalna forenzika; skupovi podataka;
Ponovljivost (engl., reproducibility) je jedna od glavnih elemenata znanstvenog eksperimenta (pokusa), a označava da bi bilo tko u bilo kojem trenutku mogao ponoviti pokus pod istim (objavljenim) uvjetima i dobiti isti rezultat (ili rezultat koji je sličan u granicama dogovorenog odstupanja). U području računalne forenzike, kao i u mnogim drugim područjima, uvjet ponovljivosti nije moguće zadovoljiti bez objave podataka nad kojim je pokus proveden. Nažalost, meta-analiza (Izvor) provedena nad preko 700 znanstvenih članaka u navedenom području pokazuje da samo 29% članaka radi istraživanje o javno dostupnim podacima, odnosno da ih je najviše 29% sljedivo.
Razlozi za neobjavljivanje podataka su razni. Ponekad je istraživačima ugovorom zabranjeno javno objavljivati podatke, ponekad žele prikriti lažirane rezultate, a ponekad ne postoji ili znanstvenici nisu upoznati s infrastrukturom za spremanje velikih podataka.
U ovom seminaru definirana je podjela skupova podataka, pruža uvid u neke javno dostupne skupove podataka, s ciljem da istakne važnost objavljivanja skupova nad kojim je istraživanje provedeno. Navedeni i opisani su skupovi s općim datotekama kao što su videozapisi, fotografije i tekstovi.
Podaci mogu biti pogodni za statističku ili pojedinačnu analizu, a tada je glavna razlika u količini podataka. Pojedinačno možemo analizirati zloćudni softver, odnosno istraživati njegov način rada. Statistički možemo analizirati cijelu familiju zloćudnih softvera i tražiti njihove karakteristike (tzv., potpise). Skupove je također moguće podijeliti s obzirom na izvor i s obzirom na vrstu sadržaja.
Podatke možemo dobiti iz različitih izvora. Razlikujemo tri vrste izvora:
Prethodno navedeno istraživanje govori da je najveći dio podataka pokusom generirano, dok je uvjerljivo najmanje podataka umjetno generirano. Rezultati su prikazani tablicom 1.
Vrsta izvora | Broj članaka | Udio (%) |
---|---|---|
Pokusom generirani podaci | 198 | 56.4 |
Podaci koje je generirao korisnik | 129 | 36.7 |
Umjetno generirani podaci | 16 | 4.6 |
Pomiješani skup | 8 | 2.3 |
Podatke možemo dobiti od samih korisnika. Primjer je prikupljanje mrežnog prometa ili prikupljanje slike prijenosnog diska u svrhu spašavanja izgubljenih podataka. Najveći problemi kod ovakvog tipa podataka predstavljaju regulative poput GDPRa koji ograničava slobodu prikupljanja podataka, te što je takve podatke nekada potrebno označiti, a označavanje je podložno greškama. Najveća prednost je ta što podaci dolaze iz stvarnog svijeta.
Podaci mogu biti računalno (algoritamski) generirani. Problem je generirati dovoljno velik broj podataka ako je algoritam generiranja složen te dizajnirati algoritam koji će s unijeti pristranost koju želimo. U članku Farid and Bravo (2012) (Izvor) su koristili generirane slike da bi izmjerili razliku između stvarnih i računalno generiranih slika.
Ponekad je potrebno generirati podatke za pojedini pokus. Primjer bi bio generiranje mrežnog prometa pokretanjem zloćudnog programa. Problem kod ovog pristupa je brzina prikupljanja podataka, ali je jedini mogući način kad drugi podaci ne postoje.
S obzirom na sadržaj skupova podataka promatraju se:
i mnoge druge.
Javno dostupni skupovi podataka dostupni su svima, u sve svrhe, ali jedino što zahtijevaju je navođenje izvora u radu. Između mnogih organizacija koje pružaju izvor podataka, izdvojeni su američki institut NIST, europska agencija za cyber sigurnost ENISA, DigitalCorpora, fbreitinger i BOSS.
Computer Forensic Reference Data Sets (CFReDS) naziv je NISTovog projekta za prikupljanje digitalnih dokaza. Često se koriste za edukaciju, validaciju softvera, provjeru opreme, akreditaciju laboratorija i pomažu istražiteljima u otkrivanju novih dokaza. Podaci za provjeru opreme provjeravaju prikupljanje, pristup i obnovu podataka. Dok je uz podatke za edukaciju osoblja priložen i kontekst stvarne istrage.
Dostupne su slike uslikane iz bespilotnih letjelica, podaci o curenju podataka i mrežni promet pri krađi slika, kao i mnogi drugi.
Slika prikazuje sliku zaslona početne stranice s listom dostupnih skupova podataka. Unutar svakog skupa nalazi se README datoteka s opisom skupa.
Skup sadrži slike uslikane iz 60 različitih modela bespilotnih letjelica, kojima je upravljano različitim upravljačima (joystickom, različitim mobitelima i sl.). Skup podataka je koristan kada je potrebno odrediti izvor pojedine fotografije za koju pretpostavljamo da je slikana iz bespilotne letjelice.
Uz skup priložen je i kontekst u kojem su podaci pribavljeni i opis dostupnih podataka.
Skup podataka napravljen za edukaciju o istraživanju o tome kako je došlo do curenja podataka. Sam skup obogaćen je informacijama o korištenim sustavima i konkretnim zadacima koje je potrebno riješiti.
Skup podataka koji sadrži dd slike za testiranje softvera za carving podataka.
Podržan od strane Sveučilišta New Haven, projekt UNHcFREG okuplja skupove podataka svih vrsta i izvora. Trenutno sadrži preko 8200 skupova podataka, a na početnoj stranici ih izdvaja po tipu, veličini, načinu prikupljanja, izvoru i godini.
Servis ne sprema svoje kopije podataka već indeksira podatke s drugih servisa.
Na slici 1. prikazana je snimka zaslona stranice. Na stranici su označeni neki skupovi općih podataka. Primjeri su Office dokumenti, slike i PDF datoteke. Stranica također pruža uvid u memorijsko zauzeće podataka, tip generiranja, godinu objavljivanja i vrste podataka pojedinog skupa.
Break On Steganographic System (Izvor) je skup koji se sastoji od 1000 slika koje u sebi imaju skrivenu poruku. Skup je namijenjen u edukativne i natjecateljske svrhe, te postoji tablica najuspješnijih natjecatelja.
Na internetu postoji velik broj skupova podataka, ali je do određenog skupa teško doći, a i ispravnost takvog skupa je upitna pa se velik broj istraživača odlučuje na samostalno generiranje podataka. Nepostojanje dogovora i dokumentacije kod prikupljanja i skladištenja podataka
Prevelik broj autora uz svoje članke ne objavljuje skupove podataka koje su koristili. Različito viđenje određenog problema vezanog uz privatnost pojedine osobe, te različite regulative otežavaju razmjenu informacija između znanstvenika u svijetu. Postoje inicijative poput UNHcFREG-a koje pokušavaju indeksirati sve podatke i učiniti ih dostupnim, ali nažalost sistematizacija prikupljenih podataka nije dovoljno dobra.