Sadržaj

Skupovi podataka za računalnu forenziku - skupovi općenitih datoteka, fotografija, videa, tekstova

Sažetak

Sljedivost je jedna od glavnih načela znanstvenog rada. U računalnoj forenzici, kao i u mnogim područjima, sljedivost nije moguća bez objavljenih korištenih skupova podataka. Podaci su često memorijski veliki, ponekad je teško pronaći adekvante ili ih generirati. U ovom seminaru opisani su neki javno dostupni servisi za općenite skupove podataka za računalnu forenziku. Skupovi s navedenih servisa korišteni su za otkrivanje računalno generiranih slika osoba, otkrivanje metapodataka o slikama s bespilotnih letjelica,

Ključne riječi: računalna forenzika; skupovi podataka;

Uvod

Ponovljivost (engl., reproducibility) je jedna od glavnih elemenata znanstvenog eksperimenta (pokusa), a označava da bi bilo tko u bilo kojem trenutku mogao ponoviti pokus pod istim (objavljenim) uvjetima i dobiti isti rezultat (ili rezultat koji je sličan u granicama dogovorenog odstupanja). U području računalne forenzike, kao i u mnogim drugim područjima, uvjet ponovljivosti nije moguće zadovoljiti bez objave podataka nad kojim je pokus proveden. Nažalost, meta-analiza (Izvor) provedena nad preko 700 znanstvenih članaka u navedenom području pokazuje da samo 29% članaka radi istraživanje o javno dostupnim podacima, odnosno da ih je najviše 29% sljedivo.

Razlozi za neobjavljivanje podataka su razni. Ponekad je istraživačima ugovorom zabranjeno javno objavljivati podatke, ponekad žele prikriti lažirane rezultate, a ponekad ne postoji ili znanstvenici nisu upoznati s infrastrukturom za spremanje velikih podataka.

U ovom seminaru definirana je podjela skupova podataka, pruža uvid u neke javno dostupne skupove podataka, s ciljem da istakne važnost objavljivanja skupova nad kojim je istraživanje provedeno. Navedeni i opisani su skupovi s općim datotekama kao što su videozapisi, fotografije i tekstovi.

Skupovi podataka za računalnu forenziku

Podaci mogu biti pogodni za statističku ili pojedinačnu analizu, a tada je glavna razlika u količini podataka. Pojedinačno možemo analizirati zloćudni softver, odnosno istraživati njegov način rada. Statistički možemo analizirati cijelu familiju zloćudnih softvera i tražiti njihove karakteristike (tzv., potpise). Skupove je također moguće podijeliti s obzirom na izvor i s obzirom na vrstu sadržaja.

Podjela skupova s obzirom na izvor

Podatke možemo dobiti iz različitih izvora. Razlikujemo tri vrste izvora:

  1. podaci koje je generirao korisnik,
  2. umjetno generirane podatke i
  3. pokusom generirane podatke.

Prethodno navedeno istraživanje govori da je najveći dio podataka pokusom generirano, dok je uvjerljivo najmanje podataka umjetno generirano. Rezultati su prikazani tablicom 1.

Vrsta izvora Broj članaka Udio (%)
Pokusom generirani podaci 198 56.4
Podaci koje je generirao korisnik 129 36.7
Umjetno generirani podaci 16 4.6
Pomiješani skup 8 2.3

Podaci koje je generirao korisnik

Podatke možemo dobiti od samih korisnika. Primjer je prikupljanje mrežnog prometa ili prikupljanje slike prijenosnog diska u svrhu spašavanja izgubljenih podataka. Najveći problemi kod ovakvog tipa podataka predstavljaju regulative poput GDPRa koji ograničava slobodu prikupljanja podataka, te što je takve podatke nekada potrebno označiti, a označavanje je podložno greškama. Najveća prednost je ta što podaci dolaze iz stvarnog svijeta.

Umjetno generirani podaci

Podaci mogu biti računalno (algoritamski) generirani. Problem je generirati dovoljno velik broj podataka ako je algoritam generiranja složen te dizajnirati algoritam koji će s unijeti pristranost koju želimo. U članku Farid and Bravo (2012) (Izvor) su koristili generirane slike da bi izmjerili razliku između stvarnih i računalno generiranih slika.

Pokusom generirani podaci

Ponekad je potrebno generirati podatke za pojedini pokus. Primjer bi bio generiranje mrežnog prometa pokretanjem zloćudnog programa. Problem kod ovog pristupa je brzina prikupljanja podataka, ali je jedini mogući način kad drugi podaci ne postoje.

Vrste sadržaja skupova podataka za računalnu forenziku

S obzirom na sadržaj skupova podataka promatraju se:

  1. prikupljeni paketi mrežnog prometa,
  2. izvršne datoteke pojedine familije zloćudnih programa,
  3. oštećene datoteke čiji je sadržaj potrebno spasiti,
  4. RAM dump,
  5. računalno izmijenjene fotografije,

i mnoge druge.

Popularni javno dostupni skupovi podataka za računalnu forenziku

Javno dostupni skupovi podataka dostupni su svima, u sve svrhe, ali jedino što zahtijevaju je navođenje izvora u radu. Između mnogih organizacija koje pružaju izvor podataka, izdvojeni su američki institut NIST, europska agencija za cyber sigurnost ENISA, DigitalCorpora, fbreitinger i BOSS.

CFReDS Project

Computer Forensic Reference Data Sets (CFReDS) naziv je NISTovog projekta za prikupljanje digitalnih dokaza. Često se koriste za edukaciju, validaciju softvera, provjeru opreme, akreditaciju laboratorija i pomažu istražiteljima u otkrivanju novih dokaza. Podaci za provjeru opreme provjeravaju prikupljanje, pristup i obnovu podataka. Dok je uz podatke za edukaciju osoblja priložen i kontekst stvarne istrage.

Dostupni skupovi podataka

Dostupne su slike uslikane iz bespilotnih letjelica, podaci o curenju podataka i mrežni promet pri krađi slika, kao i mnogi drugi.

Slika prikazuje sliku zaslona početne stranice s listom dostupnih skupova podataka. Unutar svakog skupa nalazi se README datoteka s opisom skupa.

Slike uslikane iz bespilotnih letjelica

Skup sadrži slike uslikane iz 60 različitih modela bespilotnih letjelica, kojima je upravljano različitim upravljačima (joystickom, različitim mobitelima i sl.). Skup podataka je koristan kada je potrebno odrediti izvor pojedine fotografije za koju pretpostavljamo da je slikana iz bespilotne letjelice.

Uz skup priložen je i kontekst u kojem su podaci pribavljeni i opis dostupnih podataka.

Podaci o procurenim podacima

Skup podataka napravljen za edukaciju o istraživanju o tome kako je došlo do curenja podataka. Sam skup obogaćen je informacijama o korištenim sustavima i konkretnim zadacima koje je potrebno riješiti.

Carving podataka

Skup podataka koji sadrži dd slike za testiranje softvera za carving podataka.

UNHcFREG

Podržan od strane Sveučilišta New Haven, projekt UNHcFREG okuplja skupove podataka svih vrsta i izvora. Trenutno sadrži preko 8200 skupova podataka, a na početnoj stranici ih izdvaja po tipu, veličini, načinu prikupljanja, izvoru i godini.

Servis ne sprema svoje kopije podataka već indeksira podatke s drugih servisa.

Na slici 1. prikazana je snimka zaslona stranice. Na stranici su označeni neki skupovi općih podataka. Primjeri su Office dokumenti, slike i PDF datoteke. Stranica također pruža uvid u memorijsko zauzeće podataka, tip generiranja, godinu objavljivanja i vrste podataka pojedinog skupa.

BOSS

Break On Steganographic System (Izvor) je skup koji se sastoji od 1000 slika koje u sebi imaju skrivenu poruku. Skup je namijenjen u edukativne i natjecateljske svrhe, te postoji tablica najuspješnijih natjecatelja.

Zaključak

Na internetu postoji velik broj skupova podataka, ali je do određenog skupa teško doći, a i ispravnost takvog skupa je upitna pa se velik broj istraživača odlučuje na samostalno generiranje podataka. Nepostojanje dogovora i dokumentacije kod prikupljanja i skladištenja podataka

Prevelik broj autora uz svoje članke ne objavljuje skupove podataka koje su koristili. Različito viđenje određenog problema vezanog uz privatnost pojedine osobe, te različite regulative otežavaju razmjenu informacija između znanstvenika u svijetu. Postoje inicijative poput UNHcFREG-a koje pokušavaju indeksirati sve podatke i učiniti ih dostupnim, ali nažalost sistematizacija prikupljenih podataka nije dovoljno dobra.

Literatura

[1] Cinthya Grajeda, Frank Breitinger, and Ibrahim Baggili. “Availability of Datasets for digital forensics – and what is missing”. In: Digital Investigation, 2017

[2] Skupina nenavedenih autora - The CFReDS Project. NIST, 2020.

[3] Skupina nenavedenih autora - ENISA. Europska Unija, 2020.