Nekoliko zadnjih desetljeća obilježio je uspon platformi kao što su YouTube, Netflix, HBO, Facebook i slično. One su postale neizbježan dio naše svakodnevnice iz kojeg profitiramo, ali u kojem i uživamo. Tehnologije koje se koriste na ovim streaming platformama stalno se mijenjaju kako se industrija razvija, a najutjecajniji pokretač tog konstantnog razvoja su potrošači. Oni od svih pružatelja usluga očekuju redovit i brz napredak pa tržište stalno hvata korak s onim što je trenutno popularno i traženo. Što se tiče ovih streaming platformi, korisnici od njih očekuju videozapise i slike vrlo visoke razlučivosti na svim mogućim uređajima preko kojih mogu konzumirati takav sadržaj. Stoga su tehnike koje omogućuju točnu i učinkovitu rekonstrukciju detalja visoko razlučivih slika u velikoj potražnji, a konkurencija na tržištu svakodnevno raste. Osim primjene u industriji zabave i opuštanja, ove tehnike upotrebljavaju se i u forenzici, nad nadzornim snimkama, za povećavanje fotografija, restoraciju osjetljivih likovnih i umjetničkih djela, medicinsku dijagnozu pomoću magnetske rezonance itd. U nastavku ovog seminarskog rada usredotočit ćemo se na primjenu tehnika za poboljšanje slika u kontekstu forenzičke znanosti.
Rezolucija slike najčešće se opisuje pomoću PPI (engl. pixel per inch) jedinice, tj. piksel po inču, koja govori koliko se piksela nalazi u jednom inču neke slike. Tako slike visoke rezolucije imaju više piksela po inču, tj. sadrže veću količinu informacija u tom inču. Što je broj piksela veći, to je slika kvalitetnija, izoštrenija i jasnija. Suprotno tome, slike niske rezolucije imaju manje piksela po inču koji, ako su dovoljno veliki, mogu postati poprilično vidljivi na slici, a to ju čini manje kvalitetnom ljudskom oku.
Naravno, cilj je uvijek postići što kvalitetnije slike. Najtradicionalnija metoda korištena za postizanje visoke rezolucije jest interpolacija. Interpolacija podatke koji nedostaju između piksela u uzorku procjenjuje tako da koristi informacije iz susjednih piksela. Nažalost, interpolacijom slika postane zamagljena i nejasna, bez izraženih rubova i fine teksture. Iako su predložena mnoga poboljšanja interpolacije, i dalje je matematički nemoguće postići da ijedan interpolacijski algoritam rekonstruira detalje podpiksela iznad prostorne frekvencije izvorne slike. Ovaj nedostatak interpolacije omogućio je razvoj velikog broja tzv. super rezolucijskih tehnika. Super rezolucija slika je tehnika koja se koristi za poboljšavanje rezolucije slike, odnosno za postizanje visoke rezolucije (engl. high resolution, HR) iz slika niske rezolucije (engl. low resolution, LR). Ako ciljana slika ne sadrži dovoljno informacija za rekonstrukciju željene razine detalja, ove tehnike koriste više nisko rezolucijskih izvornih slika istih ili sličnih objekata zabilježenih iz različitih perspektiva kako bi obnovile podatke koji nedostaju.
Informacije koje se stječu iz digitalnih slika i videa mogu biti jako dragocjene u polju forenzičke znanosti. Ti medijski zapisi prikupljaju se s nadzornih snimki ili snimki promatrača nekog incidenta te se mogu koristiti kao dokazi u sudskim procesima. Neizbježan problem koji se pojavljuje jest što su slike i videi prikupljeni na taj način najčešće loše kvalitete, odnosno niske rezolucije (engl. LR). Slika niske rezolucije može biti rezultat fizičkih ograničenja kamere kojom je snimana ili rezultat procesuiranja slike nakon snimanja, npr. postupkom kompresije slike s ciljem uštede memorijskog prostora, ona gubi određen dio informacija. To se često događa kod slika snimljenih pametnim telefonima. Kako bi se povratilo što više informacija iz tih LR (nisko rezolucijskih) slika, poželjna je pretvorba u HR (visoko rezolucijske) slike. Rješenje je primjena super rezolucije. S obzirom da je cilj postići vizualno ugodniju sliku ljudskom oku, često su u cijeli proces uključeni i ljudi kako bi dodatno procijenili kvalitetu slika. Postoje razne metode procjene kvalitete te se koriste ovisno o cilju koji se želi postići. Slijedno tome, drugačije se metode primjenjuju na slike snimljene nadzornom kamerom i one snimljene pametnim telefonom.
S porastom popularnosti raznih kriminalističkih i forenzičkih emisija, porasla su i očekivanja o sposobnostima forenzičke znanosti u kontekstu procesuiranja slika i videozapisa koji se prezentiraju kao dokazi na sudu. Takve emisije često glorificiraju forenziku pridjeljujući joj nepostojeće i nemoguće vještine što zasigurno utječe na percepciju javnosti o dotičnoj znanosti. Jednim istraživanjem pokazano je kako su gledatelji tih emisija puno kritičniji prema prezentiranim dokazima te ih češće smatraju nepouzdanima i manje vjerodostojnima nego oni koji ne gledaju kriminalističke serije. To se naziva CSI efekt. U stvarnim istragama nije tako lako pronaći registracijske tablice s početno nečitljive slike ili provući neki uzorak kroz bazu podataka te u nekoliko sekundi riješiti slučaj. Postoje ograničenja u poboljšavanju kvalitete slika, ali i dodatna ograničenja u dopuštenim alteracijama bez obzira na mogućnosti neke tehnike. Naime, tehnike koje se primjenjuju u povećanju kvalitete slika podrazumijevaju mijenjanje podataka i informacija u slici, a kao što znamo, u forenzici je točnost informacija važnija od ijedne druge komponente i treba ju očuvati. Stoga, iako je neka slika nakon procesuiranja možda ugodnija ljudskom oku, u forenzici je važnija ona originalna zbog informacija koje nosi. Kada bi se ipak odlučilo primijeniti neku tehniku na izvornu sliku, treba odabrati onu koja radi minimalne promjene, tj. koja radi najmanje pretpostavke.
Postoje dvije osnovne grupe super rezolucijskih tehnika, a to su SISR i MISR. SISR (engl. Single-Image Super-Resolution) uključuje postizanje visoke rezolucije iz samo jedne izvorne slike niske rezolucije, dok MISR (engl. Multiple-Image Super-Resolution) upotrebljava više nisko rezolucijskih slika (engl. LR) iste scene kako bi se dobila slika visoke rezolucije (engl. HR). Obje se metode mogu primijeniti na slike ručno ili se mogu koristiti neuronske mreže.
SISR tehnike koriste se kad na raspolaganju imamo samo jednu originalnu sliku, a mogu se dalje podijeliti u dvije skupine tehnika, one koje se izvode pomoću interpolacije i one temeljene na učenju, točnije strojnom učenju. Interpolaciju smo već spomenuli kao jednu od tradicionalnih metoda, a strojnog učenja ćemo se dotaknuti u nastavku rada. Kada na raspolaganju imamo više dostupnih slika, na primjer, kada više kamera s gotovo iste točke pogleda snimi istu scenu, možemo primijeniti MISR tehnike. Osim toga, MISR se primjenjuje i kada na raspolaganju imamo videozapis koji je zapravo skup velikog broja slika. Tako jedan okvir neke video sekvence može sadržavati mnogo malo posmaknutih ili rotiranih nisko rezolucijskih slika danog objekta iz kojih se mogu rekonstruirati detalji koji nedostaju. Postoje razna mišljenja u vezi ovih tehnika te koja je od njih superiornija. Tako neki smatraju SISR tehnike boljima zbog visoke učinkovitosti. No, visoko rezolucijske slike nastale pomoću MISR tehnika bazirane su na većem broju dostupnih podataka pa se stoga manje podataka o slici pogađa i procjenjuje iz ulaznih slika, kao u slučaju SISR tehnika. Što se tiče forenzike, već je spomenuto kako treba koristiti metode koje što manje mijenjaju informacije iz slike pa bi stoga bilo primjereno zaključiti kako su MISR tehnike prikladnije.
Super rezolucija slika je tehnika koja se koristi za poboljšavanje rezolucije slike, odnosno za postizanje visoke rezolucije (engl. high resolution, HR) iz slika niske rezolucije (engl. low resolution, LR). Hiper rezolucija predstavlja novu tehniku super rezolucijske rekonstrukcije slika. Temelji se na usklađivanju pojedinosti ciljane slike niske rezolucije s pripadajućim pojedinostima visoke rezolucije iz baze podataka slika. Ova tehnika ima široku primjenu u različitim važnim područjima kao što je medicina, gdje snimanje snimki magnetske rezonance (MRI) visoke razlučivosti može biti dugotrajno i nezgodno zbog vremena skeniranja te omjera signala i šuma. Hiper rezolucija u ovom slučaju pruža mogućnost generiranja snimki magnetske rezonance visoke rezolucije iz MRI snimki niske rezolucije. Također, hiper rezolucija se primjenjuje za otkrivanje, prepoznavanje i izvođenje prepoznavanja lica na slikama niske rezolucije dobivenih na sigurnosnim kamerama. Osim toga, hiper rezolucija se koristi i za smanjenje troškova prijenosa podataka sa servera tako što omogućuje da se mediji prenose u nižoj rezoluciji nakon čega se kasnijom primjenom hiper rezolucije dobije medij više rezolucije.
Postoji mnogo metoda za postizanje visoko rezolucijskih (HR) slika iz jedne ili više nisko rezolucijskih (LR) slika među kojima su interpolacija k-najbližih susjeda, bilinearna interpolacija, bikubna interpolacija, transponirani konvolucijski sloj, subpikselski sloj itd. Ove metode mogu se primijeniti ručno, ali i uz pomoć neuronskih mreža koje su trenirane da pretvore LR slike u HR slike. S obzirom da su neuronske mreže jedan od algoritama strojnog učenja, to podrazumijeva postojanje barem dvaju skupova podataka. To su skup za učenje i skup za testiranje. Sam naziv oba skupa indicira čemu služe. Na skupu za učenje učimo, tj. treniramo model, a zatim pomoću tog modela radimo predikciju na skupu za testiranje, na kojem računamo točnost ili pogrješku predikcije. Skup za učenje podrazumijeva podatke koji su nam već poznati, a s obzirom da se radi o nadziranom učenju kao vrsti strojnog učenja, na raspolaganju imamo podatke u obliku (ulaz, izlaz). Pritom je ulaz LR slika, a izlaz je njena HR verzija. Neuronska mreža se trenira tako da se uzme LR verzija slike iz skupa za učenje na temelju koje se napravi njena HR verzija te se onda računa funkcija gubitka. Funkcija gubitka govori koliko dobro mreža predviđa izlaz uspoređujući HR sliku koju je proizvela s onom koju već imamo u skupu za učenje. Mreža se dalje optimizira s ciljem minimiziranja funkcije gubitka. Nakon što naučimo mrežu na tom skupu podataka, dobijemo skup za testiranje u kojem su ponuđeni samo ulazi, a neuronska mreža mora odrediti pripadajuće izlaze, tj. predvidjeti ih.
Slike niske rezolucije mogu se modelirati u slike visoke rezolucije koristeći formulu prikazanu na slici. Oznaka D predstavlja funkciju degradacije, Ix označava sliku niske rezolucije, a Iy sliku visoke rezolucije. Oznaka σ predstavlja šum.
Prilikom rješavanja problema hiper rezolucije slika i videozapisa često se primjenjuju neuronske mreže. S obzirom da su podatci o funkciji degradacije i šumu nepoznati, zadatak neuronskih mreža je pronaći inverz funkcije degradacije koristeći podatke slika visoke i niske rezolucije. U sklopu ovoga rada, bit će obrađene sljedeće tehnike hiper rezolucije:
Metode koje pripadaju ovoj grupi pripadaju tradicionalnim tehnikama, a najpopularnija među njima je tehnika SRCNN (engl. Super-Resolution Convolutional Neural Network) koja među prvima primjenjuje duboko učenje. SRCNN tehnika koristi konvolucijsku neuronsku mrežu te se sastoji od tri sloja: sloja za ekstrakciju, sloja nelinearnog mapiranja te sloja rekonstrukcije. Prvi sloj koristi se za izdvajanje gustih zakrpa na ulazu te njihovo predstavljanje pomoću konvolucijskih filtara. Sloj nelinearnog mapiranja sastoji se od konvolucijskih filtara 1×1 koje se koriste za dodavanje nelinearnosti te promjenu broja kanala. Na posljetku, sloj rekonstrukcije rekonsturira sliku visoke rezolucije. SRCNN tehnika prikazana je na slici.
Poboljšanje SRCNN metode predstavlja metoda vrlo dublje hiper rezolucije, VDSR (engl. Very Deep Super Resolution). Za razliku od SRCNN metode koja koristi manju mrežu s velikim konvolucijskim filterima, VDSR metoda koristi duboku mrežu s malim konvolucijskim filterima (3×3). Slika prikazuje arhitekturu VDSR mreže.
Na ulazu u mrežu interopolira se slika niske rezolucije nakon čega ulazi u mrežu. Interpolirana slika zatim prolazi kroz niz konvolucijskih i ReLu slojeva te dolazi do poslijednjeg D-tog (rezidualnog) konvolucijskog sloja te se njegov izlaz sumira s početnom interpoliranom slikom niske rezolucije (ILR) čime nastaje slika visoke rezolucije (HR).
Prilikom unaprijednog uzorkovanja proces ekstrakcije značajki izvršava se u prostoru visoke rezolucije za čiji je izračun potrebna velika računalna snaga. Kako bi se izračun smanjio, ekstrakcija značajki se izvodi u prostoru niske razlučivosti te se uzorkovanje vrši samo na kraju. Tehnika unazadnog uzorkovanja koja se često primjenjuje je FSRCNN (engl. Fast Super-Resolution Convolutional Neural Network). U usporedbi sa SRCNN metodom unaprijednog uzorkovanja, FSRCNN tehnika postiže bolje rezultate te je u konačnici i brža. FSRCNN za razliku od SRCNN metode nema prethodnu predobradu ulaznih podataka niti naknadnog uzorkovanja. Kako bi se smanjilo računanje te količina potrebne memorije, ova tehnika nakon početne 5×5 konvolucije koristi 1×1 konvoluciju i time smanjuje broj potrebnih kanala. Uzorkovanje se vrši pomoću naučenog dekonvolucijskog filtra čime se poboljšava model. Usporedba ovih dviju metoda prikazana je na slici 2.3.
Još jedna od tehnika hiper rezolucije su rekurzivne mreže. Rekurzivne mreže koriste dijeljene parametre mreže u konvolucijskim slojevima kako bi reducirale svoj memorijski otisak, tj. kako bi smanjile zauzeće glavne memorije.
Jedna od vrsta rekurzivnih mreža jest DRCN, tj. duboka rekurzivna konvolucijska mreža (engl. Deep Recursive Convolutional Network) koja podrazumijeva primjenjivanje istih konvolucijskih slojeva više puta. Na slici ispod može se primijetiti kako su konvolucijski slojevi u rezidualnom bloku dijeljeni.
Izlazi svih unutarnjih dijeljenih konvolucijskih blokova, uključujući i ulaz, šalju se rekonstrukcijskom sloju koji generira sliku visoke rezolucije koristeći sve ulaze. S obzirom da postoji više ulaza pomoću kojih se generira izlaz, ovakva arhitektura rekurzivne mreže može se promatrati kao ansambl mreža. Slika ispod ilustrira opisani koncept.
Postoji i poboljšanje DRCN mreže, a to je DRRN (engl. Deep Recursive Residual Network). Umjesto običnih rekurzivnih konvolucijskih slojeva kao kod DRCN, DRRN ima stog rezidualnih blokova unutar kojih su onda rekurzivni konvolucijski slojevi. Parametri svakog rezidualnog bloka dijele se s ostalima, što je moguće vidjeti na slici ispod.
Na sljedećem je grafu vidljivo kako DRRN nadmašuje neke neuronske mreže od kojih smo između ostalog spomenuli i SRCNN, VDSR i DRCN.
Dosada smo pokazali kako dublje mreže daju bolje rezultate, no, učenje dubljih mreža je zahtjevno s obzirom na tok informacija. Rezidualne mreže taj problem donekle rješavaju korištenjem prečaca. Mreže s većim brojem grananja rade na poboljšanju toka informacija tako da sadrže više grana putem kojih mogu prolaziti informacije. To rezultira u spajanju informacija iz više receptivnih polja što onda podrazumijeva bolje učenje mreže.
Jedna od konkretnih mreža koja koristi ovu tehniku je CMSC (engl. Cascaded Multi-Scale Cross-Network). Ona se sastoji od sloja za izdvajanje značajki, kaskadnih podmreža i rekonstrukcijskog sloja, što je prikazano na slici ispod.
Kaskadna podmreža sastoji se od dviju grana. Svaka grana ima različite veličine filtara pa stoga daje drugačija receptivna polja. Kao što smo već spomenuli, spajanje informacija iz više različitih receptivnih polja rezultira boljim tokom informacija. Više blokova MSC modula slaže se jedan iza drugoga kako bi se postupno i iterativno smanjila razlika između izlaza i slike visoke rezolucije. Izlazi iz svih blokova predaju se zajedno rekonstrukcijskom bloku kako bi se dobila finalni izlaz visoke rezolucije.
Postoje brojni alati koji se koriste kako bi se ostvarila hiper rezolucija, a u sklopu ovog seminarskog rada bit će predstavljen Adobe super resolution alat koji omogućava udvostručavanje linearne razlučivosti fotografije (ukupan broj piksela je učetverostručen) te tu metodu predstavlja boljom od bilo kojeg drugog algoritma uzorkovanja. U 13.2 verziji Camera Raw, Adobe je dodao novu opciju pod nazivom Super Resolution koja može povećati uzorkovanje bilo koje slike na četiri puta veći broj od izvornog broja megapiksela. Time se širina i visina izvorne slike udvostručava te će originalna slika od 12 megapiksela povećati broj megapiksela na 48, dok će slika od 48 megapiksela imati 192 megapiksela. Za razliku od tradicionalnih alata, Super resolution alat koristi algoritam uzorkovanja primjenom umjetne inteligencije koji je treniran i testiran na milijunima slika kako bi u konačnici dao što bolje rezultate. Početni zaslon alata s učitanom fotografijom prikazan je na slici.
Nakon što se u alat učita željena fotografija, desnim klikom miša odabire se opcija enhance čime se otvara prozor s opcijama super rezolucije prikazan na slici ispod.
To je jednostavan dijaloški okvir i nakon što se na okviru označi opcija Super Resolution, program će dati procjenu koliko dugo će uzorkovanje trajati. Klikom na gumb Enhance, nakon nekog vremena prikazati će se slika više rezolucije kao druga verzija slike, što je prikazano na slici ispod.
Na slici je crvenom bojom označena dobivena slika više rezolucije koja se sada po želji može nastaviti uređivati koristeći ostale mogućnosti koje alat nudi.
Hiper rezolucija je jedan od novih algoritama za povećanje rezolucije slika. Temelji samog algoritma leže u restrukturiranju piksela oko rubova, tj. restrukturiranju podataka o slici. Povećana rezolucija postiže se povećavanjem nisko rezolucijskih tekstura u ciljanoj slici pomoću visoko rezolucijskih rubova struktura preuzetih iz baze podataka originalne slike. Usporedivši hiper rezoluciju s već postojećim metodama, zaključeno je kako ona pruža bolju kvalitetu, veću fleksibilnost i brže performanse. Što se tiče iskoristivosti hiper rezolucije u forenzici, još uvijek nisu postignute sve mogućnosti koje prikazuje Hollywood u svojim kriminalističkim serijama. Osim nerealnih očekivanja, postoje i brojna ograničenja koja ne dopuštaju prevelike izmjene informacija koje nosi slika te se tehnike super rezolucije primjenjuju jedino u slučajevima kada bi medijski zapis mogao identificirati sumnjivca. Ono što valja napomenuti je kako se u nadziranom modelu neuronskih mreža dosta oslanja na sličnosti između podataka u skupu za učenje i podataka u skupu za testiranje kako bi mreža proizvela što točniji izlaz. No, kako se tijekom vođenja nekog slučaja ne znaju istina i ishod unaprijed, teško je vrjednovati metode koje se koriste, a da se pritom zadrži nepristranost. Postoji mogućnost validacije metoda i aproksimiranja stope pogrješke nad izmišljenim podatcima iz skupa za testiranje, ali je potencijalno zahtjevno izmisliti te testne primjere i procijeniti njihovu sličnost sa stvarnim slučajevima. Stoga je potrebno još istraživanja prije nego li se tehnike super rezolucije budu mogle nesmetano i u potpunosti primjenjivati u forenzici.