Sadržaj

Sažetak

Pripisivanje autorstva Tweetovima problem je otkrivanja i identificiranja autora poruka na društvenoj mreži Twitter, koje se nazivaju Tweetovi. Pokazuje se da je to samo još jedna, moderna verzija problema identificiranja autora, problema koji čovjeka muči stoljećima. Tweetovi (i ostali kratki tekstovi s Interneta) imaju neka posebna svojstva koja onda zahtijevaju poseban i inovativan pristup. U ovom seminarskom radu ću analizirati koje su to posebnosti, kako se forenzičari suočavaju s njima te ću prezentirati rezultate analize jednog skupa Tweetova iz znanstvenog rada.

Ključne riječi: Tweetovi, forenzička lingvistika, stilometrija, SVM.

Poveznica na prezentaciju na predavanju: https://docs.google.com/presentation/d/1ZiqcsVO50xgFcGAQVzhLNRPlDT3QVfGsHBC7La-0SDM/

Uvod

Pripisivanje autorstva pisanim djelima problem je s kojim se ljudi već dugo susreću, a koje je u nedavnim vremenima postalo sve bitnije i sve teže. Tehnike određivanja autora su u 19. stoljeću bile značajno primitivnije nego danas pa je tako tekstovima s manje od 1000 riječi bili nemoguće odrediti autora. Unaprjeđenjem lingvističkih metoda i korištenjem računalnih modela, taj je proces postao brži i efikasniji pa se tako tekstovima od samo 250 riječi uspijevaju potvrditi autori. Problem pripisivanja autorstva Tweetovima ekstenzija je tog problema - tekstovi su još kraći te tako zahtijevaju i još naprednije metode otkrivanja i potvrde autora.

Opis problema

Sa sve većom dostupnošću Interneta i sve većim brojem društvenih mreža, od kojih je jedna Twitter, eksponencijalno je narasla i količina internetskog sadržaja u obliku kratkih poruka i malih odsječaka teksta poput blogova ili Tweetova. Procjenjuje se da se svaki dan pošalje pola milijarde novih Tweetova, a oni se razlikuju u sadržaju (sadrže li linkove ili fotografije ili ne) i po duljini (maksimalna duljina Tweeta je od 2017. proširena na 280 znakova).

Povećanjem količine takvog sadržaja povećala se i količina internetskog zločina ili cyber zločina (eng. cybercrime) u obliku krađe identiteta, phishinga ili internetskog nasilja (eng. cyberbullying) te je stoga jaka potreba za razvojem metoda otkrivanja autorstva Tweetova i njima sličnog sadžaja na Internetu.

Opis metodologija

Glavna metoda kod analize bilo kojeg teksta, bilo to većeg teksta ili manjega, poput Tweetova, je stilometrija, odnosno lingvistička metoda koja donosi zaključke o tekstu na osnovu stila pisanja / izražavanja autora teksta. Stilometrija je bitan alat u lingvistici pa se njezine metode koriste za potvrdu ili opovrgavanje autorstva nekih književnih djela, a jedan od poznatijih primjera je analiza autorstva Ilijade i Odiseje, gdje se pokazalo da Homer vrlo vjerojatno nije bio jedan autor, već skupina autora koji su tijekom vremena saželi narodne priče u epove.

Na spoju lingvistike i forenzike našla se forenzička lingvistika - disciplina koja lingvističke metode primjenjuje u forenzičke i pravne svrhe. Poznat primjer forenzičke lingvistike je određivanje identiteta Unabombera - domaćeg američkog terorista iz 80tih i 90tih.

Analiza autorstva Tweetova slična je analizi običnog teksta, uz par dodatnih značajki koje su specifične za Tweetove.

1. Leksičke značajke

Iako su Tweetovi dosta kratki tekstovi, iz samog se oblika rečenica mogu dobiti neke informacije poput broja riječi u rečenici (duljine rečenica koje autor sastavlja), broja rečenica koje autor koristi u svojim Tweetovima, raznolikosti riječi koje autor koristi i razine jezika koju autor koristi.

Primjerice, za korisnika koji šalje Tweetove poput “That’s awesome!”, “Wow, that was cool!”, “That’s nice” i slično, svi neviđeni Tweetovi koji su kraći i koriste jednostavniji jezik imat će veću šansu da su upravo od tog autora.

2. Sintaktičke značajke

Slično kao i kod leksičkih značajki, autori se mogu razlikovati po svojoj uporabi velikih početnih slova, korištenju interpunkcijskih znakova, uporabom apostrofa, znakova navoda i slično.

Primjerice, za Tweetove “Today’s newspaper bear an interesting title: “No more gas!”” i “todays paper said we arent getting any gas” će se moći zaključiti da su od dva različita autora, s obzirom na razlike u uporabi interpunkcije, apostrofa i znakova navoda.

3. Značajke specifične za Tweetove

S obzirom na to da postoje različiti tipovi Tweetova, samo se na osnovu Tweeta može donijeti neki zaključak pa se tako razlikuju Tweetovi koji jesu retweet (ponovno slanje Tweeta kojemu je netko drugi autor), korištenje ljestvica (eng. hashtag) ili korištenje emotikona (eng. emoji).

Druga metoda koja se primjenjuje za analizu autorstva Tweetova je rudarenje razgovora (eng. chat mining). Najčešći alat u tom pogledu je korištenje n-gramova na razini znakova (eng. character n-grams) koji se koriste za izračun udaljenosti između dva komada teksta. Takvo enkodiranje teksta može se koristiti kao baza stvaranja skupa podataka za učenje nekog od algoritama strojnog učenja.

Primjena stilometrije

U ovom se poglavlju pregledava i analizira primjena stilometrije kao u članku [1].

U članku su autori odlučili istražiti načine kako u predikciji i klasifikaciji Tweetova dobro organizirati kratke Tweetove; kratki Tweetovi nose jako malo informacije pa bi ih možda bilo primamljivo izbaciti iz skupa za učenje. Takav pristup je, ipak, štetan, jer je većina poslanih Tweetova upravo takvog oblika. Stoga su se autori odlučili grupirati više Tweetova u jednu jedinicu podataka. Primjetili su kako grupiranje od samo dva Tweeta zajedno poboljšava preciznost i diže ju na neku respektabilnu razinu. Grupiranje 10 Tweetova zajedno diže preciznost na > 90%.

U radu, autori su se odlučili na korištenje SVM modela, a primjere su vektorizirali Pythonovim paketom Natural Language Tool Kit (NLTK). S obzirom na neliearnu povezanost primjera, korištena je RBF kao jezgrena funkcija.

Prilikom analize rezultata različitih modela, korištene su sljedeće metrike:

Finalni rezultati ovise o broju različitih vrijednosti ciljne varijable, ali je model precizniji s manjim brojem vrijednosti varijable, odnosno manjim brojem potencijalnih autora Tweeta. To je dijelom povezano s načinom analize ovakvih tekstova u praksi, s obzirom na to da se metodama forenzičke lingvistike pribjegava tek nakon smanjivanja skupa sumnjivaca na jednoznamenkast broj.

U radu, autori su uspjeli doći do preciznosti veće od 95%, što pokazuje da su takvi modeli primjenjivi na ovakve probleme, odnosno, da su dobro rješenje kojim možemo riješiti problem kratkih tekstova poput objava na blogovima ili Tweetova.

Ova metoda, ruku na srce, ima jednu ogromnu manu: potencijalni “napadač”, odnosno krivac koji ne želi da ga se otkrije, istim ovim metodama može replicirati tuđi stil te tako prikriti svoj identitet pretvarajući se tuđim stilom da je netko drugi.

Zaključak

Sve bržim razvojem i povećanjem dostupnosti Interneta nastaju sve veće količine podataka u obliku kratkih komada teksta s jako raznolikim svojstvima poput razlike u duljini, kvaliteti jezika te po korištenim znakovima. Za forenzičku je lingvistiku posebno zanimljivo pitanje pripisivanja autorstva takvom sadržaju, s obzirom na sve veću količinu internetskog kriminala.

Moderne metode, poput modela strojnog učenja, uparene s klasičnim stilometrijskim metodama, pokazale su se kao dobar i pouzdan način analize takvih komada tekstova, koje se mogu koristiti kao legitimne metode istrage pred sudom.

Ovaj je primjer dobar pokazatelj potrebe za interdisciplinarnim metodama u računarstvu te kako se otvaranjem vrata za primjene drugih znanosti unutar računarstva mogu riješiti problemi koji su svojom prirodom jako stari, ali su u modernom dobu dobili novi duh.

Literatura

[1] Mudit Bhargava, Pulkit Mehndiratta & Krishna Asawa: Stylometric Analysis for Authorship Attribution on Twitter

[2] Robert Layton, Paul Watters & Richard Dazeley: Authorship Attribution for Twitter in 140 Characters or Less