Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:seminari:pripisivanje_autorstva_tweetovima [2023/01/12 16:47] ad51981 [Poglavlje 2 - opis metodologija] |
racfor_wiki:seminari:pripisivanje_autorstva_tweetovima [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 1: | Redak 1: | ||
- | ===== Pripisivanje autorstva Tweetovima | + | ===== Sažetak |
+ | Pripisivanje autorstva Tweetovima problem je otkrivanja i identificiranja autora poruka na društvenoj mreži Twitter, koje se nazivaju Tweetovi. Pokazuje se da je to samo još jedna, moderna verzija problema identificiranja autora, problema koji čovjeka muči stoljećima. Tweetovi (i ostali kratki tekstovi s Interneta) imaju neka posebna svojstva koja onda zahtijevaju poseban i inovativan pristup. U ovom seminarskom radu ću analizirati koje su to posebnosti, kako se forenzičari suočavaju s njima te ću prezentirati rezultate analize jednog skupa Tweetova iz znanstvenog rada. | ||
+ | |||
+ | Ključne riječi: Tweetovi, forenzička lingvistika, | ||
+ | |||
+ | **Poveznica** na prezentaciju na predavanju: https:// | ||
===== Uvod ===== | ===== Uvod ===== | ||
Pripisivanje autorstva pisanim djelima problem je s kojim se ljudi već dugo susreću, a koje je u nedavnim vremenima postalo sve bitnije i sve teže. Tehnike određivanja autora su u 19. stoljeću bile značajno primitivnije nego danas pa je tako tekstovima s manje od 1000 riječi bili nemoguće odrediti autora. Unaprjeđenjem lingvističkih metoda i korištenjem računalnih modela, taj je proces postao brži i efikasniji pa se tako tekstovima od samo 250 riječi uspijevaju potvrditi autori. Problem pripisivanja autorstva Tweetovima ekstenzija je tog problema - tekstovi su još kraći te tako zahtijevaju i još naprednije metode otkrivanja i potvrde autora. | Pripisivanje autorstva pisanim djelima problem je s kojim se ljudi već dugo susreću, a koje je u nedavnim vremenima postalo sve bitnije i sve teže. Tehnike određivanja autora su u 19. stoljeću bile značajno primitivnije nego danas pa je tako tekstovima s manje od 1000 riječi bili nemoguće odrediti autora. Unaprjeđenjem lingvističkih metoda i korištenjem računalnih modela, taj je proces postao brži i efikasniji pa se tako tekstovima od samo 250 riječi uspijevaju potvrditi autori. Problem pripisivanja autorstva Tweetovima ekstenzija je tog problema - tekstovi su još kraći te tako zahtijevaju i još naprednije metode otkrivanja i potvrde autora. | ||
- | ===== Poglavlje 1 - opis problema ===== | + | ===== Opis problema ===== |
Sa sve većom dostupnošću Interneta i sve većim brojem društvenih mreža, od kojih je jedna Twitter, eksponencijalno je narasla i količina internetskog sadržaja u obliku kratkih poruka i malih odsječaka teksta poput blogova ili Tweetova. Procjenjuje se da se svaki dan pošalje pola milijarde novih Tweetova, a oni se razlikuju u sadržaju (sadrže li linkove ili fotografije ili ne) i po duljini (maksimalna duljina Tweeta je od 2017. proširena na 280 znakova). | Sa sve većom dostupnošću Interneta i sve većim brojem društvenih mreža, od kojih je jedna Twitter, eksponencijalno je narasla i količina internetskog sadržaja u obliku kratkih poruka i malih odsječaka teksta poput blogova ili Tweetova. Procjenjuje se da se svaki dan pošalje pola milijarde novih Tweetova, a oni se razlikuju u sadržaju (sadrže li linkove ili fotografije ili ne) i po duljini (maksimalna duljina Tweeta je od 2017. proširena na 280 znakova). | ||
Redak 11: | Redak 16: | ||
Povećanjem količine takvog sadržaja povećala se i količina internetskog zločina ili cyber zločina (eng. cybercrime) u obliku krađe identiteta, phishinga ili internetskog nasilja (eng. cyberbullying) te je stoga jaka potreba za razvojem metoda otkrivanja autorstva Tweetova i njima sličnog sadžaja na Internetu. | Povećanjem količine takvog sadržaja povećala se i količina internetskog zločina ili cyber zločina (eng. cybercrime) u obliku krađe identiteta, phishinga ili internetskog nasilja (eng. cyberbullying) te je stoga jaka potreba za razvojem metoda otkrivanja autorstva Tweetova i njima sličnog sadžaja na Internetu. | ||
- | ===== Poglavlje 2 - opis metodologija ===== | + | ===== Opis metodologija ===== |
Glavna metoda kod analize bilo kojeg teksta, bilo to većeg teksta ili manjega, poput Tweetova, je stilometrija, | Glavna metoda kod analize bilo kojeg teksta, bilo to većeg teksta ili manjega, poput Tweetova, je stilometrija, | ||
Redak 19: | Redak 24: | ||
Analiza autorstva Tweetova slična je analizi običnog teksta, uz par dodatnih značajki koje su specifične za Tweetove. | Analiza autorstva Tweetova slična je analizi običnog teksta, uz par dodatnih značajki koje su specifične za Tweetove. | ||
- | 1. Leksičke značajke | + | //1. Leksičke značajke// |
Iako su Tweetovi dosta kratki tekstovi, iz samog se oblika rečenica mogu dobiti neke informacije poput broja riječi u rečenici (duljine rečenica koje autor sastavlja), broja rečenica koje autor koristi u svojim Tweetovima, raznolikosti riječi koje autor koristi i razine jezika koju autor koristi. | Iako su Tweetovi dosta kratki tekstovi, iz samog se oblika rečenica mogu dobiti neke informacije poput broja riječi u rečenici (duljine rečenica koje autor sastavlja), broja rečenica koje autor koristi u svojim Tweetovima, raznolikosti riječi koje autor koristi i razine jezika koju autor koristi. | ||
Redak 25: | Redak 30: | ||
Primjerice, za korisnika koji šalje Tweetove poput “That’s awesome!”, | Primjerice, za korisnika koji šalje Tweetove poput “That’s awesome!”, | ||
- | 2. Sintaktičke značajke | + | //2. Sintaktičke značajke// |
Slično kao i kod leksičkih značajki, autori se mogu razlikovati po svojoj uporabi velikih početnih slova, korištenju interpunkcijskih znakova, uporabom apostrofa, znakova navoda i slično. | Slično kao i kod leksičkih značajki, autori se mogu razlikovati po svojoj uporabi velikih početnih slova, korištenju interpunkcijskih znakova, uporabom apostrofa, znakova navoda i slično. | ||
Redak 31: | Redak 36: | ||
Primjerice, za Tweetove “Today’s newspaper bear an interesting title: “No more gas!”” i “todays paper said we arent getting any gas” će se moći zaključiti da su od dva različita autora, s obzirom na razlike u uporabi interpunkcije, | Primjerice, za Tweetove “Today’s newspaper bear an interesting title: “No more gas!”” i “todays paper said we arent getting any gas” će se moći zaključiti da su od dva različita autora, s obzirom na razlike u uporabi interpunkcije, | ||
- | 3. Značajke specifične za Tweetove | + | //3. Značajke specifične za Tweetove// |
S obzirom na to da postoje različiti tipovi Tweetova, samo se na osnovu Tweeta može donijeti neki zaključak pa se tako razlikuju Tweetovi koji jesu retweet (ponovno slanje Tweeta kojemu je netko drugi autor), korištenje ljestvica (eng. hashtag) ili korištenje emotikona (eng. emoji). | S obzirom na to da postoje različiti tipovi Tweetova, samo se na osnovu Tweeta može donijeti neki zaključak pa se tako razlikuju Tweetovi koji jesu retweet (ponovno slanje Tweeta kojemu je netko drugi autor), korištenje ljestvica (eng. hashtag) ili korištenje emotikona (eng. emoji). | ||
+ | |||
Redak 39: | Redak 45: | ||
Takvo enkodiranje teksta može se koristiti kao baza stvaranja skupa podataka za učenje nekog od algoritama strojnog učenja. | Takvo enkodiranje teksta može se koristiti kao baza stvaranja skupa podataka za učenje nekog od algoritama strojnog učenja. | ||
- | ===== Poglavlje 3 - primjena | + | ===== Primjena |
U ovom se poglavlju pregledava i analizira primjena stilometrije kao u članku [1]. | U ovom se poglavlju pregledava i analizira primjena stilometrije kao u članku [1]. | ||
Redak 49: | Redak 55: | ||
Prilikom analize rezultata različitih modela, korištene su sljedeće metrike: | Prilikom analize rezultata različitih modela, korištene su sljedeće metrike: | ||
- | Točnost (eng. accuracy) | + | * Točnost (eng. accuracy) |
- | Omjer točno pogođenih u odnosu na ukupan broj predviđanja | + | |
- | Preciznost (eng. precision - PR) | + | |
- | Mjera izvedbe pojedine klase | + | |
- | TP / (TP + FP) | + | |
- | Odziv (eng. recall - RE) | + | |
- | Omjer uzoraka klase koja je točno predviđena | + | |
- | TP / (TF + FN) | + | |
- | F-score | + | |
- | Harmonijska sredina preciznosti i odziva | + | |
- | 2 * PR * RE / (RE + PR) | + | |
Redak 66: | Redak 65: | ||
U radu, autori su uspjeli doći do preciznosti veće od 95%, što pokazuje da su takvi modeli primjenjivi na ovakve probleme, odnosno, da su dobro rješenje kojim možemo riješiti problem kratkih tekstova poput objava na blogovima ili Tweetova. | U radu, autori su uspjeli doći do preciznosti veće od 95%, što pokazuje da su takvi modeli primjenjivi na ovakve probleme, odnosno, da su dobro rješenje kojim možemo riješiti problem kratkih tekstova poput objava na blogovima ili Tweetova. | ||
+ | Ova metoda, ruku na srce, ima jednu ogromnu manu: potencijalni " | ||
===== Zaključak ===== | ===== Zaključak ===== | ||