Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:seminari:pripisivanje_autorstva_tweetovima [2023/01/12 17:05] ad51981 dodaj manu |
racfor_wiki:seminari:pripisivanje_autorstva_tweetovima [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 1: | Redak 1: | ||
===== Sažetak ===== | ===== Sažetak ===== | ||
- | Pripisivanje autorstva Tweetovima problem je otkrivanja i identificiranja autora poruka na društvenoj mreži Twitter, koje se nazivaju | + | Pripisivanje autorstva Tweetovima problem je otkrivanja i identificiranja autora poruka na društvenoj mreži Twitter, koje se nazivaju |
Ključne riječi: Tweetovi, forenzička lingvistika, | Ključne riječi: Tweetovi, forenzička lingvistika, | ||
+ | |||
+ | **Poveznica** na prezentaciju na predavanju: https:// | ||
===== Uvod ===== | ===== Uvod ===== | ||
Pripisivanje autorstva pisanim djelima problem je s kojim se ljudi već dugo susreću, a koje je u nedavnim vremenima postalo sve bitnije i sve teže. Tehnike određivanja autora su u 19. stoljeću bile značajno primitivnije nego danas pa je tako tekstovima s manje od 1000 riječi bili nemoguće odrediti autora. Unaprjeđenjem lingvističkih metoda i korištenjem računalnih modela, taj je proces postao brži i efikasniji pa se tako tekstovima od samo 250 riječi uspijevaju potvrditi autori. Problem pripisivanja autorstva Tweetovima ekstenzija je tog problema - tekstovi su još kraći te tako zahtijevaju i još naprednije metode otkrivanja i potvrde autora. | Pripisivanje autorstva pisanim djelima problem je s kojim se ljudi već dugo susreću, a koje je u nedavnim vremenima postalo sve bitnije i sve teže. Tehnike određivanja autora su u 19. stoljeću bile značajno primitivnije nego danas pa je tako tekstovima s manje od 1000 riječi bili nemoguće odrediti autora. Unaprjeđenjem lingvističkih metoda i korištenjem računalnih modela, taj je proces postao brži i efikasniji pa se tako tekstovima od samo 250 riječi uspijevaju potvrditi autori. Problem pripisivanja autorstva Tweetovima ekstenzija je tog problema - tekstovi su još kraći te tako zahtijevaju i još naprednije metode otkrivanja i potvrde autora. | ||
- | ===== Poglavlje 1 - opis problema ===== | + | ===== Opis problema ===== |
Sa sve većom dostupnošću Interneta i sve većim brojem društvenih mreža, od kojih je jedna Twitter, eksponencijalno je narasla i količina internetskog sadržaja u obliku kratkih poruka i malih odsječaka teksta poput blogova ili Tweetova. Procjenjuje se da se svaki dan pošalje pola milijarde novih Tweetova, a oni se razlikuju u sadržaju (sadrže li linkove ili fotografije ili ne) i po duljini (maksimalna duljina Tweeta je od 2017. proširena na 280 znakova). | Sa sve većom dostupnošću Interneta i sve većim brojem društvenih mreža, od kojih je jedna Twitter, eksponencijalno je narasla i količina internetskog sadržaja u obliku kratkih poruka i malih odsječaka teksta poput blogova ili Tweetova. Procjenjuje se da se svaki dan pošalje pola milijarde novih Tweetova, a oni se razlikuju u sadržaju (sadrže li linkove ili fotografije ili ne) i po duljini (maksimalna duljina Tweeta je od 2017. proširena na 280 znakova). | ||
Redak 14: | Redak 16: | ||
Povećanjem količine takvog sadržaja povećala se i količina internetskog zločina ili cyber zločina (eng. cybercrime) u obliku krađe identiteta, phishinga ili internetskog nasilja (eng. cyberbullying) te je stoga jaka potreba za razvojem metoda otkrivanja autorstva Tweetova i njima sličnog sadžaja na Internetu. | Povećanjem količine takvog sadržaja povećala se i količina internetskog zločina ili cyber zločina (eng. cybercrime) u obliku krađe identiteta, phishinga ili internetskog nasilja (eng. cyberbullying) te je stoga jaka potreba za razvojem metoda otkrivanja autorstva Tweetova i njima sličnog sadžaja na Internetu. | ||
- | ===== Poglavlje 2 - opis metodologija ===== | + | ===== Opis metodologija ===== |
Glavna metoda kod analize bilo kojeg teksta, bilo to većeg teksta ili manjega, poput Tweetova, je stilometrija, | Glavna metoda kod analize bilo kojeg teksta, bilo to većeg teksta ili manjega, poput Tweetova, je stilometrija, | ||
Redak 43: | Redak 45: | ||
Takvo enkodiranje teksta može se koristiti kao baza stvaranja skupa podataka za učenje nekog od algoritama strojnog učenja. | Takvo enkodiranje teksta može se koristiti kao baza stvaranja skupa podataka za učenje nekog od algoritama strojnog učenja. | ||
- | ===== Poglavlje 3 - primjena | + | ===== Primjena |
U ovom se poglavlju pregledava i analizira primjena stilometrije kao u članku [1]. | U ovom se poglavlju pregledava i analizira primjena stilometrije kao u članku [1]. | ||
Redak 63: | Redak 65: | ||
U radu, autori su uspjeli doći do preciznosti veće od 95%, što pokazuje da su takvi modeli primjenjivi na ovakve probleme, odnosno, da su dobro rješenje kojim možemo riješiti problem kratkih tekstova poput objava na blogovima ili Tweetova. | U radu, autori su uspjeli doći do preciznosti veće od 95%, što pokazuje da su takvi modeli primjenjivi na ovakve probleme, odnosno, da su dobro rješenje kojim možemo riješiti problem kratkih tekstova poput objava na blogovima ili Tweetova. | ||
- | Ova metoda, ruku na srce ima jednu ogromnu manu: potencijalni " | + | Ova metoda, ruku na srce, ima jednu ogromnu manu: potencijalni " |
===== Zaključak ===== | ===== Zaključak ===== | ||