Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.

Razlike

Slijede razlike između dviju inačica stranice.

Poveznica na ovu usporedbu

Starije izmjene na obje strane Starija izmjena
Novija izmjena
Starija izmjena
racfor_wiki:seminari:pripisivanje_autorstva_tweetovima [2023/01/12 17:05]
ad51981 [Poglavlje 3 - primjena stilometrije]
racfor_wiki:seminari:pripisivanje_autorstva_tweetovima [2024/12/05 12:24] (trenutno)
Redak 1: Redak 1:
 ===== Sažetak ===== ===== Sažetak =====
  
-Pripisivanje autorstva Tweetovima problem je otkrivanja i identificiranja autora poruka na društvenoj mreži Twitter, koje se nazivaju Twwetovi. Pokazuje se da je to samo još jedna, moderna verzija problema identificiranja autora, problema koji čovjeka muči stoljećima. Tweetovi (i ostali kratki tekstovi s Interneta) imaju svojih specijalnih svojstava koja onda zahtijevaju poseban i inovativan pristup. U ovom seminarskom radu ću analizirati koje su to posebnosti, kako se forenzičari suočavaju s njima te ću prezentirati rezultate analize jednog skupa Tweetova iz znanstvenog rada.+Pripisivanje autorstva Tweetovima problem je otkrivanja i identificiranja autora poruka na društvenoj mreži Twitter, koje se nazivaju Tweetovi. Pokazuje se da je to samo još jedna, moderna verzija problema identificiranja autora, problema koji čovjeka muči stoljećima. Tweetovi (i ostali kratki tekstovi s Interneta) imaju neka posebna svojstva koja onda zahtijevaju poseban i inovativan pristup. U ovom seminarskom radu ću analizirati koje su to posebnosti, kako se forenzičari suočavaju s njima te ću prezentirati rezultate analize jednog skupa Tweetova iz znanstvenog rada.
  
 Ključne riječi: Tweetovi, forenzička lingvistika, stilometrija, SVM. Ključne riječi: Tweetovi, forenzička lingvistika, stilometrija, SVM.
 +
 +**Poveznica** na prezentaciju na predavanju: https://docs.google.com/presentation/d/1ZiqcsVO50xgFcGAQVzhLNRPlDT3QVfGsHBC7La-0SDM/
 ===== Uvod ===== ===== Uvod =====
  
 Pripisivanje autorstva pisanim djelima problem je s kojim se ljudi već dugo susreću, a koje je u nedavnim vremenima postalo sve bitnije i sve teže. Tehnike određivanja autora su u 19. stoljeću bile značajno primitivnije nego danas pa je tako tekstovima s manje od 1000 riječi bili nemoguće odrediti autora. Unaprjeđenjem lingvističkih metoda i korištenjem računalnih modela, taj je proces postao brži i efikasniji pa se tako tekstovima od samo 250 riječi uspijevaju potvrditi autori. Problem pripisivanja autorstva Tweetovima ekstenzija je tog problema - tekstovi su još kraći te tako zahtijevaju i još naprednije metode otkrivanja i potvrde autora. Pripisivanje autorstva pisanim djelima problem je s kojim se ljudi već dugo susreću, a koje je u nedavnim vremenima postalo sve bitnije i sve teže. Tehnike određivanja autora su u 19. stoljeću bile značajno primitivnije nego danas pa je tako tekstovima s manje od 1000 riječi bili nemoguće odrediti autora. Unaprjeđenjem lingvističkih metoda i korištenjem računalnih modela, taj je proces postao brži i efikasniji pa se tako tekstovima od samo 250 riječi uspijevaju potvrditi autori. Problem pripisivanja autorstva Tweetovima ekstenzija je tog problema - tekstovi su još kraći te tako zahtijevaju i još naprednije metode otkrivanja i potvrde autora.
  
-===== Poglavlje 1 - opis problema =====+===== Opis problema =====
  
 Sa sve većom dostupnošću Interneta i sve većim brojem društvenih mreža, od kojih je jedna Twitter, eksponencijalno je narasla i količina internetskog sadržaja u obliku kratkih poruka i malih odsječaka teksta poput blogova ili Tweetova. Procjenjuje se da se svaki dan pošalje pola milijarde novih Tweetova, a oni se razlikuju u sadržaju (sadrže li linkove ili fotografije ili ne) i po duljini (maksimalna duljina Tweeta je od 2017. proširena na 280 znakova). Sa sve većom dostupnošću Interneta i sve većim brojem društvenih mreža, od kojih je jedna Twitter, eksponencijalno je narasla i količina internetskog sadržaja u obliku kratkih poruka i malih odsječaka teksta poput blogova ili Tweetova. Procjenjuje se da se svaki dan pošalje pola milijarde novih Tweetova, a oni se razlikuju u sadržaju (sadrže li linkove ili fotografije ili ne) i po duljini (maksimalna duljina Tweeta je od 2017. proširena na 280 znakova).
Redak 14: Redak 16:
 Povećanjem količine takvog sadržaja povećala se i količina internetskog zločina ili cyber zločina (eng. cybercrime) u obliku krađe identiteta, phishinga ili internetskog nasilja (eng. cyberbullying) te je stoga jaka potreba za razvojem metoda otkrivanja autorstva Tweetova i njima sličnog sadžaja na Internetu. Povećanjem količine takvog sadržaja povećala se i količina internetskog zločina ili cyber zločina (eng. cybercrime) u obliku krađe identiteta, phishinga ili internetskog nasilja (eng. cyberbullying) te je stoga jaka potreba za razvojem metoda otkrivanja autorstva Tweetova i njima sličnog sadžaja na Internetu.
  
-===== Poglavlje 2 - opis metodologija =====+===== Opis metodologija =====
  
 Glavna metoda kod analize bilo kojeg teksta, bilo to većeg teksta ili manjega, poput Tweetova, je stilometrija, odnosno lingvistička metoda koja donosi zaključke o tekstu na osnovu stila pisanja / izražavanja autora teksta. Stilometrija je bitan alat u lingvistici pa se njezine metode koriste za potvrdu ili opovrgavanje autorstva nekih književnih djela, a jedan od poznatijih primjera je analiza autorstva Ilijade i Odiseje, gdje se pokazalo da Homer vrlo vjerojatno nije bio jedan autor, već skupina autora koji su tijekom vremena saželi narodne priče u epove. Glavna metoda kod analize bilo kojeg teksta, bilo to većeg teksta ili manjega, poput Tweetova, je stilometrija, odnosno lingvistička metoda koja donosi zaključke o tekstu na osnovu stila pisanja / izražavanja autora teksta. Stilometrija je bitan alat u lingvistici pa se njezine metode koriste za potvrdu ili opovrgavanje autorstva nekih književnih djela, a jedan od poznatijih primjera je analiza autorstva Ilijade i Odiseje, gdje se pokazalo da Homer vrlo vjerojatno nije bio jedan autor, već skupina autora koji su tijekom vremena saželi narodne priče u epove.
Redak 43: Redak 45:
 Takvo enkodiranje teksta može se koristiti kao baza stvaranja skupa podataka za učenje nekog od algoritama strojnog učenja. Takvo enkodiranje teksta može se koristiti kao baza stvaranja skupa podataka za učenje nekog od algoritama strojnog učenja.
  
-===== Poglavlje 3 - primjena stilometrije =====+===== Primjena stilometrije =====
  
 U ovom se poglavlju pregledava i analizira primjena stilometrije kao u članku [1]. U ovom se poglavlju pregledava i analizira primjena stilometrije kao u članku [1].
racfor_wiki/seminari/pripisivanje_autorstva_tweetovima.1673543156.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0