Razlike

Slijede razlike između dviju inačica stranice.

--- racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2021/01/17 13:52]
jturic [Similarity-based baseline method]
+++ racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2024/12/05 13:24] (trenutno)
@@ Redak 12: / Redak 12: @@
 ===== Postavljanje okoline =====
-Prvo je razmotrena jako jednostavna metoda. Za svaki par <X,Y>  je izračunata sličnost između X i > i dodijeljena je klasa isti-autor ako sličnost prelazi neki prag. Kako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu.  Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadrži razmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacima. Odabrano je 100 000 takvih riječi koji su bili najčešći u odabranim blogovima.
+Kao okolina, sa stranice blogger.com, korišteni su blogovi 1000 blogera. Prosječni bloger je napisao 38 blogova kroz period od nekoliko godina. Uzmimo par blogova, <X,Y>, gdje X je prvih 500 riječi određenog blogera,a Y je zadnjih 500 riječi (koji mogu, ali i ne moraju biti od autora prvih 500 riječi). Uzete su prve i zadnje rečenice blogera kako bi se maksimizirao razmak između doumenata (tekstova) koji se žele komparirati: točnije, ako su X i Y od istog blogera, nikad nisu iz istog bloga. Uzeto je 500 riječi po blogu kako bi se pokazalo da metoda funkcionira efektivno na relativno kratkim dokumentima.
-Postavimo X= <x_1,…,x_n>  i Y= <y_1,…,y_n> kao vektorske prikaze dokumenata X i Y gdje svaki x_i predstavlja vrijednost 4-gram znaka u X a n je ukupan broj takvih 4-gram-a koje uzimamo u obzir. Uzimamo 2 standarda za računanje sličnosti izzmeđu vektora, cosine measure i min-max measure.
+Generirano je slučajnim odabirom 500 parova <X,Y> pri čemu je 50% od istog blogera, a 50% ne. Zadatak je točno identificirati koji par pripada istom autoru (isti-autor labela), a koji ne pripadaju istom autoru (različiti-autor labela).
@@ Redak 29: / Redak 28: @@
 ===== Supervised baseline method =====
-Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author  i različiti-author parova. X i Y su vektori kao što su prije opisani. Za  par  <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ...,  |x_n- y_n |>. Za svaki par <X, Y>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM)
+Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author  i različiti-author parova. X i Y su vektori kao što su prije opisani. Za  par  <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ...,  |x_n- y_n |>. Za svaki par <X, Y>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM).
 ===== Many-Candidates problem =====

racfor_wiki/odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima.1610887928.txt.gz · Zadnja izmjena: 2024/12/05 13:23 (vanjsko uređivanje)