Razlike

Slijede razlike između dviju inačica stranice.

--- racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2021/01/17 11:27]
jturic [The Many-Candidates Problem]
+++ racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2024/12/05 13:24] (trenutno)
@@ Redak 3: / Redak 3: @@
 ===== Sažetak =====
-How do you write an abstract? Identify your purpose. You're writing about a correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https://www.aje.com/arc/make-great-first-impression-6-tips-writing-strong-abstract/|Source]]) Save your work regularly!!! Describe your results (informative abstract only). … Abstract should be no longer that 400 words. Napomena: sadržaj na vrhu stranice generira se automatski na temelju naslova u dokumentu.
+Određivanje jesu li 2 teksta napisana od istog autora je problem koji se pojavljuje u realnom svijetu i ima praktičnu primjenu: određivanje jesu li 2 recenzije proizvoda napisane od strane iste osobe ili je li 2 prijeteća pisma napisala ista osoba. Nakon što se se postavili temelji projekta, provedene su 3 metode: Similarity-Based Baseline metoda te Supervised Baseline metoda kao i Many-Candidates metoda. Metoda koja je pokazala najbolje rezultate je Many-Candidates metoda koja daje oko 90% točne rezultate.
-Keywords: abstract; bastract; astract; retract; tractor
+Keywords: project; text; author; method; results;
 ===== Uvod =====
@@ Redak 12: / Redak 12: @@
 ===== Postavljanje okoline =====
-Prvo je razmotrena jako jednostavna metoda. Za svaki par <X,Y>  je izračunata sličnost između X i > i dodijeljena je klasa isti-autor ako sličnost prelazi neki prag. Kako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu.  Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadrži razmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacima. Odabrano je 100 000 takvih riječi koji su bili najčešći u odabranim blogovima.
+Kao okolina, sa stranice blogger.com, korišteni su blogovi 1000 blogera. Prosječni bloger je napisao 38 blogova kroz period od nekoliko godina. Uzmimo par blogova, <X,Y>, gdje X je prvih 500 riječi određenog blogera,a Y je zadnjih 500 riječi (koji mogu, ali i ne moraju biti od autora prvih 500 riječi). Uzete su prve i zadnje rečenice blogera kako bi se maksimizirao razmak između doumenata (tekstova) koji se žele komparirati: točnije, ako su X i Y od istog blogera, nikad nisu iz istog bloga. Uzeto je 500 riječi po blogu kako bi se pokazalo da metoda funkcionira efektivno na relativno kratkim dokumentima.
-Postavimo X= <x_1,…,x_n>  i Y= <y_1,…,y_n> kao vektorske prikaze dokumenata X i Y gdje svaki x_i predstavlja vrijednost 4-gram znaka u X a n je ukupan broj takvih 4-gram-a koje uzimamo u obzir. Uzimamo 2 standarda za računanje sličnosti izzmeđu vektora, cosine measure i min-max measure.
+Generirano je slučajnim odabirom 500 parova <X,Y> pri čemu je 50% od istog blogera, a 50% ne. Zadatak je točno identificirati koji par pripada istom autoru (isti-autor labela), a koji ne pripadaju istom autoru (različiti-autor labela).
@@ Redak 21: / Redak 20: @@
 ===== Similarity-based baseline method =====
-Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author  i različiti-author parova. X i Y su vektori kao što su prije opisani. Za  par  <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ...,  |x_n- y_n |>. Za svaki par <X, Y>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM)
+Prvo je razmotrena jako jednostavna metoda. Za svaki par <X,Y>  je izračunata sličnost između X i > i dodijeljena je klasa isti-autor ako sličnost prelazi neki prag. Kako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu.  Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadrži razmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacima. Odabrano je 100 000 takvih riječi koji su bili najčešći u odabranim blogovima.
+Postavimo X= <x_1,…,x_n>  i Y= <y_1,…,y_n> kao vektorske prikaze dokumenata X i Y gdje svaki x_i predstavlja vrijednost 4-gram znaka u X a n je ukupan broj takvih 4-gram-a koje uzimamo u obzir. Uzimamo 2 standarda za računanje sličnosti izzmeđu vektora, cosine measure i min-max measure.
 {{:racfor_wiki:graph1.png?400|}}
@@ Redak 28: / Redak 28: @@
 ===== Supervised baseline method =====
-Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author  i različiti-author parova. X i Y su vektori kao što su prije opisani. Za  par  <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ...,  |x_n- y_n |>. Za svaki par <X, Y>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM)
+Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author  i različiti-author parova. X i Y su vektori kao što su prije opisani. Za  par  <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ...,  |x_n- y_n |>. Za svaki par <X, Y>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM).
-===== //Many-Candidates// problem =====
+===== Many-Candidates problem =====
 Ako uzmemo veliki broj autora, trebamo odrediti koji od njih, ako ikoji, je uator anonimnog dokumenta. Ovaj problem se zove many-candidates problem. Za to se koristi many-candidates method. Pretpostavimo da imamo set kandidata koji se sastoji od 5 000 blogera pri čemu smo za svakog uzeli prvih 500 riječi njegovog bloga. Sada uzmemo zadnjih 500 riječi (koje zovemo isječak) od nekog slučajnog bloga i pokušavamo odrediti koji, ako ikoji od 5 000 kandidata je autor tog isječka. Koristimo skup značajki i prethodono definiranu min-maxmjeru sličnosti, možemo tvrditi da je autor isječka bloger čiji je tekst najsličniji isječku vektora. Broj isječala koji su ispravno dodijeljeni ovisi o dužini isječka i o broju kandidata autora. Na grafu 1, možemo vidjetitočnost koja je ostvarena za različite duljine isječka i veličinu seta kandidata (korišteno je 1 000 isječaka). Npr., možemo vidjeti da kada postoji 5 000  autora, pri čemu postoji 500 riječi, 32.5% isječaka je točno pridijeljeno.
@@ Redak 48: / Redak 48: @@
 {{:racfor_wiki:graph3.png?400|}}
-===== Poglavlje ... =====
@@ Redak 59: / Redak 54: @@
 ===== Zaključak =====
+U ovom radu, razmotren je jedan od fundamentalnih i teških autorskih problema - odrediti je li par kratkih dokuemnata napisao isti autor. Otkriveno je da se ovaj problem može riješiti s prihvatljivom točnošćui pod određenim uvjetima. Rezultat ima pratkičnu prmjenu s obzirom da je puno stvarnih problema (npr., autentikacija kratkih dokumenata sa sumnjivim izvorom) zapravo svedivo na ovaj problem.
+Postoji jedno veliko ograničenje ovih metoda, tj. stvari zbog kojih ove metode daju slabije rezultate. Problem je kada se 2 dokumenta, tj. teksta razlikuju u žanru te temi. Tada je puno teže odrediti tko je pravi autor tog teksta. Tu se moraju koristiti puno sofisticiranije metode, tj. metode koje uzimaju u obzir ta 2 faktora.
 ===== Literatura =====
-[1] [[http://books.google.hr/books?id=mFJe8ZnAb3EC&printsec=frontcover#v=onepage&q&f=false|Plass, Jan L., Roxana Moreno, and Roland Brünken. Cognitive Load Theory. Cambridge University Press, 2010.]]
+[1] [[https://www.researchgate.net/publication/259680069_Determining_If_Two_Documents_Are_Written_by_the_Same_Author | Moshe Koppel, Yaron Winter,  Determining If Two Documents Are Written by the Same Author. Journal of the Association for Information Science and Technology, 2014]]
-[2] [[http://www.google.com/books?id=duWx8fxkkk0C&printsec=frontcover#v=onepage&q&f=false|Mayer, Richard E. The Cambridge handbook of multimedia learning. Cambridge University Press, 2005.]]
-[3] [[http://www.cogtech.usc.edu/publications/kirschner_Sweller_Clark.pdf|Kirschner, P. A, Sweller, J. and Clark, R. E. Why minimal guidance during instruction does not work: An analysis of the failure of constructivist, discovery, problem-based, experiential, and inquiry-based teaching. Educational psychologist 41, no. 2, pp 75-86, 2006]]

racfor_wiki/odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima.1610879236.txt.gz · Zadnja izmjena: 2024/12/05 13:23 (vanjsko uređivanje)