Starije izmjene na obje strane
Starija izmjena
Novija izmjena
|
Starija izmjena
|
racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2021/01/17 10:27] jturic [//Many-Candidates// problem] |
racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2024/12/05 12:24] (trenutno) |
===== Sažetak ===== | ===== Sažetak ===== |
| |
How do you write an abstract? Identify your purpose. You're writing about a correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https://www.aje.com/arc/make-great-first-impression-6-tips-writing-strong-abstract/|Source]]) Save your work regularly!!! Describe your results (informative abstract only). … Abstract should be no longer that 400 words. Napomena: sadržaj na vrhu stranice generira se automatski na temelju naslova u dokumentu. | Određivanje jesu li 2 teksta napisana od istog autora je problem koji se pojavljuje u realnom svijetu i ima praktičnu primjenu: određivanje jesu li 2 recenzije proizvoda napisane od strane iste osobe ili je li 2 prijeteća pisma napisala ista osoba. Nakon što se se postavili temelji projekta, provedene su 3 metode: Similarity-Based Baseline metoda te Supervised Baseline metoda kao i Many-Candidates metoda. Metoda koja je pokazala najbolje rezultate je Many-Candidates metoda koja daje oko 90% točne rezultate. |
| |
Keywords: abstract; bastract; astract; retract; tractor | Keywords: project; text; author; method; results; |
===== Uvod ===== | ===== Uvod ===== |
| |
===== Postavljanje okoline ===== | ===== Postavljanje okoline ===== |
| |
Prvo je razmotrena jako jednostavna metoda. Za svaki par <X,Y> je izračunata sličnost između X i > i dodijeljena je klasa isti-autor ako sličnost prelazi neki prag. Kako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu. Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadrži razmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacima. Odabrano je 100 000 takvih riječi koji su bili najčešći u odabranim blogovima. | Kao okolina, sa stranice blogger.com, korišteni su blogovi 1000 blogera. Prosječni bloger je napisao 38 blogova kroz period od nekoliko godina. Uzmimo par blogova, <X,Y>, gdje X je prvih 500 riječi određenog blogera,a Y je zadnjih 500 riječi (koji mogu, ali i ne moraju biti od autora prvih 500 riječi). Uzete su prve i zadnje rečenice blogera kako bi se maksimizirao razmak između doumenata (tekstova) koji se žele komparirati: točnije, ako su X i Y od istog blogera, nikad nisu iz istog bloga. Uzeto je 500 riječi po blogu kako bi se pokazalo da metoda funkcionira efektivno na relativno kratkim dokumentima. |
Postavimo X= <x_1,…,x_n> i Y= <y_1,…,y_n> kao vektorske prikaze dokumenata X i Y gdje svaki x_i predstavlja vrijednost 4-gram znaka u X a n je ukupan broj takvih 4-gram-a koje uzimamo u obzir. Uzimamo 2 standarda za računanje sličnosti izzmeđu vektora, cosine measure i min-max measure. | Generirano je slučajnim odabirom 500 parova <X,Y> pri čemu je 50% od istog blogera, a 50% ne. Zadatak je točno identificirati koji par pripada istom autoru (isti-autor labela), a koji ne pripadaju istom autoru (različiti-autor labela). |
| |
| |
===== Similarity-based baseline method ===== | ===== Similarity-based baseline method ===== |
| |
Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author i različiti-author parova. X i Y su vektori kao što su prije opisani. Za par <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ..., |x_n- y_n |>. Za svaki par <X, Y> in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM) | Prvo je razmotrena jako jednostavna metoda. Za svaki par <X,Y> je izračunata sličnost između X i > i dodijeljena je klasa isti-autor ako sličnost prelazi neki prag. Kako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu. Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadrži razmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacima. Odabrano je 100 000 takvih riječi koji su bili najčešći u odabranim blogovima. |
| Postavimo X= <x_1,…,x_n> i Y= <y_1,…,y_n> kao vektorske prikaze dokumenata X i Y gdje svaki x_i predstavlja vrijednost 4-gram znaka u X a n je ukupan broj takvih 4-gram-a koje uzimamo u obzir. Uzimamo 2 standarda za računanje sličnosti izzmeđu vektora, cosine measure i min-max measure. |
| |
{{:racfor_wiki:graph1.png?400|}} | {{:racfor_wiki:graph1.png?400|}} |
===== Supervised baseline method ===== | ===== Supervised baseline method ===== |
| |
Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author i različiti-author parova. X i Y su vektori kao što su prije opisani. Za par <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ..., |x_n- y_n |>. Za svaki par <X, Y> in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM) | Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author i različiti-author parova. X i Y su vektori kao što su prije opisani. Za par <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ..., |x_n- y_n |>. Za svaki par <X, Y> in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM). |
===== Many-Candidates problem ===== | ===== Many-Candidates problem ===== |
| |
| |
{{:racfor_wiki:graph3.png?400|}} | {{:racfor_wiki:graph3.png?400|}} |
| |
| |
| |
===== Poglavlje ... ===== | |
| |
| |
| |
===== Zaključak ===== | ===== Zaključak ===== |
| |
| U ovom radu, razmotren je jedan od fundamentalnih i teških autorskih problema - odrediti je li par kratkih dokuemnata napisao isti autor. Otkriveno je da se ovaj problem može riješiti s prihvatljivom točnošćui pod određenim uvjetima. Rezultat ima pratkičnu prmjenu s obzirom da je puno stvarnih problema (npr., autentikacija kratkih dokumenata sa sumnjivim izvorom) zapravo svedivo na ovaj problem. |
| Postoji jedno veliko ograničenje ovih metoda, tj. stvari zbog kojih ove metode daju slabije rezultate. Problem je kada se 2 dokumenta, tj. teksta razlikuju u žanru te temi. Tada je puno teže odrediti tko je pravi autor tog teksta. Tu se moraju koristiti puno sofisticiranije metode, tj. metode koje uzimaju u obzir ta 2 faktora. |
===== Literatura ===== | ===== Literatura ===== |
| |
[1] [[http://books.google.hr/books?id=mFJe8ZnAb3EC&printsec=frontcover#v=onepage&q&f=false|Plass, Jan L., Roxana Moreno, and Roland Brünken. Cognitive Load Theory. Cambridge University Press, 2010.]] | [1] [[https://www.researchgate.net/publication/259680069_Determining_If_Two_Documents_Are_Written_by_the_Same_Author | Moshe Koppel, Yaron Winter, Determining If Two Documents Are Written by the Same Author. Journal of the Association for Information Science and Technology, 2014]] |
| |
[2] [[http://www.google.com/books?id=duWx8fxkkk0C&printsec=frontcover#v=onepage&q&f=false|Mayer, Richard E. The Cambridge handbook of multimedia learning. Cambridge University Press, 2005.]] | |
| |
[3] [[http://www.cogtech.usc.edu/publications/kirschner_Sweller_Clark.pdf|Kirschner, P. A, Sweller, J. and Clark, R. E. Why minimal guidance during instruction does not work: An analysis of the failure of constructivist, discovery, problem-based, experiential, and inquiry-based teaching. Educational psychologist 41, no. 2, pp 75-86, 2006]] | |
| |
| |