Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.

Razlike

Slijede razlike između dviju inačica stranice.

Poveznica na ovu usporedbu

Starije izmjene na obje strane Starija izmjena
Novija izmjena
Starija izmjena
racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2021/01/17 10:33]
jturic [Zaključak]
racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2024/12/05 12:24] (trenutno)
Redak 3: Redak 3:
 ===== Sažetak ===== ===== Sažetak =====
  
-How do you write an abstract? Identify your purpose. You're writing about correlation between lack of lunches in schools and poor grades… Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https://www.aje.com/arc/make-great-first-impression-6-tips-writing-strong-abstract/|Source]]) Save your work regularly!!! Describe your results (informative abstract only). … Abstract should be no longer that 400 words. Napomena: sadržaj na vrhu stranice generira se automatski na temelju naslova u dokumentu.+Određivanje jesu li 2 teksta napisana od istog autora je problem koji se pojavljuje u realnom svijetu i ima praktičnu primjenu: određivanje jesu li 2 recenzije proizvoda napisane od strane iste osobe ili je li 2 prijetećpisma napisala ista osobaNakon što se se postavili temelji projekta, provedene su 3 metodeSimilarity-Based Baseline metoda te Supervised Baseline metoda kao i Many-Candidates metoda. Metoda koja je pokazala najbolje rezultate je Many-Candidates metoda koja daje oko 90% točne rezultate.
  
-Keywords: abstractbastractastractretracttractor+Keywords: projecttextauthormethod; results;
 ===== Uvod ===== ===== Uvod =====
  
Redak 12: Redak 12:
 ===== Postavljanje okoline ===== ===== Postavljanje okoline =====
  
-Prvo je razmotrena jako jednostavna metodaZa svaki par <X,Y>  je izračunata sličnost između X dodijeljena je klasa isti-autor ako sličnost prelazi neki pragKako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadržrazmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacimaOdabrano je 100 000 takvih riječi koji su bili najčešći u odabranim blogovima.  +Kao okolina, sa stranice blogger.com, korišteni su blogovi 1000 blogera. Prosječni bloger je napisao 38 blogova kroz period od nekoliko godinaUzmimo par blogova, <X,Y>, gdje X je prvih 500 riječi određenog blogera,a Y je zadnjih 500 riječi (koji mogu, ali ne moraju biti od autora prvih 500 riječi)Uzete su prve i zadnje rečenice blogera kako bi se maksimizirao razmak između doumenata (tekstova) koji se žele komparirati: točnije, ako su X Y od istog blogera, nikad nisu iz istog blogaUzeto je 500 riječi po blogu kako bi se pokazalo da metoda funkcionira efektivno na relativno kratkim dokumentima 
-Postavimo X= <x_1,…,x_n i Y= <y_1,…,y_n> kao vektorske prikaze dokumenata X i Y gdje svaki x_i predstavlja vrijednost 4-gram znaka u X je ukupan broj takvih 4-gram-a koje uzimamo u obzir. Uzimamo 2 standarda za računanje sličnosti izzmeđu vektora, cosine measure i min-max measure +Generirano je slučajnim odabirom 500 parova <X,Ypri čemu je 50% od istog blogera, a 50% ne. Zadatak je točno identificirati koji par pripada istom autoru (isti-autor labela), koji ne pripadaju istom autoru (različiti-autor labela).
  
  
Redak 21: Redak 20:
 ===== Similarity-based baseline method ===== ===== Similarity-based baseline method =====
  
-Druga metoda koristi setove za učenjePretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autorKorištene su supervised metode kako bi se naučilo razlikovati između isti-author  različiti-author parovasu vektori kao što su prije opisaniZa  par  <XYdefinira se diff(X, Y)=<|x_1- y_1 |... |x_n- y_n |>. Za svaki par <XY>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobeNadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenjeKao algoritam za učenje je korištem Support Vector Machine (SVM)+Prvo je razmotrena jako jednostavna metoda. Za svaki par <X,Y>  je izračunata sličnost između X i > i dodijeljena je klasa isti-autor ako sličnost prelazi neki pragKako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu.  Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadržrazmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacimaOdabrano je 100 000 takvih riječkoji su bili najčešći u odabranim blogovima 
 +Postavimo X= <x_1,…,x_n Y= <y_1,,y_n> kao vektorske prikaze dokumenata gdje svaki x_i predstavlja vrijednost 4-gram znaka u X a n je ukupan broj takvih 4-gram-a koje uzimamo u obzirUzimamo 2 standarda za računanje sličnosti izzmeđvektora, cosine measure i min-max measure
  
 {{:racfor_wiki:graph1.png?400|}} {{:racfor_wiki:graph1.png?400|}}
Redak 28: Redak 28:
 ===== Supervised baseline method ===== ===== Supervised baseline method =====
  
-Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author  i različiti-author parova. X i Y su vektori kao što su prije opisani. Za  par  <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ...,  |x_n- y_n |>. Za svaki par <X, Y>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM)+Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author  i različiti-author parova. X i Y su vektori kao što su prije opisani. Za  par  <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ...,  |x_n- y_n |>. Za svaki par <X, Y>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM).
 ===== Many-Candidates problem ===== ===== Many-Candidates problem =====
  
Redak 55: Redak 55:
  
 U ovom radu, razmotren je jedan od fundamentalnih i teških autorskih problema - odrediti je li par kratkih dokuemnata napisao isti autor. Otkriveno je da se ovaj problem može riješiti s prihvatljivom točnošćui pod određenim uvjetima. Rezultat ima pratkičnu prmjenu s obzirom da je puno stvarnih problema (npr., autentikacija kratkih dokumenata sa sumnjivim izvorom) zapravo svedivo na ovaj problem.  U ovom radu, razmotren je jedan od fundamentalnih i teških autorskih problema - odrediti je li par kratkih dokuemnata napisao isti autor. Otkriveno je da se ovaj problem može riješiti s prihvatljivom točnošćui pod određenim uvjetima. Rezultat ima pratkičnu prmjenu s obzirom da je puno stvarnih problema (npr., autentikacija kratkih dokumenata sa sumnjivim izvorom) zapravo svedivo na ovaj problem. 
 +Postoji jedno veliko ograničenje ovih metoda, tj. stvari zbog kojih ove metode daju slabije rezultate. Problem je kada se 2 dokumenta, tj. teksta razlikuju u žanru te temi. Tada je puno teže odrediti tko je pravi autor tog teksta. Tu se moraju koristiti puno sofisticiranije metode, tj. metode koje uzimaju u obzir ta 2 faktora.
 ===== Literatura ===== ===== Literatura =====
  
-[1] [[http://books.google.hr/books?id=mFJe8ZnAb3EC&printsec=frontcover#v=onepage&q&f=false|Plass, Jan L., Roxana Moreno, and Roland Brünken. Cognitive Load Theory. Cambridge University Press, 2010.]] +[1] [[https://www.researchgate.net/publication/259680069_Determining_If_Two_Documents_Are_Written_by_the_Same_Author Moshe KoppelYaron Winter Determining If Two Documents Are Written by the Same AuthorJournal of the Association for Information Science and Technology2014]]
- +
-[2] [[http://www.google.com/books?id=duWx8fxkkk0C&printsec=frontcover#v=onepage&q&f=false|Mayer, Richard E. The Cambridge handbook of multimedia learning. Cambridge University Press, 2005.]] +
- +
-[3] [[http://www.cogtech.usc.edu/publications/kirschner_Sweller_Clark.pdf|KirschnerP. ASweller, Jand Clark, R. E. Why minimal guidance during instruction does not work: An analysis of the failure of constructivist, discovery, problem-based, experiential, and inquiry-based teaching. Educational psychologist 41, no. 2, pp 75-862006]]+
  
  
racfor_wiki/odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima.1610879585.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0