Razlike

Slijede razlike između dviju inačica stranice.

--- racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2021/01/16 11:49]
jturic [Similarity-based baseline method]
+++ racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2024/12/05 13:24] (trenutno)
@@ Redak 3: / Redak 3: @@
 ===== Sažetak =====
-How do you write an abstract? Identify your purpose. You're writing about a correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https://www.aje.com/arc/make-great-first-impression-6-tips-writing-strong-abstract/|Source]]) Save your work regularly!!! Describe your results (informative abstract only). … Abstract should be no longer that 400 words. Napomena: sadržaj na vrhu stranice generira se automatski na temelju naslova u dokumentu.
+Određivanje jesu li 2 teksta napisana od istog autora je problem koji se pojavljuje u realnom svijetu i ima praktičnu primjenu: određivanje jesu li 2 recenzije proizvoda napisane od strane iste osobe ili je li 2 prijeteća pisma napisala ista osoba. Nakon što se se postavili temelji projekta, provedene su 3 metode: Similarity-Based Baseline metoda te Supervised Baseline metoda kao i Many-Candidates metoda. Metoda koja je pokazala najbolje rezultate je Many-Candidates metoda koja daje oko 90% točne rezultate.
-Keywords: abstract; bastract; astract; retract; tractor
+Keywords: project; text; author; method; results;
 ===== Uvod =====
@@ Redak 12: / Redak 12: @@
 ===== Postavljanje okoline =====
-Prvo je razmotrena jako jednostavna metoda. Za svaki par <X,Y>  je izračunata sličnost između X i > i dodijeljena je klasa isti-autor ako sličnost prelazi neki prag. Kako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu.  Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadrži razmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacima. Odabrano je 100 000 takvih riječi koji su bili najčešći u odabranim blogovima.
+Kao okolina, sa stranice blogger.com, korišteni su blogovi 1000 blogera. Prosječni bloger je napisao 38 blogova kroz period od nekoliko godina. Uzmimo par blogova, <X,Y>, gdje X je prvih 500 riječi određenog blogera,a Y je zadnjih 500 riječi (koji mogu, ali i ne moraju biti od autora prvih 500 riječi). Uzete su prve i zadnje rečenice blogera kako bi se maksimizirao razmak između doumenata (tekstova) koji se žele komparirati: točnije, ako su X i Y od istog blogera, nikad nisu iz istog bloga. Uzeto je 500 riječi po blogu kako bi se pokazalo da metoda funkcionira efektivno na relativno kratkim dokumentima.
-Postavimo X= <x_1,…,x_n>  i Y= <y_1,…,y_n> kao vektorske prikaze dokumenata X i Y gdje svaki x_i predstavlja vrijednost 4-gram znaka u X a n je ukupan broj takvih 4-gram-a koje uzimamo u obzir. Uzimamo 2 standarda za računanje sličnosti izzmeđu vektora, cosine measure i min-max measure.
+Generirano je slučajnim odabirom 500 parova <X,Y> pri čemu je 50% od istog blogera, a 50% ne. Zadatak je točno identificirati koji par pripada istom autoru (isti-autor labela), a koji ne pripadaju istom autoru (različiti-autor labela).
@@ Redak 21: / Redak 20: @@
 ===== Similarity-based baseline method =====
-Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author  i različiti-author parova. X i Y su vektori kao što su prije opisani. Za  par  <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ...,  |x_n- y_n |>. Za svaki par <X, Y>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM)
+Prvo je razmotrena jako jednostavna metoda. Za svaki par <X,Y>  je izračunata sličnost između X i > i dodijeljena je klasa isti-autor ako sličnost prelazi neki prag. Kako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu.  Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadrži razmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacima. Odabrano je 100 000 takvih riječi koji su bili najčešći u odabranim blogovima.
+Postavimo X= <x_1,…,x_n>  i Y= <y_1,…,y_n> kao vektorske prikaze dokumenata X i Y gdje svaki x_i predstavlja vrijednost 4-gram znaka u X a n je ukupan broj takvih 4-gram-a koje uzimamo u obzir. Uzimamo 2 standarda za računanje sličnosti izzmeđu vektora, cosine measure i min-max measure.
 {{:racfor_wiki:graph1.png?400|}}
-===== Skeniranje Priključaka =====
+===== Supervised baseline method =====
-Obično se prva faza učinkovitih napada sastoji od identificiranja potencijalnih žrtava među strojevima distribuiranog sustava. Jedna od uobičajenih metoda koja se koristi za pronalaženje osjetljivih domaćina je upravo skeniranje priključaka (engl. //ports//). Ta metoda može se promatrati kao neprijateljska internetska potraga za otvorenim vratima kroz koja uljezi dobivaju pristup računalima.
+Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author  i različiti-author parova. X i Y su vektori kao što su prije opisani. Za  par  <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, ...,  |x_n- y_n |>. Za svaki par <X, Y>  in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM).
-Sastoji se od slanja poruke na isti i preslušavanja odgovora. Primljeni odgovor ukazuje na status priključka koji otkriva informacije potrebne za pokretanje budućih napada.
+===== Many-Candidates problem =====
-==== PING Sweep Scan ====
+Ako uzmemo veliki broj autora, trebamo odrediti koji od njih, ako ikoji, je uator anonimnog dokumenta. Ovaj problem se zove many-candidates problem. Za to se koristi many-candidates method. Pretpostavimo da imamo set kandidata koji se sastoji od 5 000 blogera pri čemu smo za svakog uzeli prvih 500 riječi njegovog bloga. Sada uzmemo zadnjih 500 riječi (koje zovemo isječak) od nekog slučajnog bloga i pokušavamo odrediti koji, ako ikoji od 5 000 kandidata je autor tog isječka. Koristimo skup značajki i prethodono definiranu min-maxmjeru sličnosti, možemo tvrditi da je autor isječka bloger čiji je tekst najsličniji isječku vektora. Broj isječala koji su ispravno dodijeljeni ovisi o dužini isječka i o broju kandidata autora. Na grafu 1, možemo vidjetitočnost koja je ostvarena za različite duljine isječka i veličinu seta kandidata (korišteno je 1 000 isječaka). Npr., možemo vidjeti da kada postoji 5 000  autora, pri čemu postoji 500 riječi, 32.5% isječaka je točno pridijeljeno.
-Ovaj tip skeniranja hakeri koriste da bi saznali koje su IP adrese aktivne u mreži. Ping Sweep sken može se izvesti pomoću ICMP ili TCP/UDP protokola. "Pomoću ICMP protokola" jest najpoznatiji način te u ovom načinu: ECHO zahtjev slijedi ICMP porukom "Echo Reply", ECHO paketi odgovoraju na upit dok su TCP / UDP ping sweep paketi namijenjeni TCP / UDP priključku 7, ECHO priključku. Ako taj ciljni domaćin ne podržava ECHO uslugu, tada TCP / UDP ping sweep neće raditi. Stoga se uglavnom koristi ICMP ping sweep, ali ako između njih postoji vatrozid (engl. //firewall//) koji je konfiguriran za blokiranje ICMP paketa, onda je čak i ICMP ping sweep beskoristan.
+{{:racfor_wiki:graph2.png?400|}}
-===== Poglavlje 3 =====
-===== Poglavlje ... =====
+Možemo vidjeti da, iako je 32.5% poprilično visoka brojka, zapravo je neprihvatljiva za većinu primjena. Također, ova metoda nužno pridjeljuje svaki isječak nekom autoru iz skupa iako može postojati da niti jedan od kandidata iz skupa autora nije pravi autor tog isječka.
+Bolja ideja je varirati setove koji se koriste u reprezentaciji teksta. Ako je poznati tekst određenog kandidata blogera sličniji isječku nego od bilo kojeg drugog kandidata, onda je velika vjerojatnost da je on autor tog isječka. Ova primjedba sugerira idući algoritam:
+{{:racfor_wiki:asas.png?400|}}
+Ideja je provjeriti ako se dokaže da je određeni autor najsličniji testnom isječku za različite sliučajno odabrane setove fiksne veličine. Broj iteracija, k, je parametar promjenjive veličine, ali uskoro se primjeti da je k=100 sasvim dovoljno. Prag Ϭ* služi kao minimalan rezultat koje autor mora imati kako bi se utvrdilo da je on pravi autor isječka.
+===== Many-candidates rezultati =====
-===== Zaključak =====
+Many-candidates methodu je primijenjeno na problem blogera prethodno opisan, koristeći 1 000 testnih isječaka za različite veličine seta kandidata: 50, 500 i 5000. U grafu 2, možemo vidjeti da se rezultati poboljšavaju kako se broj kandidata autora smanjuje. Na svakoj krivulji, označen je prag Ϭ* = 0.80. Na primjer, za 500 kandidata, pri pragu Ϭ* = 0.80, imamo preciznost 90.2%. Za ovaj eksperiment, korišteno je k=100 iteracija.
+{{:racfor_wiki:graph3.png?400|}}
-===== Literatura =====
-[1] [[http://books.google.hr/books?id=mFJe8ZnAb3EC&printsec=frontcover#v=onepage&q&f=false|Plass, Jan L., Roxana Moreno, and Roland Brünken. Cognitive Load Theory. Cambridge University Press, 2010.]]
-[2] [[http://www.google.com/books?id=duWx8fxkkk0C&printsec=frontcover#v=onepage&q&f=false|Mayer, Richard E. The Cambridge handbook of multimedia learning. Cambridge University Press, 2005.]]
+===== Zaključak =====
+U ovom radu, razmotren je jedan od fundamentalnih i teških autorskih problema - odrediti je li par kratkih dokuemnata napisao isti autor. Otkriveno je da se ovaj problem može riješiti s prihvatljivom točnošćui pod određenim uvjetima. Rezultat ima pratkičnu prmjenu s obzirom da je puno stvarnih problema (npr., autentikacija kratkih dokumenata sa sumnjivim izvorom) zapravo svedivo na ovaj problem.
+Postoji jedno veliko ograničenje ovih metoda, tj. stvari zbog kojih ove metode daju slabije rezultate. Problem je kada se 2 dokumenta, tj. teksta razlikuju u žanru te temi. Tada je puno teže odrediti tko je pravi autor tog teksta. Tu se moraju koristiti puno sofisticiranije metode, tj. metode koje uzimaju u obzir ta 2 faktora.
+===== Literatura =====
-[3] [[http://www.cogtech.usc.edu/publications/kirschner_Sweller_Clark.pdf|Kirschner, P. A, Sweller, J. and Clark, R. E. Why minimal guidance during instruction does not work: An analysis of the failure of constructivist, discovery, problem-based, experiential, and inquiry-based teaching. Educational psychologist 41, no. 2, pp 75-86, 2006]]
+[1] [[https://www.researchgate.net/publication/259680069_Determining_If_Two_Documents_Are_Written_by_the_Same_Author | Moshe Koppel, Yaron Winter,  Determining If Two Documents Are Written by the Same Author. Journal of the Association for Information Science and Technology, 2014]]

racfor_wiki/odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima.1610794174.txt.gz · Zadnja izmjena: 2024/12/05 13:23 (vanjsko uređivanje)