Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2021/01/17 10:20] jturic [The Many-Candidates Problem] |
racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 3: | Redak 3: | ||
===== Sažetak ===== | ===== Sažetak ===== | ||
- | How do you write an abstract? Identify your purpose. You're writing about a correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https:// | + | Određivanje jesu li 2 teksta napisana od istog autora je problem koji se pojavljuje u realnom svijetu i ima praktičnu primjenu: određivanje jesu li 2 recenzije proizvoda napisane od strane iste osobe ili je li 2 prijeteća pisma napisala ista osoba. Nakon što se se postavili temelji projekta, provedene su 3 metode: Similarity-Based Baseline metoda te Supervised Baseline metoda kao i Many-Candidates metoda. Metoda koja je pokazala najbolje rezultate je Many-Candidates metoda koja daje oko 90% točne rezultate. |
- | Keywords: | + | Keywords: |
===== Uvod ===== | ===== Uvod ===== | ||
Redak 12: | Redak 12: | ||
===== Postavljanje okoline ===== | ===== Postavljanje okoline ===== | ||
- | Prvo je razmotrena jako jednostavna metoda. Za svaki par < | + | Kao okolina, sa stranice blogger.com, |
- | Postavimo | + | Generirano |
Redak 21: | Redak 20: | ||
===== Similarity-based baseline method ===== | ===== Similarity-based baseline method ===== | ||
- | Druga metoda | + | Prvo je razmotrena jako jednostavna |
+ | Postavimo X= <x_1,…,x_n> | ||
{{: | {{: | ||
Redak 28: | Redak 28: | ||
===== Supervised baseline method ===== | ===== Supervised baseline method ===== | ||
- | Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author | + | Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author |
- | ===== The Many-Candidates | + | ===== Many-Candidates |
Ako uzmemo veliki broj autora, trebamo odrediti koji od njih, ako ikoji, je uator anonimnog dokumenta. Ovaj problem se zove many-candidates problem. Za to se koristi many-candidates method. Pretpostavimo da imamo set kandidata koji se sastoji od 5 000 blogera pri čemu smo za svakog uzeli prvih 500 riječi njegovog bloga. Sada uzmemo zadnjih 500 riječi (koje zovemo isječak) od nekog slučajnog bloga i pokušavamo odrediti koji, ako ikoji od 5 000 kandidata je autor tog isječka. Koristimo skup značajki i prethodono definiranu min-maxmjeru sličnosti, možemo tvrditi da je autor isječka bloger čiji je tekst najsličniji isječku vektora. Broj isječala koji su ispravno dodijeljeni ovisi o dužini isječka i o broju kandidata autora. Na grafu 1, možemo vidjetitočnost koja je ostvarena za različite duljine isječka i veličinu seta kandidata (korišteno je 1 000 isječaka). Npr., možemo vidjeti da kada postoji 5 000 autora, pri čemu postoji 500 riječi, 32.5% isječaka je točno pridijeljeno. | Ako uzmemo veliki broj autora, trebamo odrediti koji od njih, ako ikoji, je uator anonimnog dokumenta. Ovaj problem se zove many-candidates problem. Za to se koristi many-candidates method. Pretpostavimo da imamo set kandidata koji se sastoji od 5 000 blogera pri čemu smo za svakog uzeli prvih 500 riječi njegovog bloga. Sada uzmemo zadnjih 500 riječi (koje zovemo isječak) od nekog slučajnog bloga i pokušavamo odrediti koji, ako ikoji od 5 000 kandidata je autor tog isječka. Koristimo skup značajki i prethodono definiranu min-maxmjeru sličnosti, možemo tvrditi da je autor isječka bloger čiji je tekst najsličniji isječku vektora. Broj isječala koji su ispravno dodijeljeni ovisi o dužini isječka i o broju kandidata autora. Na grafu 1, možemo vidjetitočnost koja je ostvarena za različite duljine isječka i veličinu seta kandidata (korišteno je 1 000 isječaka). Npr., možemo vidjeti da kada postoji 5 000 autora, pri čemu postoji 500 riječi, 32.5% isječaka je točno pridijeljeno. | ||
Redak 43: | Redak 43: | ||
Ideja je provjeriti ako se dokaže da je određeni autor najsličniji testnom isječku za različite sliučajno odabrane setove fiksne veličine. Broj iteracija, k, je parametar promjenjive veličine, ali uskoro se primjeti da je k=100 sasvim dovoljno. Prag Ϭ* služi kao minimalan rezultat koje autor mora imati kako bi se utvrdilo da je on pravi autor isječka. | Ideja je provjeriti ako se dokaže da je određeni autor najsličniji testnom isječku za različite sliučajno odabrane setove fiksne veličine. Broj iteracija, k, je parametar promjenjive veličine, ali uskoro se primjeti da je k=100 sasvim dovoljno. Prag Ϭ* služi kao minimalan rezultat koje autor mora imati kako bi se utvrdilo da je on pravi autor isječka. | ||
- | ===== Poglavlje 3 ===== | + | ===== Many-candidates rezultati |
- | ===== Poglavlje | + | Many-candidates methodu je primijenjeno na problem blogera prethodno opisan, koristeći 1 000 testnih isječaka za različite veličine seta kandidata: 50, 500 i 5000. U grafu 2, možemo vidjeti da se rezultati poboljšavaju kako se broj kandidata autora smanjuje. Na svakoj krivulji, označen je prag Ϭ* = 0.80. Na primjer, za 500 kandidata, pri pragu Ϭ* = 0.80, imamo preciznost 90.2%. Za ovaj eksperiment, |
+ | {{: | ||
Redak 53: | Redak 54: | ||
===== Zaključak ===== | ===== Zaključak ===== | ||
- | + | U ovom radu, razmotren je jedan od fundamentalnih i teških autorskih problema - odrediti je li par kratkih dokuemnata napisao isti autor. Otkriveno je da se ovaj problem može riješiti s prihvatljivom točnošćui pod određenim uvjetima. Rezultat ima pratkičnu prmjenu s obzirom da je puno stvarnih problema (npr., autentikacija kratkih dokumenata sa sumnjivim izvorom) zapravo svedivo na ovaj problem. | |
+ | Postoji jedno veliko ograničenje ovih metoda, tj. stvari zbog kojih ove metode daju slabije rezultate. Problem je kada se 2 dokumenta, tj. teksta razlikuju u žanru te temi. Tada je puno teže odrediti tko je pravi autor tog teksta. Tu se moraju koristiti puno sofisticiranije metode, tj. metode koje uzimaju u obzir ta 2 faktora. | ||
===== Literatura ===== | ===== Literatura ===== | ||
- | [1] [[http:// | + | [1] [[https://www.researchgate.net/publication/259680069_Determining_If_Two_Documents_Are_Written_by_the_Same_Author |
- | + | ||
- | [2] [[http://www.google.com/books? | + | |
- | + | ||
- | [3] [[http:// | + | |