Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2021/01/17 10:27] jturic [The Many-Candidates Problem] |
racfor_wiki:odredivanje_autora_teksta_usporedbom_s_drugim_tekstovima [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 3: | Redak 3: | ||
===== Sažetak ===== | ===== Sažetak ===== | ||
- | How do you write an abstract? Identify your purpose. You're writing about a correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https:// | + | Određivanje jesu li 2 teksta napisana od istog autora je problem koji se pojavljuje u realnom svijetu i ima praktičnu primjenu: određivanje jesu li 2 recenzije proizvoda napisane od strane iste osobe ili je li 2 prijeteća pisma napisala ista osoba. Nakon što se se postavili temelji projekta, provedene su 3 metode: Similarity-Based Baseline metoda te Supervised Baseline metoda kao i Many-Candidates metoda. Metoda koja je pokazala najbolje rezultate je Many-Candidates metoda koja daje oko 90% točne rezultate. |
- | Keywords: | + | Keywords: |
===== Uvod ===== | ===== Uvod ===== | ||
Redak 12: | Redak 12: | ||
===== Postavljanje okoline ===== | ===== Postavljanje okoline ===== | ||
- | Prvo je razmotrena jako jednostavna metoda. Za svaki par < | + | Kao okolina, sa stranice blogger.com, |
- | Postavimo | + | Generirano |
Redak 21: | Redak 20: | ||
===== Similarity-based baseline method ===== | ===== Similarity-based baseline method ===== | ||
- | Druga metoda | + | Prvo je razmotrena jako jednostavna |
+ | Postavimo X= <x_1,…,x_n> | ||
{{: | {{: | ||
Redak 28: | Redak 28: | ||
===== Supervised baseline method ===== | ===== Supervised baseline method ===== | ||
- | Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author | + | Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author |
- | ===== //Many-Candidates// problem ===== | + | ===== Many-Candidates problem ===== |
Ako uzmemo veliki broj autora, trebamo odrediti koji od njih, ako ikoji, je uator anonimnog dokumenta. Ovaj problem se zove many-candidates problem. Za to se koristi many-candidates method. Pretpostavimo da imamo set kandidata koji se sastoji od 5 000 blogera pri čemu smo za svakog uzeli prvih 500 riječi njegovog bloga. Sada uzmemo zadnjih 500 riječi (koje zovemo isječak) od nekog slučajnog bloga i pokušavamo odrediti koji, ako ikoji od 5 000 kandidata je autor tog isječka. Koristimo skup značajki i prethodono definiranu min-maxmjeru sličnosti, možemo tvrditi da je autor isječka bloger čiji je tekst najsličniji isječku vektora. Broj isječala koji su ispravno dodijeljeni ovisi o dužini isječka i o broju kandidata autora. Na grafu 1, možemo vidjetitočnost koja je ostvarena za različite duljine isječka i veličinu seta kandidata (korišteno je 1 000 isječaka). Npr., možemo vidjeti da kada postoji 5 000 autora, pri čemu postoji 500 riječi, 32.5% isječaka je točno pridijeljeno. | Ako uzmemo veliki broj autora, trebamo odrediti koji od njih, ako ikoji, je uator anonimnog dokumenta. Ovaj problem se zove many-candidates problem. Za to se koristi many-candidates method. Pretpostavimo da imamo set kandidata koji se sastoji od 5 000 blogera pri čemu smo za svakog uzeli prvih 500 riječi njegovog bloga. Sada uzmemo zadnjih 500 riječi (koje zovemo isječak) od nekog slučajnog bloga i pokušavamo odrediti koji, ako ikoji od 5 000 kandidata je autor tog isječka. Koristimo skup značajki i prethodono definiranu min-maxmjeru sličnosti, možemo tvrditi da je autor isječka bloger čiji je tekst najsličniji isječku vektora. Broj isječala koji su ispravno dodijeljeni ovisi o dužini isječka i o broju kandidata autora. Na grafu 1, možemo vidjetitočnost koja je ostvarena za različite duljine isječka i veličinu seta kandidata (korišteno je 1 000 isječaka). Npr., možemo vidjeti da kada postoji 5 000 autora, pri čemu postoji 500 riječi, 32.5% isječaka je točno pridijeljeno. | ||
Redak 48: | Redak 48: | ||
{{: | {{: | ||
- | |||
- | |||
- | |||
- | ===== Poglavlje ... ===== | ||
- | |||
Redak 59: | Redak 54: | ||
===== Zaključak ===== | ===== Zaključak ===== | ||
- | + | U ovom radu, razmotren je jedan od fundamentalnih i teških autorskih problema - odrediti je li par kratkih dokuemnata napisao isti autor. Otkriveno je da se ovaj problem može riješiti s prihvatljivom točnošćui pod određenim uvjetima. Rezultat ima pratkičnu prmjenu s obzirom da je puno stvarnih problema (npr., autentikacija kratkih dokumenata sa sumnjivim izvorom) zapravo svedivo na ovaj problem. | |
+ | Postoji jedno veliko ograničenje ovih metoda, tj. stvari zbog kojih ove metode daju slabije rezultate. Problem je kada se 2 dokumenta, tj. teksta razlikuju u žanru te temi. Tada je puno teže odrediti tko je pravi autor tog teksta. Tu se moraju koristiti puno sofisticiranije metode, tj. metode koje uzimaju u obzir ta 2 faktora. | ||
===== Literatura ===== | ===== Literatura ===== | ||
- | [1] [[http:// | + | [1] [[https://www.researchgate.net/publication/259680069_Determining_If_Two_Documents_Are_Written_by_the_Same_Author |
- | + | ||
- | [2] [[http://www.google.com/books? | + | |
- | + | ||
- | [3] [[http:// | + | |