Ovo je stara izmjena dokumenta!
How do you write an abstract? Identify your purpose. You're writing about a correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … (Source) Save your work regularly!!! Describe your results (informative abstract only). … Abstract should be no longer that 400 words. Napomena: sadržaj na vrhu stranice generira se automatski na temelju naslova u dokumentu.
Keywords: abstract; bastract; astract; retract; tractor
Internet sadrži puno dokumenata (stranica, članaka i slično) koji su pisani pod pseudonimima ili anonimno i ponekad je bitno saznati jesu li 2 dokumenta napisana od strane istog autora. Npr., netko želi saznati je li nekoliko tendencioznih recenzija nekog proizvoda napisala ista osoba ili čak jesu li 2 prijeteća prijeteća pisma potekla od istog autora.
Prvo je razmotrena jako jednostavna metoda. Za svaki par <X,Y> je izračunata sličnost između X i > i dodijeljena je klasa isti-autor ako sličnost prelazi neki prag. Kako bi se izračunala sličnost između dokumenata, svaki dokument je prikazan kao vektor koji sadrži odgovarajuće frekvencije svakog 4-gram space-free u dokumentu. Space-free 4-gram je riječ koja se sastoji od 4 znaka koja ne sadrži razmak ili riječ koja se sastoji od 4 ili manje znaka koji su okruženi razmacima. Odabrano je 100 000 takvih riječi koji su bili najčešći u odabranim blogovima. Postavimo X= <x_1,…,x_n> i Y= <y_1,…,y_n> kao vektorske prikaze dokumenata X i Y gdje svaki x_i predstavlja vrijednost 4-gram znaka u X a n je ukupan broj takvih 4-gram-a koje uzimamo u obzir. Uzimamo 2 standarda za računanje sličnosti izzmeđu vektora, cosine measure i min-max measure.
Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author i različiti-author parova. X i Y su vektori kao što su prije opisani. Za par <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, …, |x_n- y_n |>. Za svaki par <X, Y> in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM)
Druga metoda koristi setove za učenje. Pretpostavimo da imamo set za učenje od 1 000 <X, Y> parova pri čemu je svakom dodijeljenja vrijednost isti-autor ili rauličiti-autor. Korištene su supervised metode kako bi se naučilo razlikovati između isti-author i različiti-author parova. X i Y su vektori kao što su prije opisani. Za par <X, Y> definira se diff(X, Y)=<|x_1- y_1 |, …, |x_n- y_n |>. Za svaki par <X, Y> in setu za učenje, vektoru diff(X,Y) je pridijeljena labela isti-autor ako je <X, Y> je ako je par napisao isti autor i labela različiti-autor ako su <X,Y> par napisale različite osobe. Nadalje, te labele s korištene za supervised učenje i primijeni se naučeni klasifikator na set za učenje. Kao algoritam za učenje je korištem Support Vector Machine (SVM)
Ako uzmemo veliki broj autora, trebamo odrediti koji od njih, ako ikoji, je uator anonimnog dokumenta. Ovaj problem se zove many-candidates problem. Za to se koristi many-candidates merhod. Koristimo skup značajki i prethodono definiranu min-maxmjeru sličnosti, možemo tvrditi da je autor isječka bloger čiji je tekst najsličniji isječku vektora. Broj isječala koji su ispravno dodijeljeni ovisi o dužini isječka i o broju kandidata autora. Na grafu 1, možemo vidjetitočnost koja je ostvarena za različite duljine isječka i veličinu seta kandidata (korišteno je 1 000 isječaka). Npr., možemo vidjeti da kaka postoji 5 000 autora, pri čemu postoji 500 riječi, 32.5% isječaka je točno pridijeljeno.