====== Tehnike prepoznavanja plagiranja teksta ====== ===== Sažetak ===== Tehnike prepoznavanja plagiranja teksta nužan su sredstvo za brojne zajednice i institucije, kao alat koji im pomaže u očuvanju integriteta i pronalasku plagijatora. Koristeći razne metode za prepoznavanje sličnosti teksta, uparene s raznim pravilima i heuristikama, a naposljetku i ručnim pregledom i prosuđivanjem, moguće je postići iznimno visoku razinu detekcije plagiranih tekstova. Ključne riječi: plagijat; detekcija plagijata; prepoznavanje plagijata; ===== Uvod ===== Plagijat je, prema rječniku hrvatskoga jezika, "književno, znanstveno ili drugo djelo nastalo prepisivanjem u cjelini, u bitnim ili u prepoznatljivim dijelovima i prisvajanjem tuđega rada uloženog u to djelo". Iako plagiranje postoji u brojnim industrijama i granama društva, kao što su razne grane umjetnosti, ono ima značajne implikacije na akademsku zajednicu, gdje plagiranje predstavlja značajnu povredu akademskog integriteta. Plagiranje djela obuhvaća prisvajanje ideja, stila i teksta. Ovaj rad primarno će se osvrnuti na tematiku plagiranja teksta i tehnike za prepoznavanje takvih plagijata. Pojavom Interneta i dostupnosti velikog broja znanstvenih radova, članaka i ostalih tekstova, plagiranje je postalo jednostavnije nego ikad. Međutim, upravo ta dostupnost velikog broja tekstova omogućava i sastavljanje opsežnih baza legitimnih radova koje se koriste za prepoznavanje plagijata. Nastavak rada ponudit će pregled nekih od tehnika i alata koji se koriste za prepoznavanje plagiranja teksta. ===== Prepoznavanje plagijata ===== Prepoznavanje plagijata naposljetku je ipak posao za čovjeka koji može donijeti informiranu odluku o legitimnosti djela. Međutim, do tog posljednjeg koraka vode automatizirane računalne tehnike koje mogu sugerirati postojanje plagijata. Njih se može podijeliti na intrinsične i ekstrinsične metode detekcije. Intrinsične metode prepoznavanje plagijata provode isključivo na tekstu koji se ispituje, bez ikakvih informacija o drugim tekstovima koji su potencijalni originalni izvori. Ovakve metode oslanjaju se na prepoznavanje promjena u stilu, oblikovanju i sličnim detaljima unutar različitih dijelova istog teksta. Ekstrinsične metode koriste vanjske informacije, odnosno baze postojećih legitimnih tekstova, za prepoznavanje plagiranih. Ovakve metode raznim pristupima pokušavaju odrediti srodnost teksta koji se ispituje s poznatim legitimnim tekstovima te tako prepoznati pokušaje plagiranja, kao i originalni izvor. Ove metode se dalje mogu podijeliti na jednojezične i višejezične metode. Višejezične metode nastoje prepoznati plagijate nastale prevođenjem teksta s nekog drugog jezika. Takve su metode znatno kompleksnije i manje precizne, a uglavnom se oslanjaju na sintaksnu analizu ili na korištenje rječnika. S druge strane, jednojezične metode detektiraju plagijate samo unutar tekstova pisanih na istom jeziku, što ih čini značajno jednostavnijima. Efektivno, problem se svodi na efikasan način pronalaska sličnih tekstova ili dijelova teksta. ==== Tehnike prepoznavanja sličnih tekstova ==== Prepoznavanje sličnih tekstova široko je područje istraživanja, s brojnim funkcionalnim metodama i tehnikama koje datiraju i iz 70ih godina prošlog stoljeća. Najčešće korištene metode mogu se podijeliti na rangiranje i metode jedinstvenog potpisa. === Rangiranje === Rangiranje sličnosti dokumenata popularan je problem i van domene detekcije plagijata. Vjerojatno najpoznatiji primjer korištenja ovakvih algoritama su Web tražilice kao što je Google Search, čija je primarna funkcionalnost rangiranje Web stranica prema sličnosti i relevantnosti s pojmom koji se pretražuje. Ovakve tehnike često se svode na tehnike dohvaćanja informacija (engl. //information retrieval//) i manipulacije vektorima visoke dimenzionalnosti. Primjerice, ukoliko se uspoređuju dvije rečenice: > (R1) //lorem ipsum dolor sit lorem amet sit// > (R2) //lorem ipsum adipiscing ipsum elit amet ipsum// Prvi korak je te rečenice prikazati kao vektore. To je moguće postići tzv. n-gram modelom koji grupira riječi, znakove ili neke druge osnovne jedinice u komponente vektora (tokene). Primjerice, 1-gram model baziran na riječima podijelio bi rečenicu R1 u "lorem", "ipsum", "dolor", "sit", "amet". 2-gram model baziran na riječima generirao bi tokene "lorem ipsum", "ipsum dolor", "dolor sit", "sit lorem", "lorem amet", "amet sit". 1-gram model baziran na riječima primijenjen na obje rečenice, daje sljedeće vektore: | ^ lorem ^ ipsum ^ dolor ^ adipiscing ^ sit ^ amet ^ elit ^ R1 | 2 | 1 | 1 | 0 | 2 | 1 | 0 ^ R2 | 1 | 3 | 0 | 1 | 0 | 1 | 1 Sada je problem sveden na usporedbu sličnosti vektora, što je moguće odrediti računanjem kosinusa kuta između tih vektora. Kosinus kuta moguće je izračunati pomoću skalarnog umnoška: cos(θ) = **R1** * **R2** / |**R1**| * |**R2**|. S obzirom da komponente vektora predstavljaju učestalost pojavljivanja n-grama, one ne mogu biti manje od 0, pa se vrijednosti kosinusa kuta kreću u rasponu od 0 do 1, gdje 0 predstavlja potpuno različite vektore, a 1 identične. Kosinus kuta u ovom primjeru iznosi cos(θ) = 0.502. Pronalaskom najvećeg kosinusa između teksta koji se ispituje i baze legitimnih tekstova, pronalazi se najizgledniji kandidat izvora plagiranja. Naravno, sortiranjem tih vrijednosti dobiva se rangiranje potencijalnih kandidata, od najsličnijih prema različitima. Problem koji je jednostavno uočiti s ovakvim tehnikama je eksplozija dimenzionalnosti vektora ukoliko se primjenjuje na duže tekstove. Druga prethodno spomenuta metoda - jedinstveni potpis, upravo rješava problem redukcije dimenzionalnosti. === Jedinstveni potpis (engl. fingerprint) === Metode jedinstvenog potpisa reduciraju tekst na kratak sažetak (engl. //hash//) koji ga jedinstveno opisuje (potpis), a pritom sadržavaju svojstvo očuvanja sličnosti sažetaka ukoliko su potekli od sličnih tekstova. Primjer takvog algoritma je simhash, koji za ulazni vektor visoke dimenzionalnosti računa sažetak proizvoljnog broja bitova. Algoritam simhash koji računa sažetak veličine 4 bita, prikazan je u nastavku. {{ :racfor_wiki:simhash.png?nolink&400 |}} Jednom kada se izračunaju sažeci tekstova iz baze legitimnih tekstova, nije ih više potrebno čuvati. Za provjeru sličnosti novog teksta, izračuna se njegov sažetak i usporedi sa svim prethodno izračunatim sažecima, koristeći primjerice Hammingovu udaljenost. Što je ta udaljenost manja, sličnost tekstova ja veća, čime se pronalaze potencijalni kandidati za određivanje plagijata. ==== Alati za prepoznavanje plagijata ==== Alate za prepoznavanje plagijata moguće je izgraditi od nule, uz pomoć neke od prethodno opisanih metoda. Pri tome mogu pomoći razvojni okviri koji već implementiraju navedene metode, kao što je [[https://dkpro.github.io/dkpro-similarity/|DKPro Similarity]]. U tom slučaju potrebno je i sastaviti vlastitu bazu legitimnih tekstova te implementirati dodatne metode i heuristike specifično za detekciju plagijata. Iz tog razloga, najčešće se koriste cjeloviti sustavi za detekciju plagijata kao što je [[https://www.plagscan.com/en/|PlagScan]], koji se koristi i na FER-u. Nažalost, gotovi svi takvi sustavi su solucije zatvorenog koda, a većina ih je komercijalna. Uz klasične metode prepoznavanja sličnosti teksta, takve solucije implementiraju dodatna pravila i heuristike te koriste metode strojnog učenja, a u svrhu smanjenja broja lažnih detekcija i poboljšanja pokrivenosti. Nažalost, takve metode su poslovna tajna, pa se o njima može samo nagađati. Još jedna velika zapreka u razvoju ovakvih rješenja je ograničena dostupnost znanstvenih radova kroz legalne kanale distribucije, uzrokovana apsurdnom situacijom sa znanstvenim časopisima. ===== Zaključak ===== Globalna dostupnost podataka i tekstualnih djela plodno je tlo za plagijatore koji prikupljaju i izmjenjuju tekstove s različitih izvora kako bi ih prikazali kao vlastite. Takva situacija poseban problem stvara znanstvenoj zajednici koja nastoji osigurati integritet znanstvenih radova i publikacija. Rješenje tog problema detekcijom plagiranih tekstova evoluira već desetljećima i danas je praktično riješen problem, ukoliko razmatramo plagiranje tekstova unutar istog jezika. Na tržištu postoje brojne komercijalne solucije, čiji su korisnici primarno fakultetske ustanove, a razvoj rješenja otvorenog koda primarno koči nemogućnost legalne nabave velike kolekcije znanstvenih radova. ===== Literatura ===== [1] Hoad, T. C., & Zobel, J. (2003). Methods for identifying versioned and plagiarized documents. Journal of the American society for information science and technology, 54(3), 203-215. [2] Eisa, T. A. E., Salim, N., & Alzahrani, S. (2015). Existing plagiarism detection techniques. Online Information Review. [3] Chowdhury, H. A., & Bhattacharyya, D. K. (2018). Plagiarism: Taxonomy, tools and detection techniques. arXiv preprint arXiv:1801.06323. [4] [[http://161.53.22.65/datoteka/888255.Raunalna_detekcija_plagijata-pregled_metoda_i_algoritama.pdf|Hercigonja, Z. Računalna detekcija plagijata]] [5] [[https://www.fer.unizg.hr/_download/repository/AVSP_02_Near_Duplicates_Simhash_updated.pdf|Srbljić, S., Šilić, M., Delač, G. & Vladimir, K. (2019]. Detection of near-duplicate (textual) documents using the simhash algorithm]]