Razlike

Slijede razlike između dviju inačica stranice.

--- racfor_wiki:tehnike_prepoznavanja_plagiranja_teksta [2021/01/16 10:34]
bzeba Naslov
+++ racfor_wiki:tehnike_prepoznavanja_plagiranja_teksta [2024/12/05 12:24] (trenutno)
@@ Redak 3: / Redak 3: @@
 ===== Sažetak =====
-How do you write an abstract? Identify your purpose. You're writing about a correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https://www.aje.com/arc/make-great-first-impression-6-tips-writing-strong-abstract/|Source]]) Save your work regularly!!! Describe your results (informative abstract only). … Abstract should be no longer that 400 words. Napomena: sadržaj na vrhu stranice generira se automatski na temelju naslova u dokumentu.
+Tehnike prepoznavanja plagiranja teksta nužan su sredstvo za brojne zajednice i institucije, kao alat koji im pomaže u očuvanju integriteta i pronalasku plagijatora. Koristeći razne metode za prepoznavanje sličnosti teksta, uparene s raznim pravilima i heuristikama, a naposljetku i ručnim pregledom i prosuđivanjem, moguće je postići iznimno visoku razinu detekcije plagiranih tekstova.
-Keywords: abstract; bastract; astract; retract; tractor
+Ključne riječi: plagijat; detekcija plagijata; prepoznavanje plagijata;
 ===== Uvod =====
-Kako se, kako vrijeme ide, tehnologija pa tako i računalne mreže znatno mijenjaju i postaju "pametnije" i složenije - tako i s druge strane hakeri smišljaju nove i naprednije načine napada putem iste mreže. Bilo da se radi o krađi identiteta, podataka, ucjeni ili nečemu trećem, uglavnom se napadi svode na krađu podataka koji su korisnicima od važnosti i nadaju se da neće biti nesmotreno propagirani po mreži. Takvi se napadi uglavnom provode osluškivanjem i manipuliranjem mreže.
+Plagijat je, prema rječniku hrvatskoga jezika, "književno, znanstveno ili drugo djelo nastalo prepisivanjem u cjelini, u bitnim ili u prepoznatljivim dijelovima i prisvajanjem tuđega rada uloženog u to djelo". Iako plagiranje postoji u brojnim industrijama i granama društva, kao što su razne grane umjetnosti, ono ima značajne implikacije na akademsku zajednicu, gdje plagiranje predstavlja značajnu povredu akademskog integriteta.
-Paketi su glavna jedinica podataka u mreži. Sastoje se od zaglavlja (podaci o paketu), paketa nižih razina mreže i samih podataka. Takvi se paketi šalju po mreži (na više načina, TCP/UDP), gdje onda nastupaju hakeri i presreću ih. Bitni su nam iz više razloga u pogledu računalne forenzike, te ih zato analiziramo raznim alatima (poput WireShark-a). Pomoću analize paketa možemo saznati stanje mreže prije nego što se pojave problemi (rekonstrukcija) te drugo, ono bitnije za računalnu forenziku - u slučaju napada možemo provesti dijagnosticiranje. Analiza pomaže mrežnim administratorima da pregledaju "žice" i znaju promet koji njima prelazi ili probleme koji bi mogli biti prisutni.
+Plagiranje djela obuhvaća prisvajanje ideja, stila i teksta. Ovaj rad primarno će se osvrnuti na tematiku plagiranja teksta i tehnike za prepoznavanje takvih plagijata. Pojavom Interneta i dostupnosti velikog broja znanstvenih radova, članaka i ostalih tekstova, plagiranje je postalo jednostavnije nego ikad. Međutim, upravo ta dostupnost velikog broja tekstova omogućava i sastavljanje opsežnih baza legitimnih radova koje se koriste za prepoznavanje plagijata. Nastavak rada ponudit će pregled nekih od tehnika i alata koji se koriste za prepoznavanje plagiranja teksta.
-Na dalje ćemo spominjati samo analizu mreže (mrežnih paketa) samo u svrhu korisničke sigurnosti. Pa takva analiza odgovara na četiri ključna pitanja pri ispitivanju sigurnosti:
+===== Prepoznavanje plagijata =====
-  - Tko je uljez i kako se probio?
-  - Kolika je šteta?
-  - Je li uljez iza sebe ostavio neku vrstu virusa?
-  - Možemo li reproducirati napad i sanirati štetu?
-Mrežni napadi uglavnom se mogu identificirati promatranjem dolaznog i odlaznog prometa, jer je neobično ponašanje rezultat sumnjive kretnje paketa.
+Prepoznavanje plagijata naposljetku je ipak posao za čovjeka koji može donijeti informiranu odluku o legitimnosti djela. Međutim, do tog posljednjeg koraka vode automatizirane računalne tehnike koje mogu sugerirati postojanje plagijata. Njih se može podijeliti na intrinsične i ekstrinsične metode detekcije.
-Glavne vrste mrežnih napada su:
-  - Oni zasnovani na skeniranju priključaka (engl. //ports//)
-  - Prikrivenim FTP i IRC kanalima
-  - Temeljenim na ICMP protokolu
-  - I drugi
-U ovom radu pričat ćemo o alatu Wireshark, analizatoru paketa otvorenog koda, kao alatu za otkrivanje potencijalnih mrežnih napada.
+Intrinsične metode prepoznavanje plagijata provode isključivo na tekstu koji se ispituje, bez ikakvih informacija o drugim tekstovima koji su potencijalni originalni izvori. Ovakve metode oslanjaju se na prepoznavanje promjena u stilu, oblikovanju i sličnim detaljima unutar različitih dijelova istog teksta.
-===== WireShark =====
-WireShark je najistaknutiji i najčešće korišten analizator mrežnih protokola. Omogućuje nam da vidimo što se događa na mreži na mikroskopskoj razini i standard je u mnogim komercijalnim i neprofitnim poduzećima, vladinim agencijama i obrazovnim institucijama. Razvoj Wiresharka napreduje zahvaljujući dobrovoljnim doprinosima stručnjaka za umrežavanje širom svijeta i nastavak je projekta koji je Gerald Combs započeo 1998.
+Ekstrinsične metode koriste vanjske informacije, odnosno baze postojećih legitimnih tekstova, za prepoznavanje plagiranih. Ovakve metode raznim pristupima pokušavaju odrediti srodnost teksta koji se ispituje s poznatim legitimnim tekstovima te tako prepoznati pokušaje plagiranja, kao i originalni izvor.  Ove metode se dalje mogu podijeliti na jednojezične i višejezične metode.
-WireShark nam nudi:
-  - Dubinski pregled stotina protokola
-  - Snimanje uživo i izvanmrežnu (engl. //offline//) analizu
-  - Radi na većini poznatih operacijskih sustava
-  - Snimljeni mrežni podaci mogu se pregledavati putem GUI-a (//Graphical User Interface//) umjesto putem nekog terminala ili slično
-  - __Sadrži najmoćnije filtere u industriji__
-  - i još mnogo toga...
-==== WireShark Filteri ====
+Višejezične metode nastoje prepoznati plagijate nastale prevođenjem teksta s nekog drugog jezika. Takve su metode znatno kompleksnije i manje precizne, a uglavnom se oslanjaju na sintaksnu analizu ili na korištenje rječnika. S druge strane, jednojezične metode detektiraju plagijate samo unutar tekstova pisanih na istom jeziku, što ih čini značajno jednostavnijima. Efektivno, problem se svodi na efikasan način pronalaska sličnih tekstova ili dijelova teksta.
-U WireSharku, filteri se odnose na Berkeley Packet Filters, što je zapravo mikroprogramski jezik koji se sastavlja i izvršava u vrijeme izvođenja (engl. //runtime//) nad presretnutim paketima. Koristimo ih u osnovi kako bi odvojili određene pakete od ostalih, odnosno prikazali samo ono što nas zanima. Tako možemo npr. filtrirati samo pakete određenih protokola:
+==== Tehnike prepoznavanja sličnih tekstova ====
-                              Na slici možemo vidjeti filter pozvan tako da se prikazuju samo paketi FTP protokola
-Filteri koji nas više zanimaju u svrhu računalne forenziku su npr. filteri temeljeni na specifičnoj IP adresi koji će pokazati sav promet s/na te adrese. Sličan filter je "port filter" koji će nam prikazati samo promet na određenim vratima (engl. //port//). Dalje se tu možemo igrati kreiranjem filtera koji će pokazati promet kojem je određena IP adresa SAMO izvor (engl. //source//) ili SAMO odredište (engl. //destination//). Postoje i još moćniji filteri tipa filter koji će prikazati sav HTTP promet koji sadrži određeni tekstualni niz (engl. //string//) u svojoj adresi (//URL//).
+Prepoznavanje sličnih tekstova široko je područje istraživanja, s brojnim funkcionalnim metodama i tehnikama koje datiraju i iz 70ih godina prošlog stoljeća. Najčešće korištene metode mogu se podijeliti na rangiranje i metode jedinstvenog potpisa.
+=== Rangiranje ===
+Rangiranje sličnosti dokumenata popularan je problem i van domene detekcije plagijata. Vjerojatno najpoznatiji primjer korištenja ovakvih algoritama su Web tražilice kao što je Google Search, čija je primarna funkcionalnost rangiranje Web stranica prema sličnosti i relevantnosti s pojmom koji se pretražuje. Ovakve tehnike često se svode na tehnike dohvaćanja informacija (engl. //information retrieval//) i manipulacije vektorima visoke dimenzionalnosti. Primjerice, ukoliko se uspoređuju dvije rečenice:
-===== Skeniranje Priključaka =====
+> (R1) //lorem ipsum dolor sit lorem amet sit//
-Obično se prva faza učinkovitih napada sastoji od identificiranja potencijalnih žrtava među strojevima distribuiranog sustava. Jedna od uobičajenih metoda koja se koristi za pronalaženje osjetljivih domaćina je upravo skeniranje priključaka (engl. //ports//). Ta metoda može se promatrati kao neprijateljska internetska potraga za otvorenim vratima kroz koja uljezi dobivaju pristup računalima.
+> (R2) //lorem ipsum adipiscing ipsum elit amet ipsum//
-Sastoji se od slanja poruke na isti i preslušavanja odgovora. Primljeni odgovor ukazuje na status priključka koji otkriva informacije potrebne za pokretanje budućih napada.
-==== PING Sweep Scan ====
+Prvi korak je te rečenice prikazati kao vektore. To je moguće postići tzv. n-gram modelom koji grupira riječi, znakove ili neke druge osnovne jedinice u komponente vektora (tokene). Primjerice, 1-gram model baziran na riječima podijelio bi rečenicu R1 u "lorem", "ipsum", "dolor", "sit", "amet". 2-gram model baziran na riječima generirao bi tokene "lorem ipsum", "ipsum dolor", "dolor sit", "sit lorem", "lorem amet", "amet sit". 1-gram model baziran na riječima primijenjen na obje rečenice, daje sljedeće vektore:
-Ovaj tip skeniranja hakeri koriste da bi saznali koje su IP adrese aktivne u mreži. Ping Sweep sken može se izvesti pomoću ICMP ili TCP/UDP protokola. "Pomoću ICMP protokola" jest najpoznatiji način te u ovom načinu: ECHO zahtjev slijedi ICMP porukom "Echo Reply", ECHO paketi odgovoraju na upit dok su TCP / UDP ping sweep paketi namijenjeni TCP / UDP priključku 7, ECHO priključku. Ako taj ciljni domaćin ne podržava ECHO uslugu, tada TCP / UDP ping sweep neće raditi. Stoga se uglavnom koristi ICMP ping sweep, ali ako između njih postoji vatrozid (engl. //firewall//) koji je konfiguriran za blokiranje ICMP paketa, onda je čak i ICMP ping sweep beskoristan.
+|    ^ lorem  ^ ipsum  ^ dolor  ^ adipiscing  ^ sit  ^ amet  ^ elit
-===== Poglavlje 3 =====
+^ R1 | 2      | 1      | 1      | 0           | 2    | 1     | 0
+^ R2 | 1      | 3      | 0      | 1           | 0    | 1     | 1
-===== Poglavlje ... =====
+Sada je problem sveden na usporedbu sličnosti vektora, što je moguće odrediti računanjem kosinusa kuta između tih vektora. Kosinus kuta moguće je izračunati pomoću skalarnog umnoška: cos(θ) = **R1** * **R2** / |**R1**| * |**R2**|. S obzirom da komponente vektora predstavljaju učestalost pojavljivanja n-grama, one ne mogu biti manje od 0, pa se vrijednosti kosinusa kuta kreću u rasponu od 0 do 1, gdje 0 predstavlja potpuno različite vektore, a 1 identične. Kosinus kuta u ovom primjeru iznosi cos(θ) = 0.502. Pronalaskom najvećeg kosinusa između teksta koji se ispituje i baze legitimnih tekstova, pronalazi se najizgledniji kandidat izvora plagiranja. Naravno, sortiranjem tih vrijednosti dobiva se rangiranje potencijalnih kandidata, od najsličnijih prema različitima.
+Problem koji je jednostavno uočiti s ovakvim tehnikama je eksplozija dimenzionalnosti vektora ukoliko se primjenjuje na duže tekstove. Druga prethodno spomenuta metoda - jedinstveni potpis, upravo rješava problem redukcije dimenzionalnosti.
+=== Jedinstveni potpis (engl. fingerprint) ===
+Metode jedinstvenog potpisa reduciraju tekst na kratak sažetak (engl. //hash//) koji ga jedinstveno opisuje (potpis), a pritom sadržavaju svojstvo očuvanja sličnosti sažetaka ukoliko su potekli od sličnih tekstova. Primjer takvog algoritma je simhash, koji za ulazni vektor visoke dimenzionalnosti računa sažetak proizvoljnog broja bitova. Algoritam simhash koji računa sažetak veličine 4 bita, prikazan je u nastavku.
+{{ :racfor_wiki:simhash.png?nolink&400 |}}
+Jednom kada se izračunaju sažeci tekstova iz baze legitimnih tekstova, nije ih više potrebno čuvati. Za provjeru sličnosti novog teksta, izračuna se njegov sažetak i usporedi sa svim prethodno izračunatim sažecima, koristeći primjerice Hammingovu udaljenost. Što je ta udaljenost manja, sličnost tekstova ja veća, čime se pronalaze potencijalni kandidati za određivanje plagijata.
+==== Alati za prepoznavanje plagijata ====
+Alate za prepoznavanje plagijata moguće je izgraditi od nule, uz pomoć neke od prethodno opisanih metoda. Pri tome mogu pomoći razvojni okviri koji već implementiraju navedene metode, kao što je [[https://dkpro.github.io/dkpro-similarity/|DKPro Similarity]]. U tom slučaju potrebno je i sastaviti vlastitu bazu legitimnih tekstova te implementirati dodatne metode i heuristike specifično za detekciju plagijata. Iz tog razloga, najčešće se koriste cjeloviti sustavi za detekciju plagijata kao što je [[https://www.plagscan.com/en/|PlagScan]], koji se koristi i na FER-u. Nažalost, gotovi svi takvi sustavi su solucije zatvorenog koda, a većina ih je komercijalna. Uz klasične metode prepoznavanja sličnosti teksta, takve solucije implementiraju dodatna pravila i heuristike te koriste metode strojnog učenja, a u svrhu smanjenja broja lažnih detekcija i poboljšanja pokrivenosti. Nažalost, takve metode su poslovna tajna, pa se o njima može samo nagađati. Još jedna velika zapreka u razvoju ovakvih rješenja je ograničena dostupnost znanstvenih radova kroz legalne kanale distribucije, uzrokovana apsurdnom situacijom sa znanstvenim časopisima.
 ===== Zaključak =====
+Globalna dostupnost podataka i tekstualnih djela plodno je tlo za plagijatore koji prikupljaju i izmjenjuju tekstove s različitih izvora kako bi ih prikazali kao vlastite. Takva situacija poseban problem stvara znanstvenoj zajednici koja nastoji osigurati integritet znanstvenih radova i publikacija. Rješenje tog problema detekcijom plagiranih tekstova evoluira već desetljećima i danas je praktično riješen problem, ukoliko razmatramo plagiranje tekstova unutar istog jezika. Na tržištu postoje brojne komercijalne solucije, čiji su korisnici primarno fakultetske ustanove, a razvoj rješenja otvorenog koda primarno koči nemogućnost legalne nabave velike kolekcije znanstvenih radova.
 ===== Literatura =====
-[1] [[http://books.google.hr/books?id=mFJe8ZnAb3EC&printsec=frontcover#v=onepage&q&f=false|Plass, Jan L., Roxana Moreno, and Roland Brünken. Cognitive Load Theory. Cambridge University Press, 2010.]]
+[1] Hoad, T. C., & Zobel, J. (2003). Methods for identifying versioned and plagiarized documents. Journal of the American society for information science and technology, 54(3), 203-215.
+[2] Eisa, T. A. E., Salim, N., & Alzahrani, S. (2015). Existing plagiarism detection techniques. Online Information Review.
+[3] Chowdhury, H. A., & Bhattacharyya, D. K. (2018). Plagiarism: Taxonomy, tools and detection techniques. arXiv preprint arXiv:1801.06323.
-[2] [[http://www.google.com/books?id=duWx8fxkkk0C&printsec=frontcover#v=onepage&q&f=false|Mayer, Richard E. The Cambridge handbook of multimedia learning. Cambridge University Press, 2005.]]
+[4] [[http://161.53.22.65/datoteka/888255.Raunalna_detekcija_plagijata-pregled_metoda_i_algoritama.pdf|Hercigonja, Z. Računalna detekcija plagijata]]
-[3] [[http://www.cogtech.usc.edu/publications/kirschner_Sweller_Clark.pdf|Kirschner, P. A, Sweller, J. and Clark, R. E. Why minimal guidance during instruction does not work: An analysis of the failure of constructivist, discovery, problem-based, experiential, and inquiry-based teaching. Educational psychologist 41, no. 2, pp 75-86, 2006]]
+[5] [[https://www.fer.unizg.hr/_download/repository/AVSP_02_Near_Duplicates_Simhash_updated.pdf|Srbljić, S., Šilić, M., Delač, G. & Vladimir, K. (2019]. Detection of near-duplicate (textual) documents using the simhash algorithm]]

racfor_wiki/tehnike_prepoznavanja_plagiranja_teksta.1610793243.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)