Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.

Razlike

Slijede razlike između dviju inačica stranice.

Poveznica na ovu usporedbu

Starije izmjene na obje strane Starija izmjena
Novija izmjena
Starija izmjena
racfor_wiki:tehnike_prepoznavanja_plagiranja_teksta [2021/01/16 10:34]
bzeba Naslov
racfor_wiki:tehnike_prepoznavanja_plagiranja_teksta [2024/12/05 12:24] (trenutno)
Redak 3: Redak 3:
 ===== Sažetak ===== ===== Sažetak =====
  
-How do you write an abstract? Identify your purposeYou're writing about correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https://www.aje.com/arc/make-great-first-impression-6-tips-writing-strong-abstract/|Source]]) Save your work regularly!!! Describe your results (informative abstract only). … Abstract should be no longer that 400 words. Napomena: sadržaj na vrhu stranice generira se automatski na temelju naslova u dokumentu.+Tehnike prepoznavanja plagiranja teksta nužan su sredstvo za brojne zajednice i institucije, kao alat koji im pomaže u očuvanju integriteta i pronalasku plagijatoraKoristeći razne metode za prepoznavanje sličnosti teksta, uparene s raznim pravilima i heuristikama, naposljetku i ručnim pregledom i prosuđivanjem, moguće je postići iznimno visoku razinu detekcije plagiranih tekstova.
  
-Keywordsabstractbastractastractretract; tractor+Ključne riječiplagijatdetekcija plagijataprepoznavanje plagijata;
 ===== Uvod ===== ===== Uvod =====
  
-Kako sekako vrijeme idetehnologija pa tako i računalne mreže znatno mijenjaju i postaju "pametnije" i složenije - tako s druge strane hakeri smišljaju nove i naprednije načine napada putem iste mrežeBilo da se radi o krađidentitetapodatakaucjeni ili nečemu trećemuglavnom se napadi svode na krađu podataka koji su korisnicima od važnosti i nadaju se da neće biti nesmotreno propagirani po mreži. Takvi se napadi uglavnom provode osluškivanjem i manipuliranjem mreže.+Plagijat jeprema rječniku hrvatskoga jezika, "književno, znanstveno ili drugo djelo nastalo prepisivanjem u cjelini, u bitnim ili u prepoznatljivim dijelovima prisvajanjem tuđega rada uloženog u to djelo"Iako plagiranje postoji u brojnim industrijama granama društvakao što su razne grane umjetnostiono ima značajne implikacije na akademsku zajednicugdje plagiranje predstavlja značajnu povredu akademskog integriteta
  
-Paketi su glavna jedinica podataka u mreži. Sastoje se od zaglavlja (podaci o paketu), paketa nižih razina mreže samih podatakaTakvi se paketi šalju po mrež(na više načinaTCP/UDP), gdje onda nastupaju hakeri i presreću ihBitni su nam iz više razloga u pogledu računalne forenzikete ih zato analiziramo raznim alatima (poput WireShark-a). Pomoću analize paketa možemo saznati stanje mreže prije nego što se pojave problemi (rekonstrukcija) te drugo, ono bitnije za računalnu forenziku - u slučaju napada možemo provesti dijagnosticiranjeAnaliza pomažmrežnim administratorima da pregledaju "žice" znaju promet koji njima prelazi ili probleme koji bi mogli biti prisutni.+Plagiranje djela obuhvaća prisvajanje ideja, stila tekstaOvaj rad primarno će se osvrnuti na tematiku plagiranja teksta tehnike za prepoznavanje takvih plagijataPojavom Interneta dostupnosti velikog broja znanstvenih radova, članaka i ostalih tekstovaplagiranje je postalo jednostavnije nego ikadMeđutimupravo ta dostupnost velikog broja tekstova omogućava i sastavljanje opsežnih baza legitimnih radova koje se koriste za prepoznavanje plagijataNastavak rada ponudit ćpregled nekih od tehnika alata koji se koriste za prepoznavanje plagiranja teksta.
  
-Na dalje ćemo spominjati samo analizu mreže (mrežnih paketa) samo u svrhu korisničke sigurnosti. Pa takva analiza odgovara na četiri ključna pitanja pri ispitivanju sigurnosti: +===== Prepoznavanje plagijata =====
-  - Tko je uljez i kako se probio? +
-  - Kolika je šteta? +
-  - Je li uljez iza sebe ostavio neku vrstu virusa? +
-  - Možemo li reproducirati napad i sanirati štetu?+
  
-Mrežni napadi uglavnom se mogu identificirati promatranjem dolaznog i odlaznog prometajer je neobično ponašanje rezultat sumnjive kretnje paketa. +Prepoznavanje plagijata naposljetku je ipak posao za čovjeka koji može donijeti informiranu odluku o legitimnosti djela. Međutimdo tog posljednjeg koraka vode automatizirane računalne tehnike koje mogu sugerirati postojanje plagijataNjih se može podijeliti na intrinsične ekstrinsične metode detekcije. 
-Glavne vrste mrežnih napada su: +
-  - Oni zasnovani na skeniranju priključaka (engl. //ports//+
-  - Prikrivenim FTP IRC kanalima +
-  - Temeljenim na ICMP protokolu +
-  - I drugi+
  
-U ovom radu pričat ćemo alatu Wiresharkanalizatoru paketa otvorenog koda, kao alatu za otkrivanje potencijalnih mrežnih napada. +Intrinsične metode prepoznavanje plagijata provode isključivo na tekstu koji se ispituje, bez ikakvih informacija drugim tekstovima koji su potencijalni originalni izvori. Ovakve metode oslanjaju se na prepoznavanje promjena u stiluoblikovanju i sličnim detaljima unutar različitih dijelova istog teksta
-===== WireShark =====+
  
-WireShark je najistaknutiji i najčće korišten analizator mrežnih protokolaOmogućuje nam da vidimo što se događa na mreži na mikroskopskoj razini i standard je u mnogim komercijalnim i neprofitnim poduzećimavladinim agencijama obrazovnim institucijamaRazvoj Wiresharka napreduje zahvaljujući dobrovoljnim doprinosima stručnjaka za umrežavanje širom svijeta i nastavak je projekta koji je Gerald Combs započeo 1998. +Ekstrinsične metode koriste vanjske informacije, odnosno baze postojećih legitimnih tekstova, za prepoznavanje plagiranihOvakve metode raznim pristupima pokušavaju odrediti srodnost teksta koji se ispituje s poznatim legitimnim tekstovima te tako prepoznati pokušaje plagiranjakao originalni izvor.  Ove metode se dalje mogu podijeliti na jednojezične višejezične metode
-WireShark nam nudi: +
-  - Dubinski pregled stotina protokola +
-  - Snimanje uživo i izvanmrežnu (engl. //offline//) analizu +
-  - Radi na većini poznatih operacijskih sustava +
-  - Snimljeni mrežni podaci mogu se pregledavati putem GUI-a (//Graphical User Interface//) umjesto putem nekog terminala ili slično +
-  - __Sadržnajmoćnije filtere u industriji__ +
-  - i još mnogo toga...+
  
-==== WireShark Filteri ====+Višejezične metode nastoje prepoznati plagijate nastale prevođenjem teksta s nekog drugog jezika. Takve su metode znatno kompleksnije i manje precizne, a uglavnom se oslanjaju na sintaksnu analizu ili na korištenje rječnika. S druge strane, jednojezične metode detektiraju plagijate samo unutar tekstova pisanih na istom jeziku, što ih čini značajno jednostavnijima. Efektivno, problem se svodi na efikasan način pronalaska sličnih tekstova ili dijelova teksta. 
  
-U WireSharku, filteri se odnose na Berkeley Packet Filters, što je zapravo mikroprogramski jezik koji se sastavlja i izvršava u vrijeme izvođenja (engl. //runtime//) nad presretnutim paketima. Koristimo ih u osnovi kako bi odvojili određene pakete od ostalih, odnosno prikazali samo ono što nas zanima. Tako možemo npr. filtrirati samo pakete određenih protokola: +==== Tehnike prepoznavanja sličnih tekstova ====
-                              Na slici možemo vidjeti filter pozvan tako da se prikazuju samo paketi FTP protokola+
  
-Filteri koji nas više zanimaju u svrhu računalne forenziku su npr. filteri temeljeni na specifičnoj IP adresi koji će pokazati sav promet s/na te adreseSličan filter je "port filter" koji ćnam prikazati samo promet na određenim vratima (engl. //port//). Dalje se tu možemo igrati kreiranjem filtera koji će pokazati promet kojem je određena IP adresa SAMO izvor (engl. //source//) ili SAMO odredište (engl. //destination//). Postoje još moćniji filteri tipa filter koji će prikazati sav HTTP promet koji sadrži određeni tekstualni niz (engl. //string//) u svojoj adresi (//URL//).+Prepoznavanje sličnih tekstova široko je područje istraživanja, s brojnim funkcionalnim metodama i tehnikama koje datiraju i iz 70ih godina prošlog stoljećaNajčešće korištene metode mogu se podijeliti na rangiranje metode jedinstvenog potpisa
  
 +=== Rangiranje ===
  
 +Rangiranje sličnosti dokumenata popularan je problem i van domene detekcije plagijata. Vjerojatno najpoznatiji primjer korištenja ovakvih algoritama su Web tražilice kao što je Google Search, čija je primarna funkcionalnost rangiranje Web stranica prema sličnosti i relevantnosti s pojmom koji se pretražuje. Ovakve tehnike često se svode na tehnike dohvaćanja informacija (engl. //information retrieval//) i manipulacije vektorima visoke dimenzionalnosti. Primjerice, ukoliko se uspoređuju dvije rečenice:
  
-===== Skeniranje Priključaka =====+> (R1) //lorem ipsum dolor sit lorem amet sit//
  
-Obično se prva faza učinkovitih napada sastoji od identificiranja potencijalnih žrtava među strojevima distribuiranog sustava. Jedna od uobičajenih metoda koja se koristi za pronalaženje osjetljivih domaćina je upravo skeniranje priključaka (engl. //ports//). Ta metoda može se promatrati kao neprijateljska internetska potraga za otvorenim vratima kroz koja uljezi dobivaju pristup računalima. +(R2) //lorem ipsum adipiscing ipsum elit amet ipsum//
-Sastoji se od slanja poruke na isti i preslušavanja odgovora. Primljeni odgovor ukazuje na status priključka koji otkriva informacije potrebne za pokretanje budućih napada. +
  
-==== PING Sweep Scan ====+Prvi korak je te rečenice prikazati kao vektore. To je moguće postići tzv. n-gram modelom koji grupira riječi, znakove ili neke druge osnovne jedinice u komponente vektora (tokene). Primjerice, 1-gram model baziran na riječima podijelio bi rečenicu R1 u "lorem", "ipsum", "dolor", "sit", "amet". 2-gram model baziran na riječima generirao bi tokene "lorem ipsum", "ipsum dolor", "dolor sit", "sit lorem", "lorem amet", "amet sit". 1-gram model baziran na riječima primijenjen na obje rečenice, daje sljedeće vektore:
  
-Ovaj tip skeniranja hakeri koriste da bi saznali koje su IP adrese aktivne u mreži. Ping Sweep sken može se izvesti pomoću ICMP ili TCP/UDP protokola. "Pomoću ICMP protokola" jest najpoznatiji način te u ovom načinu: ECHO zahtjev slijedi ICMP porukom "Echo Reply", ECHO paketi odgovoraju na upit dok su TCP / UDP ping sweep paketi namijenjeni TCP / UDP priključku 7, ECHO priključku. Ako taj ciljni domaćin ne podržava ECHO uslugu, tada TCP / UDP ping sweep neće raditi. Stoga se uglavnom koristi ICMP ping sweep, ali ako između njih postoji vatrozid (engl. //firewall//) koji je konfiguriran za blokiranje ICMP paketa, onda je čak i ICMP ping sweep beskoristan. +|    ^ lorem  ^ ipsum  ^ dolor  ^ adipiscing  ^ sit  ^ amet  ^ elit  
-===== Poglavlje =====+^ R1 | 2      | 1      | 1      | 0           | 2    | 1     | 0 
 +^ R2 | 1      |      | 0      | 1           | 0    | 1     | 1
  
-===== Poglavlje ... =====+Sada je problem sveden na usporedbu sličnosti vektora, što je moguće odrediti računanjem kosinusa kuta između tih vektora. Kosinus kuta moguće je izračunati pomoću skalarnog umnoška: cos(θ) **R1** * **R2** / |**R1**| * |**R2**|. S obzirom da komponente vektora predstavljaju učestalost pojavljivanja n-grama, one ne mogu biti manje od 0, pa se vrijednosti kosinusa kuta kreću u rasponu od 0 do 1, gdje 0 predstavlja potpuno različite vektore, a 1 identične. Kosinus kuta u ovom primjeru iznosi cos(θ) 0.502Pronalaskom najvećeg kosinusa između teksta koji se ispituje i baze legitimnih tekstova, pronalazi se najizgledniji kandidat izvora plagiranja. Naravno, sortiranjem tih vrijednosti dobiva se rangiranje potencijalnih kandidata, od najsličnijih prema različitima.
  
 +Problem koji je jednostavno uočiti s ovakvim tehnikama je eksplozija dimenzionalnosti vektora ukoliko se primjenjuje na duže tekstove. Druga prethodno spomenuta metoda - jedinstveni potpis, upravo rješava problem redukcije dimenzionalnosti. 
  
 +=== Jedinstveni potpis (engl. fingerprint) ===
  
 +Metode jedinstvenog potpisa reduciraju tekst na kratak sažetak (engl. //hash//) koji ga jedinstveno opisuje (potpis), a pritom sadržavaju svojstvo očuvanja sličnosti sažetaka ukoliko su potekli od sličnih tekstova. Primjer takvog algoritma je simhash, koji za ulazni vektor visoke dimenzionalnosti računa sažetak proizvoljnog broja bitova. Algoritam simhash koji računa sažetak veličine 4 bita, prikazan je u nastavku.
 +{{ :racfor_wiki:simhash.png?nolink&400 |}}
 +Jednom kada se izračunaju sažeci tekstova iz baze legitimnih tekstova, nije ih više potrebno čuvati. Za provjeru sličnosti novog teksta, izračuna se njegov sažetak i usporedi sa svim prethodno izračunatim sažecima, koristeći primjerice Hammingovu udaljenost. Što je ta udaljenost manja, sličnost tekstova ja veća, čime se pronalaze potencijalni kandidati za određivanje plagijata. 
  
 +==== Alati za prepoznavanje plagijata ====
 +
 +Alate za prepoznavanje plagijata moguće je izgraditi od nule, uz pomoć neke od prethodno opisanih metoda. Pri tome mogu pomoći razvojni okviri koji već implementiraju navedene metode, kao što je [[https://dkpro.github.io/dkpro-similarity/|DKPro Similarity]]. U tom slučaju potrebno je i sastaviti vlastitu bazu legitimnih tekstova te implementirati dodatne metode i heuristike specifično za detekciju plagijata. Iz tog razloga, najčešće se koriste cjeloviti sustavi za detekciju plagijata kao što je [[https://www.plagscan.com/en/|PlagScan]], koji se koristi i na FER-u. Nažalost, gotovi svi takvi sustavi su solucije zatvorenog koda, a većina ih je komercijalna. Uz klasične metode prepoznavanja sličnosti teksta, takve solucije implementiraju dodatna pravila i heuristike te koriste metode strojnog učenja, a u svrhu smanjenja broja lažnih detekcija i poboljšanja pokrivenosti. Nažalost, takve metode su poslovna tajna, pa se o njima može samo nagađati. Još jedna velika zapreka u razvoju ovakvih rješenja je ograničena dostupnost znanstvenih radova kroz legalne kanale distribucije, uzrokovana apsurdnom situacijom sa znanstvenim časopisima.
  
 ===== Zaključak ===== ===== Zaključak =====
  
 +Globalna dostupnost podataka i tekstualnih djela plodno je tlo za plagijatore koji prikupljaju i izmjenjuju tekstove s različitih izvora kako bi ih prikazali kao vlastite. Takva situacija poseban problem stvara znanstvenoj zajednici koja nastoji osigurati integritet znanstvenih radova i publikacija. Rješenje tog problema detekcijom plagiranih tekstova evoluira već desetljećima i danas je praktično riješen problem, ukoliko razmatramo plagiranje tekstova unutar istog jezika. Na tržištu postoje brojne komercijalne solucije, čiji su korisnici primarno fakultetske ustanove, a razvoj rješenja otvorenog koda primarno koči nemogućnost legalne nabave velike kolekcije znanstvenih radova.
  
 ===== Literatura ===== ===== Literatura =====
  
-[1] [[http://books.google.hr/books?id=mFJe8ZnAb3EC&printsec=frontcover#v=onepage&q&f=false|PlassJan L., Roxana Morenoand Roland BrünkenCognitive Load TheoryCambridge University Press2010.]]+[1] Hoad, TC.ZobelJ(2003). Methods for identifying versioned and plagiarized documents. Journal of the American society for information science and technology54(3)203-215. 
 + 
 +[2] Eisa, TA. E., SalimN., & Alzahrani, S. (2015). Existing plagiarism detection techniques. Online Information Review. 
 + 
 +[3Chowdhury, H. A., & Bhattacharyya, D. K. (2018). Plagiarism: Taxonomy, tools and detection techniques. arXiv preprint arXiv:1801.06323.
  
-[2] [[http://www.google.com/books?id=duWx8fxkkk0C&printsec=frontcover#v=onepage&q&f=false|Mayer, Richard EThe Cambridge handbook of multimedia learningCambridge University Press2005.]]+[4] [[http://161.53.22.65/datoteka/888255.Raunalna_detekcija_plagijata-pregled_metoda_i_algoritama.pdf|HercigonjaZRačunalna detekcija plagijata]]
  
-[3] [[http://www.cogtech.usc.edu/publications/kirschner_Sweller_Clark.pdf|KirschnerPASwellerJand ClarkR. E. Why minimal guidance during instruction does not work: An analysis of the failure of constructivistdiscovery, problem-based, experiential, and inquiry-based teachingEducational psychologist 41no2, pp 75-86, 2006]]+[5] [[https://www.fer.unizg.hr/_download/repository/AVSP_02_Near_Duplicates_Simhash_updated.pdf|SrbljićS., ŠilićM., DelačG& VladimirK(2019]. Detection of near-duplicate (textual) documents using the simhash algorithm]]
  
  
racfor_wiki/tehnike_prepoznavanja_plagiranja_teksta.1610793243.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)
Dieses Dokuwiki verwendet ein von Anymorphic Webdesign erstelltes Thema.
CC Attribution-Share Alike 4.0 International
www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0