Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:tehnike_prepoznavanja_plagiranja_teksta [2021/01/16 10:34] bzeba Naslov |
racfor_wiki:tehnike_prepoznavanja_plagiranja_teksta [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 3: | Redak 3: | ||
===== Sažetak ===== | ===== Sažetak ===== | ||
- | How do you write an abstract? Identify your purpose. You're writing about a correlation between lack of lunches in schools and poor grades. … Explain the problem at hand. Abstracts state the “problem” behind your work. … Explain your methods. … ([[https:// | + | Tehnike prepoznavanja plagiranja teksta nužan su sredstvo za brojne zajednice i institucije, |
- | Keywords: abstract; bastract; astract; retract; tractor | + | Ključne riječi: plagijat; detekcija plagijata; prepoznavanje plagijata; |
===== Uvod ===== | ===== Uvod ===== | ||
- | Kako se, kako vrijeme ide, tehnologija pa tako i računalne mreže znatno mijenjaju i postaju | + | Plagijat je, prema rječniku hrvatskoga jezika, "književno, znanstveno ili drugo djelo nastalo prepisivanjem u cjelini, u bitnim ili u prepoznatljivim dijelovima |
- | Paketi su glavna jedinica podataka u mreži. Sastoje | + | Plagiranje djela obuhvaća prisvajanje ideja, stila i teksta. Ovaj rad primarno će se osvrnuti na tematiku plagiranja teksta |
- | Na dalje ćemo spominjati samo analizu mreže (mrežnih paketa) samo u svrhu korisničke sigurnosti. Pa takva analiza odgovara na četiri ključna pitanja pri ispitivanju sigurnosti: | + | ===== Prepoznavanje plagijata ===== |
- | - Tko je uljez i kako se probio? | + | |
- | - Kolika je šteta? | + | |
- | - Je li uljez iza sebe ostavio neku vrstu virusa? | + | |
- | - Možemo li reproducirati napad i sanirati štetu? | + | |
- | Mrežni napadi uglavnom se mogu identificirati promatranjem dolaznog i odlaznog prometa, jer je neobično ponašanje rezultat sumnjive kretnje paketa. | + | Prepoznavanje plagijata naposljetku je ipak posao za čovjeka koji može donijeti informiranu odluku o legitimnosti djela. Međutim, do tog posljednjeg koraka vode automatizirane računalne tehnike koje mogu sugerirati postojanje plagijata. Njih se može podijeliti |
- | Glavne vrste mrežnih napada su: | + | |
- | - Oni zasnovani | + | |
- | - Prikrivenim FTP i IRC kanalima | + | |
- | - Temeljenim na ICMP protokolu | + | |
- | - I drugi | + | |
- | U ovom radu pričat ćemo o alatu Wireshark, analizatoru paketa otvorenog koda, kao alatu za otkrivanje potencijalnih mrežnih napada. | + | Intrinsične metode prepoznavanje plagijata provode isključivo na tekstu koji se ispituje, bez ikakvih informacija |
- | ===== WireShark ===== | + | |
- | WireShark je najistaknutiji i najčešće korišten analizator mrežnih protokola. Omogućuje nam da vidimo | + | Ekstrinsične metode koriste vanjske informacije, |
- | WireShark nam nudi: | + | |
- | - Dubinski pregled stotina protokola | + | |
- | - Snimanje uživo i izvanmrežnu (engl. // | + | |
- | - Radi na većini poznatih operacijskih sustava | + | |
- | - Snimljeni mrežni podaci mogu se pregledavati putem GUI-a (// | + | |
- | - __Sadrži najmoćnije filtere u industriji__ | + | |
- | - i još mnogo toga... | + | |
- | ==== WireShark Filteri ==== | + | Višejezične metode nastoje prepoznati plagijate nastale prevođenjem teksta s nekog drugog jezika. Takve su metode znatno kompleksnije i manje precizne, a uglavnom se oslanjaju na sintaksnu analizu ili na korištenje rječnika. S druge strane, jednojezične metode detektiraju plagijate samo unutar tekstova pisanih na istom jeziku, što ih čini značajno jednostavnijima. Efektivno, problem se svodi na efikasan način pronalaska sličnih tekstova ili dijelova teksta. |
- | U WireSharku, filteri se odnose na Berkeley Packet Filters, što je zapravo mikroprogramski jezik koji se sastavlja i izvršava u vrijeme izvođenja (engl. // | + | ==== Tehnike prepoznavanja sličnih tekstova ==== |
- | Na slici možemo vidjeti filter pozvan tako da se prikazuju samo paketi FTP protokola | + | |
- | Filteri koji nas više zanimaju u svrhu računalne forenziku su npr. filteri temeljeni na specifičnoj IP adresi koji će pokazati sav promet s/na te adrese. Sličan filter je "port filter" | + | Prepoznavanje sličnih tekstova |
+ | === Rangiranje === | ||
+ | Rangiranje sličnosti dokumenata popularan je problem i van domene detekcije plagijata. Vjerojatno najpoznatiji primjer korištenja ovakvih algoritama su Web tražilice kao što je Google Search, čija je primarna funkcionalnost rangiranje Web stranica prema sličnosti i relevantnosti s pojmom koji se pretražuje. Ovakve tehnike često se svode na tehnike dohvaćanja informacija (engl. // | ||
- | ===== Skeniranje Priključaka ===== | + | > (R1) //lorem ipsum dolor sit lorem amet sit// |
- | Obično se prva faza učinkovitih napada sastoji od identificiranja potencijalnih žrtava među strojevima distribuiranog sustava. Jedna od uobičajenih metoda koja se koristi za pronalaženje osjetljivih domaćina je upravo skeniranje priključaka | + | > (R2) //lorem ipsum adipiscing ipsum elit amet ipsum// |
- | Sastoji se od slanja poruke na isti i preslušavanja odgovora. Primljeni odgovor ukazuje na status priključka koji otkriva informacije potrebne za pokretanje budućih napada. | + | |
- | ==== PING Sweep Scan ==== | + | Prvi korak je te rečenice prikazati kao vektore. To je moguće postići tzv. n-gram modelom koji grupira riječi, znakove ili neke druge osnovne jedinice u komponente vektora (tokene). Primjerice, 1-gram model baziran na riječima podijelio bi rečenicu R1 u " |
- | Ovaj tip skeniranja hakeri koriste da bi saznali koje su IP adrese aktivne u mreži. Ping Sweep sken može se izvesti pomoću ICMP ili TCP/UDP protokola. " | + | | ^ lorem ^ ipsum ^ dolor ^ adipiscing |
- | ===== Poglavlje | + | ^ R1 | 2 | 1 | 1 | 0 | 2 | 1 | 0 |
+ | ^ R2 | 1 | 3 | 0 | 1 | 0 | 1 | 1 | ||
- | ===== Poglavlje | + | Sada je problem sveden na usporedbu sličnosti vektora, što je moguće odrediti računanjem kosinusa kuta između tih vektora. Kosinus kuta moguće je izračunati pomoću skalarnog umnoška: cos(θ) |
+ | Problem koji je jednostavno uočiti s ovakvim tehnikama je eksplozija dimenzionalnosti vektora ukoliko se primjenjuje na duže tekstove. Druga prethodno spomenuta metoda - jedinstveni potpis, upravo rješava problem redukcije dimenzionalnosti. | ||
+ | === Jedinstveni potpis (engl. fingerprint) === | ||
+ | Metode jedinstvenog potpisa reduciraju tekst na kratak sažetak (engl. //hash//) koji ga jedinstveno opisuje (potpis), a pritom sadržavaju svojstvo očuvanja sličnosti sažetaka ukoliko su potekli od sličnih tekstova. Primjer takvog algoritma je simhash, koji za ulazni vektor visoke dimenzionalnosti računa sažetak proizvoljnog broja bitova. Algoritam simhash koji računa sažetak veličine 4 bita, prikazan je u nastavku. | ||
+ | {{ : | ||
+ | Jednom kada se izračunaju sažeci tekstova iz baze legitimnih tekstova, nije ih više potrebno čuvati. Za provjeru sličnosti novog teksta, izračuna se njegov sažetak i usporedi sa svim prethodno izračunatim sažecima, koristeći primjerice Hammingovu udaljenost. Što je ta udaljenost manja, sličnost tekstova ja veća, čime se pronalaze potencijalni kandidati za određivanje plagijata. | ||
+ | ==== Alati za prepoznavanje plagijata ==== | ||
+ | |||
+ | Alate za prepoznavanje plagijata moguće je izgraditi od nule, uz pomoć neke od prethodno opisanih metoda. Pri tome mogu pomoći razvojni okviri koji već implementiraju navedene metode, kao što je [[https:// | ||
===== Zaključak ===== | ===== Zaključak ===== | ||
+ | Globalna dostupnost podataka i tekstualnih djela plodno je tlo za plagijatore koji prikupljaju i izmjenjuju tekstove s različitih izvora kako bi ih prikazali kao vlastite. Takva situacija poseban problem stvara znanstvenoj zajednici koja nastoji osigurati integritet znanstvenih radova i publikacija. Rješenje tog problema detekcijom plagiranih tekstova evoluira već desetljećima i danas je praktično riješen problem, ukoliko razmatramo plagiranje tekstova unutar istog jezika. Na tržištu postoje brojne komercijalne solucije, čiji su korisnici primarno fakultetske ustanove, a razvoj rješenja otvorenog koda primarno koči nemogućnost legalne nabave velike kolekcije znanstvenih radova. | ||
===== Literatura ===== | ===== Literatura ===== | ||
- | [1] [[http:// | + | [1] Hoad, T. C., & Zobel, J. (2003). Methods for identifying versioned and plagiarized documents. Journal of the American society for information science and technology, 54(3), 203-215. |
+ | |||
+ | [2] Eisa, T. A. E., Salim, N., & Alzahrani, S. (2015). Existing plagiarism detection techniques. Online Information Review. | ||
+ | |||
+ | [3] Chowdhury, H. A., & Bhattacharyya, | ||
- | [2] [[http://www.google.com/books? | + | [4] [[http://161.53.22.65/datoteka/ |
- | [3] [[http://www.cogtech.usc.edu/publications/kirschner_Sweller_Clark.pdf|Kirschner, P. A, Sweller, J. and Clark, R. E. Why minimal guidance during instruction does not work: An analysis of the failure of constructivist, discovery, problem-based, | + | [5] [[https://www.fer.unizg.hr/_download/repository/ |