Razlike

Slijede razlike između dviju inačica stranice.

--- racfor_wiki:tehnike_prikrivanja_plagiranja_teksta [2021/01/17 17:10]
itrubic [Literatura]
+++ racfor_wiki:tehnike_prikrivanja_plagiranja_teksta [2024/12/05 12:24] (trenutno)
@@ Redak 32: / Redak 32: @@
 {{ :racfor_wiki:provjeraplagijata.png?600 |}}
-Slika 2: sustav za detekciju plagiranja
+Slika 2: sustav za detekciju plagiranja [1]
-==== Metode prikrivanja plagiranja ====
+===== Metode prikrivanja plagiranja =====
 Prikrivanje plagiranja podrazumjeva da osoba ne želi samo prikriti svoj identitet nego i prevariti sustav dovoljno da ne primjeti plagijat. Ove tehnike služe za prikrivanje identiteta autora ali i također kao primjer slabosti sustava za detekciju plagiranja koje se eventualno trebaju popraviti.
+Alati za prikrivanje koriste jezične modele, isto kao i alati za detekciju. Ukoliko se koristi isti model za prikrivanje i detekciju onda je detekcija znatno lakša.
+Metode temeljene na pravilima su efikasne u prikrivanju identiteta autora dok znatno utječu na "glatkoču" i čitkost teksta. Mogu samo parafrazirati tekst kako bi uklonile autorov stil u smislu najčešće korištenih riječi. Neke metode pokušavaju stilski //pogoditi prosjek//.
 ===== Prikrivanje plagiranja bazirano na pravilima =====
+Prvi pristup [4]:
+Tekst se parafrazira tako da stil pisanja više ne odgovara originalnom autoru.
+Koraci:
+  - Određivanje učestalosti riječi
+  - Odabir jezičnog modela
+  - Generiranje sinonima
+  - Post procesiranje
+  - Zamjena riječi
+**Određivanje učestalosti riječi**
+Uzima se neki drugi rad toga autora te se mjeri frekvencija pojedinih riječi.
+Odabire se najčešćih 200 riječi.
-===== Skeniranje Priključaka =====
+** Odabir jezičnog modela **
+Jezični model predstavlja vjerojatnost pojave riječi u nekome kontekstu, odnosno u okrugu drugih riječi. Može se koristiti već gotov model (spomenuti u poglavlju //Detekcija plagiranja//) ili stvoriti vlastiti. Jezični model se koristi u pri zadnjem koraku gdje prema njemu ocjenjujemo sinonime i riječi za zamjenu na način da na to mjeso stavimo vrlo vjerojatan sinonim.
-Obično se prva faza učinkovitih napada sastoji od identificiranja potencijalnih žrtava među strojevima distribuiranog sustava. Jedna od uobičajenih metoda koja se koristi za pronalaženje osjetljivih domaćina je upravo skeniranje priključaka (engl. //ports//). Ta metoda može se promatrati kao neprijateljska internetska potraga za otvorenim vratima kroz koja uljezi dobivaju pristup računalima.
+** Generiranje sinonima **
-Sastoji se od slanja poruke na isti i preslušavanja odgovora. Primljeni odgovor ukazuje na status priključka koji otkriva informacije potrebne za pokretanje budućih napada.
+Kreira se podskup sinonima te se ocjenjuju Wu i Palmerovom [4] ocjenom sličnosti koja govori koliko su dvije riječi semantički slične uzimajuči u obzir i semantiku predhodne riječi.
-==== PING Sweep Scan ====
+** Post procesiranje **
+Sinonimi su u krivom jezičnom obliku te treba prilagoditi oblik riječi prema kontekstu u kojemu se nalazi
-Ovaj tip skeniranja hakeri koriste da bi saznali koje su IP adrese aktivne u mreži. Ping Sweep sken može se izvesti pomoću ICMP ili TCP/UDP protokola. "Pomoću ICMP protokola" jest najpoznatiji način te u ovom načinu: ECHO zahtjev slijedi ICMP porukom "Echo Reply", ECHO paketi odgovoraju na upit dok su TCP / UDP ping sweep paketi namijenjeni TCP / UDP priključku 7, ECHO priključku. Ako taj ciljni domaćin ne podržava ECHO uslugu, tada TCP / UDP ping sweep neće raditi. Stoga se uglavnom koristi ICMP ping sweep, ali ako između njih postoji vatrozid (engl. //firewall//) koji je konfiguriran za blokiranje ICMP paketa, onda je čak i ICMP ping sweep beskoristan.
+** Zamjena riječi **
-===== Poglavlje 3 =====
+Zanji korak, zamjena određenog broja najčešćih riječi kako bi se prikrio originalan stil autora.
-===== Poglavlje ... =====
+Drugi pristup [1]:
+Pojednostavnjenje dokumenta.
+Koraci:
+  - ako je broj skračenica veći od ne skračenoga teksta, zamjeni skračenice i dulji tekst (i obrato ako je obrnuta situacija)
+  - ukloni tekst u zagradama koji ne sadrži imena ni apozicije
+  - Zamjeni riječi sinonimima koji još nisu bili iskorišteni.
+===== Složenije prikrivanje plagiranja =====
+Metode bazirane na pravilima obave posao no istraživanja i eksperimentiranja su dovela do nešto složenijih rješenja i načina.
+** Mutant-X ** [5]
+Mutant-X je genetski algoritam (GAs) koji u kombinaciji sa sustavom za prepoznavanje pronalazi riječi koje bi pri promjeni davale najveći utjecaj prikrivanja [1]. Kako je sustav za detekciju plagiranja zapravo //crna kutija// ovaj genetski algoritam ga baš na taj način koristi kao funkciju vrednovanja u kombinaciji sa semantikom prikrivenog plagiranog teksta. Na taj način vrlo brzo može doći do rješenja i pronači ispravan set promjena potrebnih za prikrivanje autora. To je već gotov alat koji je vrlo jednostavan i radi na povečim dokumentima, stoga bi bilo tko mogao ovaj alat iskoristiti.
 ===== Zaključak =====
+Proučavanje tehnika prikrivanja plagiranja je korisno iz dva bitna razloga. Prvi je pronalazak grešaka i unapređenje trenutnih sustava za detekciju plagiranja dok je drugi zaštita privatnosti i anonimnosti za zviždače, novinare i borce za pravdu.
+Tehnike prikrivanja podosta kaskaju za alatima za detekciju te ono što je za sada definitivno moguče je ostati anoniman, no sama anonimnost možda nije posve dovoljna.
 ===== Literatura =====
@@ Redak 69: / Redak 97: @@
 [4] [[http://ceur-ws.org/Vol-1609/16090939.pdf| Muharram Mansoorizadeh, Taher Rahgooy,Mohammad Aminiyan, Mahdy Eskandari. Author obfuscation using WordNet and language models Notebook for PAN, CLEF 2016.]]
+[5] [[https://content.sciendo.com/configurable/contentpage/journals$002fpopets$002f2019$002f4$002farticle-p54.xml| Asad Mahmood 1 , Faizan Ahmad 2 , Zubair Shafiq 3 , Padmini Srinivasan 4 , and Fareed Zaffar. A Girl Has No Name: Automated Authorship Obfuscation using Mutant-X . University of Iowa, 2019.]]

racfor_wiki/tehnike_prikrivanja_plagiranja_teksta.1610903407.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)