Sadržaj

Tehnike prikrivanja plagiranja teksta

Sažetak

Podrazumjeva se da bi svaka osoba trebala stajati iza svoga rada. Autentičnost rada je vrlo bitna, pogotovo u obrazovnim institucijama kako bi se stalo na kraj prepisivanju te bi bili u mogučnosti provjeriti jeli je ta osoba uistinu to napravila. Koristeći razne nove alate koji su moguči razvojem neuronskih mreža te tehnika dubokog učenja, takve provjere su postale vrlo jednostavne i precizne. No, uzmemo li u obzir da postoje situacije u kojima autor želi ostati anoniman iz nekih razloga kao što su na primjer zviždači te protivnici totalitarnih režima shvaćamo kako takvi alati mogu biti upotrebljeni i za zlo, stoga je potrebno plagirati rad kako alati za provjeru autentičnosti nebi mogli otkriti i time ugroziti pravog autora.

Keywords: autorship; obfuscation; atribution; text

Uvod

Provjera plagijata je vrlo bitan i koristan proces koji može utvrditi izvor nekog rada te ga povezati s pravim autorom. Korištena u prave svrhe, u akademiji tjera studente da sami rade svoje radove i ne prepisuju od kolega dok u drugim slučajevima služi za autentikaciju autora teksta te detekciju promjene odnosno izvornosti teksta. Pomoču napredaka u tehnologijama strojnog učenja i neuronskih mreža, alati za provjeru plagijata došli su na vrlo visoku razinu preciznosti te ih je sve teže prevariti. To je na prvi pogled dobro jer ljudi ne mogu predstavljati tuđi rad kao svoj, no postoji također i slučaj u kojemu je poželjno da autori teksta ostanu anonimni. To su primjerice borci protiv totalitarnih režima ili zviždači koji bi mogli snositi teške posljedice u slučaju otkrivanja njihovog identiteta [3]. U ovakvim slučajevima bitno je znati ograničenja alata za provjeru te imati alate za efikasno plagiranje teksta.

U ovome radu obraditi će se princip detekcije plagirana i autorstva te razne metode plagiranja teksta, nekih sa ciljem čistog anonimiziranja autora te drugih sa ciljem prikrivanja same akcije plagiranja teksta te njihove prednosti i mane.

Detekcija plagiranja [1]

Svaki autor pišući svoj tekst u njemu ostavlja svoje stilometrične tragove. Oni su poput otisaka prsta ili DNA molekula prilično jedinstveni te u tekstu mjerljivi i predstavljaju određeni stil autora. Taj stil predstavljaju frekvencije i odnose pojedinih riječi u tekstu. Pri analizi takav tekst se smatra “glatkim” te u takvom slučaju sustav ne prepoznaje plagiranje jer ono ne postoji. Prilikom pokušaja namjerne promjene stila autor u svoj tekst unosi nepravilnosti u odnosima i frekvencijama riječi što znatno utječe na glatkoću teksta. Ovakav manualan pristup je prilično loš i gotovo nikada ne radi jer ljudi nisu sposobni svjesno se odmaknuti od svoga stila. Znatno efektivniji su alati no iako njihov produkt sakrije identitet autora također vrlo često toliko utječu na glatkoču da je ljudima teško takav tekst pročitati a alatima je vrlo lagano prepoznati da je došlo do plagiranja.

 Slika 1: Glatkoča teksta Slika 1: Glatkoča teksta (plavo: gladak tekst bez plagiranja, narančasto: tekst s plagiranjem)

Prvi korak u analizi plagijata je sama analiza teksta bazirana na nekom jezičnom modelu. Za analizu teksta potreban je jezični model koji u sebi sadrži frekvencije riječi te vjerojatnosti samih riječi. Za to se često koriste modeli GPT-2 i BERT. GPT-2 je jezični model tovorenog tipa zajednice Open AI. Izrađena je analizirajuči 45 milijuna vanjskih poveznica na platformi Reddit te je posebito dobra za predviđanje sljedeće riječi ovisno o kontekstu. BERT je jezični model tvrtke Google koji je treniran analizirajući članke na platformi Wikipedia te Google-ov book corpus set podataka. Za razliku od GPT-2, BERT razmatra bidirekcionalni kontekst riječi dok GPT-2 razmatra unidirekcionalni.

Zatim se prikupljene frekvencije i rangovi riječi koriste za rangiranje osobina teksta odnosno provjerava se glatkoća. To može biti napravljeno na više načina, razdvajanjem u kante (engl. binning) i slikovno. Razdvajanjem u kante razdvajaju se vjerojatnosti riječi u rangove različitih dimenzija, posebno za vjerojatnosti te posebno za rangove pri čemu onda svaka ta kanta sadrži proporciju ranga riječi te vjerojatnosti tog opsega. Pri slikovnoj analizi ti se podaci pretvaraju u sliku te se koriste metode za klasifikacije slika.

Na samome kraju se bira metoda klasifikacije.

Slika 2: sustav za detekciju plagiranja [1]

Metode prikrivanja plagiranja

Prikrivanje plagiranja podrazumjeva da osoba ne želi samo prikriti svoj identitet nego i prevariti sustav dovoljno da ne primjeti plagijat. Ove tehnike služe za prikrivanje identiteta autora ali i također kao primjer slabosti sustava za detekciju plagiranja koje se eventualno trebaju popraviti.

Alati za prikrivanje koriste jezične modele, isto kao i alati za detekciju. Ukoliko se koristi isti model za prikrivanje i detekciju onda je detekcija znatno lakša.

Metode temeljene na pravilima su efikasne u prikrivanju identiteta autora dok znatno utječu na “glatkoču” i čitkost teksta. Mogu samo parafrazirati tekst kako bi uklonile autorov stil u smislu najčešće korištenih riječi. Neke metode pokušavaju stilski pogoditi prosjek.

Prikrivanje plagiranja bazirano na pravilima

Prvi pristup [4]: Tekst se parafrazira tako da stil pisanja više ne odgovara originalnom autoru. Koraci:

  1. Određivanje učestalosti riječi
  2. Odabir jezičnog modela
  3. Generiranje sinonima
  4. Post procesiranje
  5. Zamjena riječi

Određivanje učestalosti riječi Uzima se neki drugi rad toga autora te se mjeri frekvencija pojedinih riječi. Odabire se najčešćih 200 riječi.

Odabir jezičnog modela Jezični model predstavlja vjerojatnost pojave riječi u nekome kontekstu, odnosno u okrugu drugih riječi. Može se koristiti već gotov model (spomenuti u poglavlju Detekcija plagiranja) ili stvoriti vlastiti. Jezični model se koristi u pri zadnjem koraku gdje prema njemu ocjenjujemo sinonime i riječi za zamjenu na način da na to mjeso stavimo vrlo vjerojatan sinonim.

Generiranje sinonima Kreira se podskup sinonima te se ocjenjuju Wu i Palmerovom [4] ocjenom sličnosti koja govori koliko su dvije riječi semantički slične uzimajuči u obzir i semantiku predhodne riječi.

Post procesiranje Sinonimi su u krivom jezičnom obliku te treba prilagoditi oblik riječi prema kontekstu u kojemu se nalazi

Zamjena riječi Zanji korak, zamjena određenog broja najčešćih riječi kako bi se prikrio originalan stil autora.

Drugi pristup [1]: Pojednostavnjenje dokumenta. Koraci:

  1. ako je broj skračenica veći od ne skračenoga teksta, zamjeni skračenice i dulji tekst (i obrato ako je obrnuta situacija)
  2. ukloni tekst u zagradama koji ne sadrži imena ni apozicije
  3. Zamjeni riječi sinonimima koji još nisu bili iskorišteni.

Složenije prikrivanje plagiranja

Metode bazirane na pravilima obave posao no istraživanja i eksperimentiranja su dovela do nešto složenijih rješenja i načina.

Mutant-X [5] Mutant-X je genetski algoritam (GAs) koji u kombinaciji sa sustavom za prepoznavanje pronalazi riječi koje bi pri promjeni davale najveći utjecaj prikrivanja [1]. Kako je sustav za detekciju plagiranja zapravo crna kutija ovaj genetski algoritam ga baš na taj način koristi kao funkciju vrednovanja u kombinaciji sa semantikom prikrivenog plagiranog teksta. Na taj način vrlo brzo može doći do rješenja i pronači ispravan set promjena potrebnih za prikrivanje autora. To je već gotov alat koji je vrlo jednostavan i radi na povečim dokumentima, stoga bi bilo tko mogao ovaj alat iskoristiti.

Zaključak

Proučavanje tehnika prikrivanja plagiranja je korisno iz dva bitna razloga. Prvi je pronalazak grešaka i unapređenje trenutnih sustava za detekciju plagiranja dok je drugi zaštita privatnosti i anonimnosti za zviždače, novinare i borce za pravdu. Tehnike prikrivanja podosta kaskaju za alatima za detekciju te ono što je za sada definitivno moguče je ostati anoniman, no sama anonimnost možda nije posve dovoljna.

Literatura

[1] Asad Mahmood, Zubair Shafiq, and Padmini Srinivasan. A Girl Has A Name: Detecting Authorship Obfuscation. University of Iowa, 2020.

[2] Janek Bevendorff, Martin Potthast, Matthias Hagen, and Benno Stein. Heuristic Authorship Obfuscation. Association for Computational Linguistrics, 2019.

[3] Anonymous. I Am Part of the Resistance Inside the Trump Administration. New York Times, 2018.

[4] Muharram Mansoorizadeh, Taher Rahgooy,Mohammad Aminiyan, Mahdy Eskandari. Author obfuscation using WordNet and language models Notebook for PAN, CLEF 2016.

[5] Asad Mahmood 1 , Faizan Ahmad 2 , Zubair Shafiq 3 , Padmini Srinivasan 4 , and Fareed Zaffar. A Girl Has No Name: Automated Authorship Obfuscation using Mutant-X . University of Iowa, 2019.