Sadržaj

Tehnike automatskog prepoznavanja strojno prevedenog teksta

Sažetak

Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, može se koristiti u zlonamjerne svrhe kao što su lažne recenzije. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za njegovo prepoznavanje temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje, modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu. Navedenih pet tehnika obrađene su u ovom seminaru. Usporedbom rezultata evaluacije tih tehnika zaključuje se kako tehnika povratnog prijevoda najbolja, a slijedi ju tehnika N-grama. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike, razloge njihova korištenja i provedbu.

Uvod

Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer, plagijarizam i lažne recenzije. Nedavni uspjeh i širenje sustava za strojno prevođenje teksta budi zanimanje, ali i mnoga važna pitanja. Najistaknutija među njima vezana su za efikasnu evaluaciju kvalitete takvog sustava te kako otkriti izlaz tih sustava kako bi se, na primjer, izbjegla kružna uporaba izlaza kao ulaz u isti sustav ili korištenje strojno prevedenog teksta u zlonamjerne svrhe. Mnogi su istraživači zainteresirani za otkrivanje strojno prevedenog teksta. Najčešće metode za otkrivanje strojno prevedenog teksta temelje se na modelu N-grama (Aharoni i sur., 2014 .; Arase i Zhou, 2013 .; Nguyen-Son i Echizen, 2017) za mjerenje fluentnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje kako bi se prepoznali strojno generirani tekstovi (Li i sur., 2015.), modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu (Nguyen-Son i sur., 2019.). Ovaj će se seminarski rad fokusirati na navedenih pet tehnika prepoznavanja strojno prevedenog teksta od kojih će svaku pojedinačno objasniti u narednim poglavljima, tehnike koje se češće koriste i daju bolje rezultate kao što su model N-grama i model povratnog prijevoda bit će detaljnije objašnjene. Prije toga objasnit će se što je točno strojno prevedeni tekst.

Strojno prevedeni tekst

Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica iz koje se može vidjeti različitost prijevoda ovisno o strojnom prevoditelju.

Tablica 1:

Strojni prevoditelj Primjer
Google Translate These days, all but one were subject to a vote, and all had a direct link to the post September 11th.”
Moses these days , except one were the subject of a vote , and all had a direct link with the after 11 September .”
SystranFrom these days, all except one were the object of a vote, and all were connected a direct link with after September 11th.”
LinguatecOf these days, all except one were making the object of a vote and all had a straightforward tie with after September 11.”
ProMTThese days, very safe one all made object a vote, and had a direct link with after September 11th.”
TridentFrom these all days, except one operated object voting, and all had a direct rope with after 11 septembre.”
SkycodeIn these days, all safe one made the object in a vote and all had a direct connection with him after 11 of September.”

N-gram model

N-gram je odsječak duljeg niza s n znakova. Taj pojam može uključivati bilo koji skup istovremenih znakova u nizu (npr. n-gram sastavljen od prvog i trećeg znaka riječi). Tipično se niz razreže u skup n-grama koji se preklapaju. Može se koristiti n-grame nekoliko različitih duljina istovremeno. Također se dodaju praznine na početak i završetak niza kako bi podudaranje s početka i završetka riječi bilo uočeno.

N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i “, ” više * nego “) uspoređujući s netipičnim uzorcima strojeva (npr., “nakon * nakon”, “i također * i”). Za ovakav se model koristi n-gram koji se sastoji od riječi ili interpunkcijskih zakova, a ne svakog znaka zasebno. S druge strane, postoji model koji kombinira POS (Part of speech) n-gram model s funkcionalnim riječima, koje se obilno javljaju se u strojno prevedenom tekstu. Također model gdje je integriran n-gram model riječi sa značajkama šuma za otkrivanje prijevoda na porukama društvenih mreža. Takva se specifična obilježja često javljaju u ljudskim porukama kao što su pravopisne pogreške, riječi zapisane kako se izgovaraju, kratice i sl. ili u strojnim porukama, na primjer, neprevedene riječi. Međutim, ti se šumovi češće pojavljuju u porukama društvenih mreža nego u dokumentima ili igdje drugdje.

Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na temelju Kullback-Leiblerove divergencije između raspodjele n-grama za svaku klasu i pomoću nje procijenjeno je koji n-grami su najkarakterističniji za svaki izvorni jezik. U matematičkoj statistici, Kullback-Leiblerova divergencija, (koja se naziva i relativna entropija) mjera je kako se jedna raspodjela vjerojatnosti razlikuje od druge, referentne raspodjele vjerojatnosti.

Primjer

Tablica 2: Najčešći n-grami u originalnim dokumentima na engleskom jeziku i dokumentima prevedenim na engleski jezik

Engleski originalni dokumenti Francuski originalni dokumenti
couple of of the
alliance ) mr .
a couple , the
do that in the
, canadian to the
the record , i
forward to . the
, cpc ) :
cpc ) speaker ,
of us . i
this country : mr
this particular , and
many of . speaker
canadian alliance bq )

U tablici 2 prikazani su najčešći n-grami u originalnim dokumentima na engleskom jeziku i dokumentima prevedenim sa francuskog na engleski jezik. Za prepoznavanje strojno prevedenog teksta zanimljiv može biti primjer „a couple of“ (kombinacija prvog i trećeg retka u tablici). On je vrlo indikativan za originalni engleski tekst jer ga često koriste govornici engleskog jezika, a, pošto nema izravnog ekvivalneta u francuskom jeziku, rijetko se pronalazi u prijevodima sa francuskog na engleski jezik.

Stablo za raščlanjivanje (eng. Parsing tree)

Sintaksno stablo raščlanjivanja koristi se za klasifikaciju rečenica čovjeka i stroja. Struktura ljudskog raščlanjivanja uravnoteženija je od strukture raščlanjivanja stroja što je glavna motivacija za korištenje ove tehnike. Vrlo važna vrsta jezičnih obilježja je izravno povezana sa sintaktičkom strukturom rečenice. Na raščlanjeno stablo rečenice možemo iskoristiti niz dostupnih svojstava, kao što su struktura rečenica i gustoća sastavnih vrsta (imenice, glagoli i sl.) te tako dizajnirati potrebne značajke. Dobivene značajke temeljene su na uravnoteženosti omjera između lijevog i desnog čvora i na podstablu i na glavnom stablu koje zatim koristimo za predikciju radi li se o strojno prevedenom tekstu ili o tekstu koji je napisao čovjek. Ograničenje ovog pristupa je u tome što zanemaruje semantičko značenje teksta.

Distribucija riječi

Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovim zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Strojno prevedeni tekst nema ovakvo obilježje te zbog navedenog dolazi do ideje korištenja distribucije riječi kao alata za klasifikaciju između teksta koji je napisao čovjek i strojno prevedenog teksta. Nguyen-Son i suradnici u radu iz 2017. koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ispostavilo se da ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. U kraćim tekstovima dolazi do nestabilnosti distribucije riječi i ovaj pristup ne daje dobre rezultate.

Koherentnost

Iako strojno prevedeni tekst može sačuvati značenje, koherentnost takvog teksta još uvijek je niska. Neki su istraživači mjerili koherentnost kako bi razlikovali strojni tekst od teksta koji je napisao čovjek. Na primjer, Nguyen-Son i suradnici u članku iz 2018. uočili su podudaranje između sličnih riječi dvije rečenice u istom odlomku teksta. Sličnost dviju podudarnih riječi koristi se za procjenu koherentnosti. U drugom radu, Nguyen-Sona i suradnika iz 2019. proširena je potragu za podudaranjem na podudaranje u bilo kojim riječima u odlomku i unutar i izvan istih rečenica. Međutim, koherentnost je jača u istom odlomku, ali je niža na drugim razinama kao što su rečenica i cijeli dokument. Zbog navedenih nedostataka modela koji se temelji na koherentnosti teksta on nije primjenjiv na širok skup tekstova.

Povratni prijevod (eng. Back Translation)

Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijevoda pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje.

Postupak

Korak 1 – Generiranje povratnog prijevoda

Koristi se strojni prevoditelj za generiranje povratnog prijevoda ulaznog teksta. Ulazni tekst na izvornom jeziku preveden je u posrednički jezik, koji je drugačiji od izvornog. Prevedena verzija je zatim ponovno preveden na izvorni jezik. Konačni prijevod naziva se povratni prijevod.

Primjer:

Tablica 3: Tekst koji je napisao čovjek (h0) usporedno s tekstom koji je strojno preveden (m2) - povratno prevođenje

𝒎𝟎 ′ (English)=𝒉𝟎 ′ : “One of the best examples of how to treat a subject, you're not fully aware is being examined, much like a photo of yourself you didn't know was being taken
𝒎𝟏 ′ (Japanese): “被写体をどのように扱う かの最も良い例の1つは、あなたが完全に 気付いていないということです。”
𝒉𝟎 ′ (English)=𝒎𝟎 ′ : “One of the best examples of how to treat a subject, you're not fully aware is being examined, much like a photo of yourself you didn't know was being taken 𝒎𝟐 ′ (English): “One of the best examples of how to deal with the subject is that you are not completely aware.”
𝒉𝟏 ′ (Chinese): “关于如何治疗某个主题的最好例 子之一,你还没有完全清楚地被检查,就像你 自己不知道的照片一样。” 𝒎𝟑 ′ (Chinese): “如何处理这个问题的最好例 子之一是你并不完全清楚。”
𝒉𝟐 ′ (English): “One of the best examples of how to treat a topic is that you have not been completely examined, just like a photo you don't know.” 𝒎𝟒 ′ (English): “One of the best examples of how to deal with this problem is that you are not completely clear.”

U tablici 3. prikazan je povratni prijevod za tekst koji je napisao čovjek h0 i strojno prevedeni tekst m3 iz teksta m0 koji je napisao čovjek. Iako je tekst m0 preveden četiri puta koristeći dva različita posrednička jezika, a tekst h0 preveden samo dva puta koristeći jedan posrednički jezik, tekst m4 pokazuje manje promjena u odnosu na tekst h2.

Korak 2 – Izračun sličnosti

Sličnost između ulaznog teksta i teksta dobivenog povratnim prevođenjem mjerena je BLEU ocjenom. Rezultati istraživanja pokazuju da je BLEU ocjena viša između strojno prevedenih tekstova i njihovih povratnih prijevoda u odnosu na tekstove koje je čovjek pisao i njihovih povratnih prijevoda. Dokazuje se da što je više puta korišten prevoditelj, ocjena je veća, odnosno veća je sličnost. Te značajne informacije mogu se koristiti za razlikovanje ljudskog i strojno prevedenog teksta.

Korak 3 – Klasifikacija ulaza

Ocjena sličnosti koristi se za određivanje je li ulazni tekst izlaz strojnog prevoditelja ili ga je napisao čovjek. Ocjene dobivene u drugom koraku ulaze u klasifikator kako bi se utvrdilo je li ulazni tekst strojno preveden ili ne.

Usporedba

Prethodno navedene i objašnjene tehnike automatskog prepoznavanja strojno prevedenog teksta uspoređene su na istom skupu podataka i njihovi rezultati prikazani su u tablici 4. Kao mjera uspješnosti klasifikacije odnosno automatskog prepoznavanja strojno prevedenog teksta korištene su točnost i F1 mjera. U svrhu evaluacije modela u prepoznavanju strojno prevedenog teksta koristile su se četiri vrijednosti za procjenu performansi naučena modela: broj ispravno pozitivnih (eng. true positives, kraće: TP), broj ispravno negativnih (eng. true negatives, kraće: TN), broj neispravno pozitivnih (eng. false positives, kraće: FP) i broj neispravno negativnih klasifikacija (eng. false negatives, kraće: FN). Točnost je metrika za procjenu klasifikacijskih modela. Neformalno je točnost dio predviđanja koja je model ispravno klasificirao. Formalno, točnost ima sljedeću definiciju:

           formula 1:
                          Točnost = (Broj točnih predikcija)/(Ukupan broj predikcija)
                            

Za binarnu klasifikaciju izraženo koristeći pozitivne i negativne vrijednosti, odnosno pripada li klasi strojno prevedenog teksta ili ne, točnost može biti izražena sljedećom formulom:

           formula 2:
                          Točnost = (TP+TN)/(TP+TN+FT+FN)
                            

Diceov koeficijent sličnosti, poznat i pod nazivom F1-mjera, definiran je formulom (3). F1 mjera predstavlja harmonijsku sredinu preciznosti i odziva za odabrani razred.

           formula 3:
                          F1 = (2×TP)/(2×TP+FP+FN)
                            

Tablica 4:

Tehnika Točnost F1-mjera
Distribucija riječi 53.4%52.9%
Koherentnost 54.0%50.4%
Stablo za raščlanjivanje 54.5%54.0%
N-gram 57.9%54.3%
Povratni prijevod 73.9%73.9%

Usporedbom rezultata evaluacije različitih tehnika automatskog prepoznavanja strojno prevedenog teksta možemo zaključiti kako tehnika povratnog prijevoda nadmašuje sve ostale metode sa značajnim poboljšanjima i točnosti i F1-mjere. Ova je tehnika najnovija i izgrađena je od strane istih istraživača koji su godinama unatrag radili na ostalim navedenih tehnikama. Prije predlaganja i osmišljanja ove tehnike vodeća korištena tehnika bila je tehnika N-grama zbog njenih rezultata koji su vidljivi u tablici 4. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike.

Zaključak

Sve je veći interes za strojno prevedeni tekst odnosno prepoznavanje istog radi njegovog sve učestalijeg korištenja u dobre, ali i loše svrhe. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za otkrivanje strojno prevedenog teksta temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje kako bi se prepoznali strojno generirani tekstovi, modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu. Navedenih pet tehnika obrađene su u ovom seminaru. Usporedbom rezultata evaluacije različitih tehnika automatskog prepoznavanja strojno prevedenog teksta zaključuje se kako tehnika povratnog prijevoda nadmašuje sve ostale metode. Prije predlaganja i osmišljanja ove tehnike vodeća korištena tehnika bila je tehnika N-grama. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike, razloge njihova korištenja i provedbu.

Popis literature

[1] Nguyen-Son, H., Phuong Thao,T. , Hidano, S. , Kiyomoto, S., Detecting Machine-Translated Text using Back Translation, 2019. https://arxiv.org/abs/1910.06558

[2] Aharoni, R.,Koppel, M.,Goldberg, Y., Automatic Detection of Machine Translated Text and Translation Quality Estimation, 2014. https://www.researchgate.net/publication/270878373_Automatic_Detection_of_Machine_Translated_Text_and_Translation_Quality_Estimation

[3] Lembersky, G., Ordan, N., Wintner, S.,Language Models for Machine Translation: Original vs. Translated Texts, 2011. https://www.aclweb.org/anthology/D11-1034/

[4] Kurokawa,D., Goutte, C., Isabelle, P., Automatic Detection of Translated Text and its Impact on Machine Translation, 2009. http://www.cs.cmu.edu/~dkurokaw/publications/MTS-2009-Kurokawa.pdf

[5] Arase, Y., Zhou, M., Machine translation detection from monolingual web-text, 2013. https://www.aclweb.org/anthology/P13-1157/

[6] Lioma, C., Keith van Rijsbergen, C.J., Part of speech n-grams and Information Retrieval, 2008. https://www.cairn.info/revue-francaise-de-linguistique-appliquee-2008-1-page-9.htm

[7] Smruti Tahasildar, Language detection and translation using n-gram and statistical machine translation approach, 2015. https://www.ijream.org/papers/INJRV01I03005.pdf

[8] Machine Translation, Wikipedia, 2021. https://en.wikipedia.org/wiki/Machine_translation

[9] Li, Y., Wang, L., Zhao, H., A machine learning method to distinguish machine translation from human translation, 2015. https://www.aclweb.org/anthology/Y15-2041.pdf