Starije izmjene na obje strane
Starija izmjena
Novija izmjena
|
Starija izmjena
|
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2021/01/17 14:08] ksikic [Povratni prijevod (eng. Back Translation)] |
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2024/12/05 12:24] (trenutno) |
Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, može se koristiti u zlonamjerne svrhe kao što su lažne recenzije. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za njegovo prepoznavanje temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje, modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu. Navedenih pet tehnika obrađene su u ovom seminaru. Usporedbom rezultata evaluacije tih tehnika zaključuje se kako tehnika povratnog prijevoda najbolja, a slijedi ju tehnika N-grama. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike, razloge njihova korištenja i provedbu. | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, može se koristiti u zlonamjerne svrhe kao što su lažne recenzije. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za njegovo prepoznavanje temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje, modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu. Navedenih pet tehnika obrađene su u ovom seminaru. Usporedbom rezultata evaluacije tih tehnika zaključuje se kako tehnika povratnog prijevoda najbolja, a slijedi ju tehnika N-grama. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike, razloge njihova korištenja i provedbu. |
==== Uvod ==== | ==== Uvod ==== |
Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer, plagijarizam i lažne recenzije. Nedavni uspjeh i širenje sustava za strojno prevođenje teksta budi zanimanje, ali i mnoga važna pitanja. Najistaknutija među pitanjima vezana su za efikasnu evaluaciju kvalitete takvog sustava te kako otkriti izlaz tih sustava kako bi se, na primjer, izbjegla kružna uporaba izlaza kao ulaz u isti sustav ili korištenje strojno prevedenog teksta u zlonamjerne svrhe. Mnogi su istraživači zainteresirani za otkrivanje strojno prevedenog tekst. Najčešće metode za otkrivanje strojno prevedenog teksta temelje se na modelu N-grama (Aharoni i sur., 2014 .; Arase i Zhou, 2013 .; Nguyen-Son i Echizen, 2017) za mjerenje fluentnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje kako bi se prepoznali strojno generirani tekstovi (Li i sur., 2015.), model temeljen na koherentnosti, model temeljen nadistribuciji riječi te model temeljen na povratnom prijevodu (eng. Back Translation, Nguyen-Son i sur., 2019.) Ovaj će se seminarski rad fokusirati na navedenih pet tehnika od kojih će svaku pojedinačno objasniti u narednim poglavljima te ih nakon toga usporediti. | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer, plagijarizam i lažne recenzije. Nedavni uspjeh i širenje sustava za strojno prevođenje teksta budi zanimanje, ali i mnoga važna pitanja. Najistaknutija među njima vezana su za efikasnu evaluaciju kvalitete takvog sustava te kako otkriti izlaz tih sustava kako bi se, na primjer, izbjegla kružna uporaba izlaza kao ulaz u isti sustav ili korištenje strojno prevedenog teksta u zlonamjerne svrhe. Mnogi su istraživači zainteresirani za otkrivanje strojno prevedenog teksta. Najčešće metode za otkrivanje strojno prevedenog teksta temelje se na modelu N-grama (Aharoni i sur., 2014 .; Arase i Zhou, 2013 .; Nguyen-Son i Echizen, 2017) za mjerenje fluentnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje kako bi se prepoznali strojno generirani tekstovi (Li i sur., 2015.), modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu (Nguyen-Son i sur., 2019.). Ovaj će se seminarski rad fokusirati na navedenih pet tehnika prepoznavanja strojno prevedenog teksta od kojih će svaku pojedinačno objasniti u narednim poglavljima, tehnike koje se češće koriste i daju bolje rezultate kao što su model N-grama i model povratnog prijevoda bit će detaljnije objašnjene. Prije toga objasnit će se što je točno strojno prevedeni tekst. |
| |
====Strojno prevedeni tekst==== | ====Strojno prevedeni tekst==== |
| |
Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bismo što lakše uočili strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica. | Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica iz koje se može vidjeti različitost prijevoda ovisno o strojnom prevoditelju. |
| |
Tablica 1: | Tablica 1: |
N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", "i također * i"). Za ovakav se model koristi n-gram koji se sastoji od riječi ili interpunkcijskih zakova, a ne svakog znaka zasebno. S druge strane, postoji model koji kombinira POS (Part of speech) n-gram model s funkcionalnim riječima, koje se obilno javljaju se u strojno prevedenom tekstu. Također model gdje je integriran n-gram model riječi sa značajkama šuma za otkrivanje prijevoda na porukama društvenih mreža. Takva se specifična obilježja često javljaju u ljudskim porukama kao što su pravopisne pogreške, riječi zapisane kako se izgovaraju, kratice i sl. ili u strojnim porukama, na primjer, neprevedene riječi. Međutim, ti se šumovi češće pojavljuju u porukama društvenih mreža nego u dokumentima ili igdje drugdje. | N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", "i također * i"). Za ovakav se model koristi n-gram koji se sastoji od riječi ili interpunkcijskih zakova, a ne svakog znaka zasebno. S druge strane, postoji model koji kombinira POS (Part of speech) n-gram model s funkcionalnim riječima, koje se obilno javljaju se u strojno prevedenom tekstu. Također model gdje je integriran n-gram model riječi sa značajkama šuma za otkrivanje prijevoda na porukama društvenih mreža. Takva se specifična obilježja često javljaju u ljudskim porukama kao što su pravopisne pogreške, riječi zapisane kako se izgovaraju, kratice i sl. ili u strojnim porukama, na primjer, neprevedene riječi. Međutim, ti se šumovi češće pojavljuju u porukama društvenih mreža nego u dokumentima ili igdje drugdje. |
| |
Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na Kullback-Leiblerovoj divergenciju između raspodjele n-grama za svaku klasu i pomoću nje procijenjeno je koji n-grami su najkarakterističniji za svaki izvorni jezik. U matematičkoj statistici, Kullback-Leiblerova divergencija, (koja se naziva i relativna entropija) mjera je kako se jedna raspodjela vjerojatnosti razlikuje od druge, referentne raspodjele vjerojatnosti. | Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na temelju Kullback-Leiblerove divergencije između raspodjele n-grama za svaku klasu i pomoću nje procijenjeno je koji n-grami su najkarakterističniji za svaki izvorni jezik. U matematičkoj statistici, Kullback-Leiblerova divergencija, (koja se naziva i relativna entropija) mjera je kako se jedna raspodjela vjerojatnosti razlikuje od druge, referentne raspodjele vjerojatnosti. |
| |
==Primjer== | ==Primjer== |
| |
==== Stablo za raščlanjivanje (eng. Parsing tree) ==== | ==== Stablo za raščlanjivanje (eng. Parsing tree) ==== |
Stabla za raščlanjivanje Li i sur. (2015) koristili su sintaksmo stablo raščlanjivanja za klasifikaciju rečenica čovjeka i stroja. Tvrde da je struktura ljudskog raščlanjivanja uravnoteženija od strukture raščlanjivanja stroja. *Tako su izvukli značajke temeljene na uravnoteženju kao što je omjer između lijevog i desnog čvora i na općem i na glavnom kontinentu.* Ograničenje ovog pristupa je u tome što zanemaruje semantičko značenje teksta. | |
| Sintaksno stablo raščlanjivanja koristi se za klasifikaciju rečenica čovjeka i stroja. Struktura ljudskog raščlanjivanja uravnoteženija je od strukture raščlanjivanja stroja što je glavna motivacija za korištenje ove tehnike. Vrlo važna vrsta jezičnih obilježja je izravno povezana sa sintaktičkom strukturom rečenice. Na raščlanjeno stablo rečenice možemo iskoristiti niz dostupnih svojstava, kao što su struktura rečenica i gustoća sastavnih vrsta (imenice, glagoli i sl.) te tako dizajnirati potrebne značajke. Dobivene značajke temeljene su na uravnoteženosti omjera između lijevog i desnog čvora i na podstablu i na glavnom stablu koje zatim koristimo za predikciju radi li se o strojno prevedenom tekstu ili o tekstu koji je napisao čovjek. Ograničenje ovog pristupa je u tome što zanemaruje semantičko značenje teksta. |
==== Distribucija riječi ==== | ==== Distribucija riječi ==== |
Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovom zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Nguyen-Son i suradnici (2017) koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. | |
| Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovim zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Strojno prevedeni tekst nema ovakvo obilježje te zbog navedenog dolazi do ideje korištenja distribucije riječi kao alata za klasifikaciju između teksta koji je napisao čovjek i strojno prevedenog teksta. Nguyen-Son i suradnici u radu iz 2017. koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ispostavilo se da ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. U kraćim tekstovima dolazi do nestabilnosti distribucije riječi i ovaj pristup ne daje dobre rezultate. |
| |
| |
==== Koherentnost ==== | ==== Koherentnost ==== |
Iako strojno prevedeni tekst može sačuvati značenje, koherentnost takvog teksta još uvijek je niska. Neki su istraživači mjerili koherentnost kako bi razlikovali strojni tekst od teksta koji je napisao čovjek. Na primjer, Nguyen-Son i sur. (2018) uočili su podudaranje između sličnih riječi dvije rečenice u istom ulomku odlomku. Sličnost dviju podudarnih riječi koristi se za procjenu koherentnosti. U drugom radu, Nguyen-Son i sur. (2019.) proširio je potragu za podudaranjem na podudaranje u bilo kojim riječima u odlomku i unutar i izvan istih rečenica. Međutim, koherentnost je jača u istom odlomku, ali je niža na drugim razinama kao što su rečenica i dokument. | Iako strojno prevedeni tekst može sačuvati značenje, koherentnost takvog teksta još uvijek je niska. Neki su istraživači mjerili koherentnost kako bi razlikovali strojni tekst od teksta koji je napisao čovjek. Na primjer, Nguyen-Son i suradnici u članku iz 2018. uočili su podudaranje između sličnih riječi dvije rečenice u istom odlomku teksta. Sličnost dviju podudarnih riječi koristi se za procjenu koherentnosti. U drugom radu, Nguyen-Sona i suradnika iz 2019. proširena je potragu za podudaranjem na podudaranje u bilo kojim riječima u odlomku i unutar i izvan istih rečenica. Međutim, koherentnost je jača u istom odlomku, ali je niža na drugim razinama kao što su rečenica i cijeli dokument. Zbog navedenih nedostataka modela koji se temelji na koherentnosti teksta on nije primjenjiv na širok skup tekstova. |
====Povratni prijevod (eng. Back Translation) ==== | ====Povratni prijevod (eng. Back Translation) ==== |
| |
Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelj. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijenosa pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje. | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijevoda pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje. |
| |
===Postupak=== | ===Postupak=== |
| |
[8] Machine Translation, Wikipedia, 2021. [[https://en.wikipedia.org/wiki/Machine_translation]] | [8] Machine Translation, Wikipedia, 2021. [[https://en.wikipedia.org/wiki/Machine_translation]] |
| |
| [9] Li, Y., Wang, L., Zhao, H., A machine |
| learning method to distinguish machine translation |
| from human translation, 2015. [[https://www.aclweb.org/anthology/Y15-2041.pdf]] |