Starije izmjene na obje strane
Starija izmjena
Novija izmjena
|
Starija izmjena
|
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2021/01/17 14:40] ksikic [Koherentnost] |
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2024/12/05 12:24] (trenutno) |
Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, može se koristiti u zlonamjerne svrhe kao što su lažne recenzije. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za njegovo prepoznavanje temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje, modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu. Navedenih pet tehnika obrađene su u ovom seminaru. Usporedbom rezultata evaluacije tih tehnika zaključuje se kako tehnika povratnog prijevoda najbolja, a slijedi ju tehnika N-grama. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike, razloge njihova korištenja i provedbu. | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, može se koristiti u zlonamjerne svrhe kao što su lažne recenzije. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za njegovo prepoznavanje temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje, modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu. Navedenih pet tehnika obrađene su u ovom seminaru. Usporedbom rezultata evaluacije tih tehnika zaključuje se kako tehnika povratnog prijevoda najbolja, a slijedi ju tehnika N-grama. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike, razloge njihova korištenja i provedbu. |
==== Uvod ==== | ==== Uvod ==== |
Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer, plagijarizam i lažne recenzije. Nedavni uspjeh i širenje sustava za strojno prevođenje teksta budi zanimanje, ali i mnoga važna pitanja. Najistaknutija među njima vezana su za efikasnu evaluaciju kvalitete takvog sustava te kako otkriti izlaz tih sustava kako bi se, na primjer, izbjegla kružna uporaba izlaza kao ulaz u isti sustav ili korištenje strojno prevedenog teksta u zlonamjerne svrhe. Mnogi su istraživači zainteresirani za otkrivanje strojno prevedenog tekst. Najčešće metode za otkrivanje strojno prevedenog teksta temelje se na modelu N-grama (Aharoni i sur., 2014 .; Arase i Zhou, 2013 .; Nguyen-Son i Echizen, 2017) za mjerenje fluentnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje kako bi se prepoznali strojno generirani tekstovi (Li i sur., 2015.), modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu (Nguyen-Son i sur., 2019.). Ovaj će se seminarski rad fokusirati na navedenih pet tehnika prepoznavanja strojno prevedenog teksta od kojih će svaku pojedinačno objasniti u narednim poglavljima, tehnike koje se češće koriste i daju bolje rezultate kao što su model N-grama i model povratnog prijevoda bit će detaljnije objašnjene. Prije toga objasnit će se što je točno strojno prevedeni tekst. | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer, plagijarizam i lažne recenzije. Nedavni uspjeh i širenje sustava za strojno prevođenje teksta budi zanimanje, ali i mnoga važna pitanja. Najistaknutija među njima vezana su za efikasnu evaluaciju kvalitete takvog sustava te kako otkriti izlaz tih sustava kako bi se, na primjer, izbjegla kružna uporaba izlaza kao ulaz u isti sustav ili korištenje strojno prevedenog teksta u zlonamjerne svrhe. Mnogi su istraživači zainteresirani za otkrivanje strojno prevedenog teksta. Najčešće metode za otkrivanje strojno prevedenog teksta temelje se na modelu N-grama (Aharoni i sur., 2014 .; Arase i Zhou, 2013 .; Nguyen-Son i Echizen, 2017) za mjerenje fluentnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje kako bi se prepoznali strojno generirani tekstovi (Li i sur., 2015.), modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu (Nguyen-Son i sur., 2019.). Ovaj će se seminarski rad fokusirati na navedenih pet tehnika prepoznavanja strojno prevedenog teksta od kojih će svaku pojedinačno objasniti u narednim poglavljima, tehnike koje se češće koriste i daju bolje rezultate kao što su model N-grama i model povratnog prijevoda bit će detaljnije objašnjene. Prije toga objasnit će se što je točno strojno prevedeni tekst. |
====Strojno prevedeni tekst==== | ====Strojno prevedeni tekst==== |
| |
Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica iz koje se može vidjeti različitost prijevoda ovisno o prevoditelju. | Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica iz koje se može vidjeti različitost prijevoda ovisno o strojnom prevoditelju. |
| |
Tablica 1: | Tablica 1: |
N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", "i također * i"). Za ovakav se model koristi n-gram koji se sastoji od riječi ili interpunkcijskih zakova, a ne svakog znaka zasebno. S druge strane, postoji model koji kombinira POS (Part of speech) n-gram model s funkcionalnim riječima, koje se obilno javljaju se u strojno prevedenom tekstu. Također model gdje je integriran n-gram model riječi sa značajkama šuma za otkrivanje prijevoda na porukama društvenih mreža. Takva se specifična obilježja često javljaju u ljudskim porukama kao što su pravopisne pogreške, riječi zapisane kako se izgovaraju, kratice i sl. ili u strojnim porukama, na primjer, neprevedene riječi. Međutim, ti se šumovi češće pojavljuju u porukama društvenih mreža nego u dokumentima ili igdje drugdje. | N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", "i također * i"). Za ovakav se model koristi n-gram koji se sastoji od riječi ili interpunkcijskih zakova, a ne svakog znaka zasebno. S druge strane, postoji model koji kombinira POS (Part of speech) n-gram model s funkcionalnim riječima, koje se obilno javljaju se u strojno prevedenom tekstu. Također model gdje je integriran n-gram model riječi sa značajkama šuma za otkrivanje prijevoda na porukama društvenih mreža. Takva se specifična obilježja često javljaju u ljudskim porukama kao što su pravopisne pogreške, riječi zapisane kako se izgovaraju, kratice i sl. ili u strojnim porukama, na primjer, neprevedene riječi. Međutim, ti se šumovi češće pojavljuju u porukama društvenih mreža nego u dokumentima ili igdje drugdje. |
| |
Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na Kullback-Leiblerovoj divergenciju između raspodjele n-grama za svaku klasu i pomoću nje procijenjeno je koji n-grami su najkarakterističniji za svaki izvorni jezik. U matematičkoj statistici, Kullback-Leiblerova divergencija, (koja se naziva i relativna entropija) mjera je kako se jedna raspodjela vjerojatnosti razlikuje od druge, referentne raspodjele vjerojatnosti. | Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na temelju Kullback-Leiblerove divergencije između raspodjele n-grama za svaku klasu i pomoću nje procijenjeno je koji n-grami su najkarakterističniji za svaki izvorni jezik. U matematičkoj statistici, Kullback-Leiblerova divergencija, (koja se naziva i relativna entropija) mjera je kako se jedna raspodjela vjerojatnosti razlikuje od druge, referentne raspodjele vjerojatnosti. |
| |
==Primjer== | ==Primjer== |
==== Distribucija riječi ==== | ==== Distribucija riječi ==== |
| |
Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovom zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Strojno prevedeni tekst nema ovakvo obilježje te zbog navedenog dolazi do ideje korištenja distribucije riječi kao alata za klasifikaciju između teksta koji je napisao čovjek i strojno prevedenog teksta. Nguyen-Son i suradnici u radu iz 2017. koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ispostavilo se da ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. U kraćim tekstovima dolazi do nestabilnosti distribucije riječi i ovaj pristup ne daje dobre rezultate. | Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovim zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Strojno prevedeni tekst nema ovakvo obilježje te zbog navedenog dolazi do ideje korištenja distribucije riječi kao alata za klasifikaciju između teksta koji je napisao čovjek i strojno prevedenog teksta. Nguyen-Son i suradnici u radu iz 2017. koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ispostavilo se da ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. U kraćim tekstovima dolazi do nestabilnosti distribucije riječi i ovaj pristup ne daje dobre rezultate. |
| |
| |
====Povratni prijevod (eng. Back Translation) ==== | ====Povratni prijevod (eng. Back Translation) ==== |
| |
Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelj. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijenosa pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje. | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijevoda pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje. |
| |
===Postupak=== | ===Postupak=== |