Razlike

Slijede razlike između dviju inačica stranice.

--- racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2021/01/17 14:07]
ksikic [Strojno prevedeni tekst]
+++ racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2024/12/05 12:24] (trenutno)
@@ Redak 5: / Redak 5: @@
 Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, može se koristiti u zlonamjerne svrhe kao što su lažne recenzije. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za njegovo prepoznavanje temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje, modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu. Navedenih pet tehnika obrađene su u ovom seminaru. Usporedbom rezultata evaluacije tih tehnika zaključuje se kako tehnika povratnog prijevoda najbolja, a slijedi ju tehnika N-grama. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike, razloge njihova korištenja i provedbu.
 ==== Uvod ====
-Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer,  plagijarizam i lažne recenzije. Nedavni uspjeh i širenje sustava za strojno prevođenje teksta budi zanimanje, ali i mnoga važna pitanja. Najistaknutija među pitanjima vezana su za efikasnu evaluaciju kvalitete takvog sustava te kako otkriti izlaz tih sustava kako bi se, na primjer, izbjegla kružna uporaba izlaza kao ulaz u isti sustav ili korištenje strojno prevedenog teksta u zlonamjerne svrhe. Mnogi su istraživači zainteresirani za otkrivanje strojno prevedenog tekst. Najčešće metode za otkrivanje strojno prevedenog teksta temelje se na modelu N-grama (Aharoni i sur., 2014 .; Arase i Zhou, 2013 .; Nguyen-Son i Echizen, 2017) za mjerenje fluentnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje kako bi se prepoznali strojno generirani tekstovi (Li i sur., 2015.), model temeljen na koherentnosti, model temeljen nadistribuciji riječi te model temeljen na povratnom prijevodu (eng. Back Translation, Nguyen-Son i sur., 2019.) Ovaj će se seminarski rad fokusirati na navedenih pet tehnika od kojih će svaku pojedinačno objasniti u narednim poglavljima te ih nakon toga usporediti.
+Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer,  plagijarizam i lažne recenzije. Nedavni uspjeh i širenje sustava za strojno prevođenje teksta budi zanimanje, ali i mnoga važna pitanja. Najistaknutija među njima vezana su za efikasnu evaluaciju kvalitete takvog sustava te kako otkriti izlaz tih sustava kako bi se, na primjer, izbjegla kružna uporaba izlaza kao ulaz u isti sustav ili korištenje strojno prevedenog teksta u zlonamjerne svrhe. Mnogi su istraživači zainteresirani za otkrivanje strojno prevedenog teksta. Najčešće metode za otkrivanje strojno prevedenog teksta temelje se na modelu N-grama (Aharoni i sur., 2014 .; Arase i Zhou, 2013 .; Nguyen-Son i Echizen, 2017) za mjerenje fluentnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje kako bi se prepoznali strojno generirani tekstovi (Li i sur., 2015.), modelu temeljenom na koherentnosti, modelu temeljenom na distribuciji riječi te modelu temeljenom na povratnom prijevodu (Nguyen-Son i sur., 2019.). Ovaj će se seminarski rad fokusirati na navedenih pet tehnika prepoznavanja strojno prevedenog teksta od kojih će svaku pojedinačno objasniti u narednim poglavljima, tehnike koje se češće koriste i daju bolje rezultate kao što su model N-grama i model povratnog prijevoda bit će detaljnije objašnjene. Prije toga objasnit će se što je točno strojno prevedeni tekst.
 ====Strojno prevedeni tekst====
-Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bismo što lakše uočili strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica.
+Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica iz koje se može vidjeti različitost prijevoda ovisno o strojnom prevoditelju.
 Tablica 1:
@@ Redak 28: / Redak 26: @@
 N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", "i također * i"). Za ovakav se model koristi n-gram koji se sastoji od riječi ili interpunkcijskih zakova, a ne svakog znaka zasebno. S druge strane, postoji model koji kombinira POS (Part of speech) n-gram model s funkcionalnim riječima, koje se obilno javljaju se u strojno prevedenom tekstu. Također model gdje je integriran n-gram model riječi sa značajkama šuma za otkrivanje prijevoda na porukama društvenih mreža. Takva se specifična obilježja često javljaju u ljudskim porukama kao što su pravopisne pogreške, riječi zapisane kako se izgovaraju, kratice i sl. ili u strojnim porukama, na primjer, neprevedene riječi. Međutim, ti se šumovi češće pojavljuju u porukama društvenih mreža nego u dokumentima ili igdje drugdje.
-Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na Kullback-Leiblerovoj divergenciju između raspodjele n-grama za svaku klasu i pomoću nje procijenjeno je koji n-grami su najkarakterističniji za svaki izvorni jezik. U matematičkoj statistici, Kullback-Leiblerova divergencija, (koja se naziva i relativna entropija) mjera je kako se jedna raspodjela vjerojatnosti razlikuje od druge, referentne raspodjele vjerojatnosti.
+Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na temelju Kullback-Leiblerove divergencije između raspodjele n-grama za svaku klasu i pomoću nje procijenjeno je koji n-grami su najkarakterističniji za svaki izvorni jezik. U matematičkoj statistici, Kullback-Leiblerova divergencija, (koja se naziva i relativna entropija) mjera je kako se jedna raspodjela vjerojatnosti razlikuje od druge, referentne raspodjele vjerojatnosti.
 ==Primjer==
@@ Redak 53: / Redak 51: @@
 ==== Stablo za raščlanjivanje (eng. Parsing tree) ====
-Stabla za raščlanjivanje Li i sur. (2015) koristili su sintaksmo stablo raščlanjivanja za klasifikaciju rečenica čovjeka i stroja. Tvrde da je struktura ljudskog raščlanjivanja uravnoteženija od strukture raščlanjivanja stroja. *Tako su izvukli značajke temeljene na uravnoteženju kao što je omjer između lijevog i desnog čvora i na općem i na glavnom kontinentu.* Ograničenje ovog pristupa je u tome što zanemaruje semantičko značenje teksta.
+Sintaksno stablo raščlanjivanja koristi se za klasifikaciju rečenica čovjeka i stroja. Struktura ljudskog raščlanjivanja uravnoteženija je od strukture raščlanjivanja stroja što je glavna motivacija za korištenje ove tehnike. Vrlo važna vrsta jezičnih obilježja je izravno povezana sa sintaktičkom strukturom rečenice. Na raščlanjeno stablo rečenice možemo iskoristiti niz dostupnih svojstava, kao što su struktura rečenica i gustoća sastavnih vrsta (imenice, glagoli i sl.) te tako dizajnirati potrebne značajke. Dobivene značajke temeljene su na uravnoteženosti omjera između lijevog i desnog čvora i na podstablu i na glavnom stablu koje zatim koristimo za predikciju radi li se o strojno prevedenom tekstu ili o tekstu koji je napisao čovjek. Ograničenje ovog pristupa je u tome što zanemaruje semantičko značenje teksta.
 ==== Distribucija riječi ====
-Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovom zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Nguyen-Son i suradnici (2017) koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće.
+Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovim zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Strojno prevedeni tekst nema ovakvo obilježje te zbog navedenog dolazi do ideje korištenja distribucije riječi kao alata za klasifikaciju između teksta koji je napisao čovjek i strojno prevedenog teksta. Nguyen-Son i suradnici u radu iz 2017. koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ispostavilo se da ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. U kraćim tekstovima dolazi do nestabilnosti distribucije riječi i ovaj pristup ne daje dobre rezultate.
 ==== Koherentnost ====
-Iako strojno prevedeni tekst može sačuvati značenje, koherentnost takvog teksta još uvijek je niska. Neki su istraživači mjerili koherentnost kako bi razlikovali strojni tekst od teksta koji je napisao čovjek. Na primjer, Nguyen-Son i sur. (2018) uočili su podudaranje između sličnih riječi dvije rečenice u istom ulomku odlomku. Sličnost dviju podudarnih riječi koristi se za procjenu koherentnosti. U drugom radu, Nguyen-Son i sur. (2019.) proširio je potragu za podudaranjem na podudaranje u bilo kojim riječima u odlomku i unutar i izvan istih rečenica. Međutim, koherentnost je jača u istom odlomku, ali je niža na drugim razinama kao što su rečenica i dokument.
+Iako strojno prevedeni tekst može sačuvati značenje, koherentnost takvog teksta još uvijek je niska. Neki su istraživači mjerili koherentnost kako bi razlikovali strojni tekst od teksta koji je napisao čovjek. Na primjer, Nguyen-Son i suradnici u članku iz 2018. uočili su podudaranje između sličnih riječi dvije rečenice u istom odlomku teksta. Sličnost dviju podudarnih riječi koristi se za procjenu koherentnosti. U drugom radu, Nguyen-Sona i suradnika iz 2019. proširena je potragu za podudaranjem na podudaranje u bilo kojim riječima u odlomku i unutar i izvan istih rečenica. Međutim, koherentnost je jača u istom odlomku, ali je niža na drugim razinama kao što su rečenica i cijeli dokument. Zbog navedenih nedostataka modela koji se temelji na koherentnosti teksta on nije primjenjiv na širok skup tekstova.
 ====Povratni prijevod (eng. Back Translation) ====
-Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelj. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijenosa pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje.
+Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijevoda pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje.
 ===Postupak===
@@ Redak 71: / Redak 71: @@
 **Primjer:**
- Tablica 1: Tekst koji je napisao čovjek (**h0**) usporedno s tekstom koji je strojno preveden (**m2**) - povratno prevođenje
+ Tablica 3: Tekst koji je napisao čovjek (**h0**) usporedno s tekstom koji je strojno preveden (**m2**) - povratno prevođenje
 |   |𝒎𝟎 ′ (English)=𝒉𝟎 ′ : “One of the best examples of how to treat a subject, you're not fully aware is being examined, much like a photo of yourself you didn't know was being taken  |
 |    | 𝒎𝟏 ′ (Japanese): “被写体をどのように扱う かの最も良い例の1つは、あなたが完全に 気付いていないということです。”|
@@ Redak 78: / Redak 78: @@
 | 𝒉𝟐 ′ (English): “One of the best examples of how to treat a topic is that you have not been completely examined, just like a photo you don't know.”   | 𝒎𝟒 ′ (English): “One of the best examples of how to deal with this problem is that you are not completely clear.”   |
-U tablici 1. prikazan je povratni prijevod za tekst koji je napisao čovjek h0 i strojno prevedeni tekst  m3 iz teksta m0 koji je napisao čovjek. Iako je tekst m0 preveden četiri puta koristeći  dva različita posrednička jezika, a tekst h0 preveden samo dva puta koristeći jedan posrednički jezik, tekst m4 pokazuje manje promjena u odnosu na tekst h2.
+U tablici 3. prikazan je povratni prijevod za tekst koji je napisao čovjek h0 i strojno prevedeni tekst  m3 iz teksta m0 koji je napisao čovjek. Iako je tekst m0 preveden četiri puta koristeći  dva različita posrednička jezika, a tekst h0 preveden samo dva puta koristeći jedan posrednički jezik, tekst m4 pokazuje manje promjena u odnosu na tekst h2.
 ==Korak 2 – Izračun sličnosti==
@@ Redak 89: / Redak 89: @@
-Prethodno navedene i objašnjene tehnike automatskog prepoznavanja strojno prevedenog teksta uspoređene su na istom skupu podataka i njihovi rezultati prikazani su u tablici 3. Kao mjera uspješnosti klasifikacije odnosno automatskog prepoznavanja strojno prevedenog teksta korištene su točnost i F1 mjera.
+Prethodno navedene i objašnjene tehnike automatskog prepoznavanja strojno prevedenog teksta uspoređene su na istom skupu podataka i njihovi rezultati prikazani su u tablici 4. Kao mjera uspješnosti klasifikacije odnosno automatskog prepoznavanja strojno prevedenog teksta korištene su točnost i F1 mjera.
 U svrhu evaluacije modela u prepoznavanju strojno prevedenog teksta koristile su se četiri vrijednosti za procjenu performansi naučena modela: broj ispravno pozitivnih (eng. true positives, kraće: TP), broj ispravno negativnih (eng. true negatives, kraće: TN), broj neispravno pozitivnih (eng. false positives, kraće: FP) i broj neispravno negativnih klasifikacija (eng. false negatives, kraće: FN).
 Točnost je metrika za procjenu klasifikacijskih modela. Neformalno je točnost dio predviđanja koja je model ispravno klasificirao. Formalno, točnost ima sljedeću definiciju:
@@ Redak 112: / Redak 112: @@
-Tablica 3:
+Tablica 4:
 ^Tehnika  ^Točnost ^F1-mjera^
 ^Distribucija riječi |53.4%|52.9%|
@@ Redak 121: / Redak 121: @@
-Usporedbom rezultata evaluacije različitih tehnika automatskog prepoznavanja strojno prevedenog teksta možemo zaključiti kako tehnika povratnog prijevoda nadmašuje sve ostale metode sa značajnim poboljšanjima i točnosti i F1-mjere. Ova je tehnika najnovija i izgrađena je od strane istih istraživača koji su godinama unatrag radili na ostalim navedenih tehnikama. Prije predlaganja i osmišljanja ove tehnike vodeća korištena tehnika bila je tehnika N-grama zbog njenih rezultata koji su vidljivi u tablici 3. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike.
+Usporedbom rezultata evaluacije različitih tehnika automatskog prepoznavanja strojno prevedenog teksta možemo zaključiti kako tehnika povratnog prijevoda nadmašuje sve ostale metode sa značajnim poboljšanjima i točnosti i F1-mjere. Ova je tehnika najnovija i izgrađena je od strane istih istraživača koji su godinama unatrag radili na ostalim navedenih tehnikama. Prije predlaganja i osmišljanja ove tehnike vodeća korištena tehnika bila je tehnika N-grama zbog njenih rezultata koji su vidljivi u tablici 4. Zbog navedenog u ovom je seminaru veća pozornost usmjerena upravo na te dvije tehnike.
@@ Redak 148: / Redak 148: @@
 [8] Machine Translation, Wikipedia, 2021. [[https://en.wikipedia.org/wiki/Machine_translation]]
+[9] Li, Y., Wang, L., Zhao, H., A machine
+learning method to distinguish machine translation
+from human translation, 2015. [[https://www.aclweb.org/anthology/Y15-2041.pdf]]

racfor_wiki/tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta.1610892468.txt.gz · Zadnja izmjena: 2024/12/05 12:23 (vanjsko uređivanje)