Starije izmjene na obje strane
Starija izmjena
Novija izmjena
|
Starija izmjena
|
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2021/01/17 16:58] ksikic [Strojno prevedeni tekst] |
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2024/12/05 12:24] (trenutno) |
N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", "i također * i"). Za ovakav se model koristi n-gram koji se sastoji od riječi ili interpunkcijskih zakova, a ne svakog znaka zasebno. S druge strane, postoji model koji kombinira POS (Part of speech) n-gram model s funkcionalnim riječima, koje se obilno javljaju se u strojno prevedenom tekstu. Također model gdje je integriran n-gram model riječi sa značajkama šuma za otkrivanje prijevoda na porukama društvenih mreža. Takva se specifična obilježja često javljaju u ljudskim porukama kao što su pravopisne pogreške, riječi zapisane kako se izgovaraju, kratice i sl. ili u strojnim porukama, na primjer, neprevedene riječi. Međutim, ti se šumovi češće pojavljuju u porukama društvenih mreža nego u dokumentima ili igdje drugdje. | N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", "i također * i"). Za ovakav se model koristi n-gram koji se sastoji od riječi ili interpunkcijskih zakova, a ne svakog znaka zasebno. S druge strane, postoji model koji kombinira POS (Part of speech) n-gram model s funkcionalnim riječima, koje se obilno javljaju se u strojno prevedenom tekstu. Također model gdje je integriran n-gram model riječi sa značajkama šuma za otkrivanje prijevoda na porukama društvenih mreža. Takva se specifična obilježja često javljaju u ljudskim porukama kao što su pravopisne pogreške, riječi zapisane kako se izgovaraju, kratice i sl. ili u strojnim porukama, na primjer, neprevedene riječi. Međutim, ti se šumovi češće pojavljuju u porukama društvenih mreža nego u dokumentima ili igdje drugdje. |
| |
Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na Kullback-Leiblerovoj divergenciju između raspodjele n-grama za svaku klasu i pomoću nje procijenjeno je koji n-grami su najkarakterističniji za svaki izvorni jezik. U matematičkoj statistici, Kullback-Leiblerova divergencija, (koja se naziva i relativna entropija) mjera je kako se jedna raspodjela vjerojatnosti razlikuje od druge, referentne raspodjele vjerojatnosti. | Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na temelju Kullback-Leiblerove divergencije između raspodjele n-grama za svaku klasu i pomoću nje procijenjeno je koji n-grami su najkarakterističniji za svaki izvorni jezik. U matematičkoj statistici, Kullback-Leiblerova divergencija, (koja se naziva i relativna entropija) mjera je kako se jedna raspodjela vjerojatnosti razlikuje od druge, referentne raspodjele vjerojatnosti. |
| |
==Primjer== | ==Primjer== |
==== Distribucija riječi ==== | ==== Distribucija riječi ==== |
| |
Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovom zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Strojno prevedeni tekst nema ovakvo obilježje te zbog navedenog dolazi do ideje korištenja distribucije riječi kao alata za klasifikaciju između teksta koji je napisao čovjek i strojno prevedenog teksta. Nguyen-Son i suradnici u radu iz 2017. koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ispostavilo se da ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. U kraćim tekstovima dolazi do nestabilnosti distribucije riječi i ovaj pristup ne daje dobre rezultate. | Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovim zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Strojno prevedeni tekst nema ovakvo obilježje te zbog navedenog dolazi do ideje korištenja distribucije riječi kao alata za klasifikaciju između teksta koji je napisao čovjek i strojno prevedenog teksta. Nguyen-Son i suradnici u radu iz 2017. koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ispostavilo se da ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. U kraćim tekstovima dolazi do nestabilnosti distribucije riječi i ovaj pristup ne daje dobre rezultate. |
| |
| |
====Povratni prijevod (eng. Back Translation) ==== | ====Povratni prijevod (eng. Back Translation) ==== |
| |
Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijenosa pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje. | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijevoda pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje. |
| |
===Postupak=== | ===Postupak=== |