Razlike
Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane
Starija izmjena
Novija izmjena
|
Starija izmjena
|
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2021/01/17 17:04] ksikic [N-gram model] |
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2024/12/05 12:24] (trenutno) |
==== Distribucija riječi ==== | ==== Distribucija riječi ==== |
| |
Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovom zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Strojno prevedeni tekst nema ovakvo obilježje te zbog navedenog dolazi do ideje korištenja distribucije riječi kao alata za klasifikaciju između teksta koji je napisao čovjek i strojno prevedenog teksta. Nguyen-Son i suradnici u radu iz 2017. koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ispostavilo se da ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. U kraćim tekstovima dolazi do nestabilnosti distribucije riječi i ovaj pristup ne daje dobre rezultate. | Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovim zakonom, mali broj riječi pojavljuje vrlo često. Ako se riječi poredaju po frekvenciji pojavljivanja, onda je umnožak redoslijeda (ranga) pojavljivanja s frekvencijom pojavljivanja konstantan. Strojno prevedeni tekst nema ovakvo obilježje te zbog navedenog dolazi do ideje korištenja distribucije riječi kao alata za klasifikaciju između teksta koji je napisao čovjek i strojno prevedenog teksta. Nguyen-Son i suradnici u radu iz 2017. koriste ovaj zakon za otkrivanje strojno prevedenih dokumenta. Nadalje, koristili su koristan ljudski tekst, uključujući idiome, dijalekt i fraze. Također su procijenili odnosi među određenim frazama. Ispostavilo se da ove značajke rade dobro samo na velikim tekstovima u kojima je distribucija riječi stabilnija i dodatne značajke se pojavljuju češće. U kraćim tekstovima dolazi do nestabilnosti distribucije riječi i ovaj pristup ne daje dobre rezultate. |
| |
| |
====Povratni prijevod (eng. Back Translation) ==== | ====Povratni prijevod (eng. Back Translation) ==== |
| |
Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijenosa pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje. | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog prijevoda pomoću BLEU ocjene. Ocjena dvojezične evaluacije, ili skraćeno BLEU, metrika je za vrednovanje generirane rečenice na referentnu rečenicu. Savršeno podudaranje rezultira ocjenom 1.0, dok savršeno nepodudaranje rezultira ocjenom 0.0. Ocjena je razvijena za procjenu predviđanja koja su napravili sustavi za automatsko strojno prevođenje. |
| |
===Postupak=== | ===Postupak=== |