Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2021/01/17 16:55] ksikic [Uvod] |
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 8: | Redak 8: | ||
====Strojno prevedeni tekst==== | ====Strojno prevedeni tekst==== | ||
- | Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica iz koje se može vidjeti različitost prijevoda ovisno o prevoditelju. | + | Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica iz koje se može vidjeti različitost prijevoda ovisno o strojnom |
Tablica 1: | Tablica 1: | ||
Redak 26: | Redak 26: | ||
N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", | N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", | ||
- | Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na Kullback-Leiblerovoj divergenciju | + | Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na temelju |
==Primjer== | ==Primjer== | ||
Redak 55: | Redak 55: | ||
==== Distribucija riječi ==== | ==== Distribucija riječi ==== | ||
- | Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovom | + | Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovim |
Redak 62: | Redak 62: | ||
====Povratni prijevod (eng. Back Translation) ==== | ====Povratni prijevod (eng. Back Translation) ==== | ||
- | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog | + | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog |
===Postupak=== | ===Postupak=== |