Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2021/01/17 14:34] ksikic [Stablo za raščlanjivanje (eng. Parsing tree)] |
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 5: | Redak 5: | ||
Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, može se koristiti u zlonamjerne svrhe kao što su lažne recenzije. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za njegovo prepoznavanje temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje, | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, može se koristiti u zlonamjerne svrhe kao što su lažne recenzije. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za njegovo prepoznavanje temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje, | ||
==== Uvod ==== | ==== Uvod ==== | ||
- | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer, | + | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer, |
====Strojno prevedeni tekst==== | ====Strojno prevedeni tekst==== | ||
- | Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica iz koje se može vidjeti različitost prijevoda ovisno o prevoditelju. | + | Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica iz koje se može vidjeti različitost prijevoda ovisno o strojnom |
Tablica 1: | Tablica 1: | ||
Redak 26: | Redak 26: | ||
N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", | N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", | ||
- | Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na Kullback-Leiblerovoj divergenciju | + | Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na temelju |
==Primjer== | ==Primjer== | ||
Redak 54: | Redak 54: | ||
Sintaksno stablo raščlanjivanja koristi se za klasifikaciju rečenica čovjeka i stroja. Struktura ljudskog raščlanjivanja uravnoteženija je od strukture raščlanjivanja stroja što je glavna motivacija za korištenje ove tehnike. Vrlo važna vrsta jezičnih obilježja je izravno povezana sa sintaktičkom strukturom rečenice. Na raščlanjeno stablo rečenice možemo iskoristiti niz dostupnih svojstava, kao što su struktura rečenica i gustoća sastavnih vrsta (imenice, glagoli i sl.) te tako dizajnirati potrebne značajke. Dobivene značajke temeljene su na uravnoteženosti omjera između lijevog i desnog čvora i na podstablu i na glavnom stablu koje zatim koristimo za predikciju radi li se o strojno prevedenom tekstu ili o tekstu koji je napisao čovjek. Ograničenje ovog pristupa je u tome što zanemaruje semantičko značenje teksta. | Sintaksno stablo raščlanjivanja koristi se za klasifikaciju rečenica čovjeka i stroja. Struktura ljudskog raščlanjivanja uravnoteženija je od strukture raščlanjivanja stroja što je glavna motivacija za korištenje ove tehnike. Vrlo važna vrsta jezičnih obilježja je izravno povezana sa sintaktičkom strukturom rečenice. Na raščlanjeno stablo rečenice možemo iskoristiti niz dostupnih svojstava, kao što su struktura rečenica i gustoća sastavnih vrsta (imenice, glagoli i sl.) te tako dizajnirati potrebne značajke. Dobivene značajke temeljene su na uravnoteženosti omjera između lijevog i desnog čvora i na podstablu i na glavnom stablu koje zatim koristimo za predikciju radi li se o strojno prevedenom tekstu ili o tekstu koji je napisao čovjek. Ograničenje ovog pristupa je u tome što zanemaruje semantičko značenje teksta. | ||
==== Distribucija riječi ==== | ==== Distribucija riječi ==== | ||
- | Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovom | + | |
+ | Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovim | ||
==== Koherentnost ==== | ==== Koherentnost ==== | ||
- | Iako strojno prevedeni tekst može sačuvati značenje, koherentnost takvog teksta još uvijek je niska. Neki su istraživači mjerili koherentnost kako bi razlikovali strojni tekst od teksta koji je napisao čovjek. Na primjer, Nguyen-Son i sur. (2018) uočili su podudaranje između sličnih riječi dvije rečenice u istom ulomku | + | Iako strojno prevedeni tekst može sačuvati značenje, koherentnost takvog teksta još uvijek je niska. Neki su istraživači mjerili koherentnost kako bi razlikovali strojni tekst od teksta koji je napisao čovjek. Na primjer, Nguyen-Son i suradnici u članku iz 2018. uočili su podudaranje između sličnih riječi dvije rečenice u istom odlomku |
====Povratni prijevod (eng. Back Translation) ==== | ====Povratni prijevod (eng. Back Translation) ==== | ||
- | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelj. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog | + | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog |
===Postupak=== | ===Postupak=== |