Slijede razlike između dviju inačica stranice.
Starije izmjene na obje strane Starija izmjena Novija izmjena | Starija izmjena | ||
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2021/01/17 13:39] ksikic [Popis literature] |
racfor_wiki:tehnike_automatskog_prepoznavanja_strojno_prevedenog_teksta [2024/12/05 12:24] (trenutno) |
||
---|---|---|---|
Redak 3: | Redak 3: | ||
==== Sažetak ==== | ==== Sažetak ==== | ||
+ | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, može se koristiti u zlonamjerne svrhe kao što su lažne recenzije. Mnogi su istraživači zainteresirani za tehnike otkrivanja strojno prevedenog tekst. Najčešće metode za njegovo prepoznavanje temelje se na modelu N-grama za mjerenje tečnosti teksta, modelu temeljenom na strukturi stabla za raščlanjivanje, | ||
==== Uvod ==== | ==== Uvod ==== | ||
- | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer, | + | Strojno prevedeni tekst igra presudnu ulogu u komunikaciji ljudi koji koriste različite jezike. Međutim, strojno prevedeni tekst može se koristiti u zlonamjerne svrhe kao što su, na primjer, |
- | + | ||
====Strojno prevedeni tekst==== | ====Strojno prevedeni tekst==== | ||
- | Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bismo što lakše uočili strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica. | + | Strojno prevođenje proces je u kome računalni program analizira tekst na jednom jeziku - polazni tekst, i potom proizvodi tekst istoga značenja na drugom jeziku – strojno prevedeni tekst, bez sudjelovanja čovjeka u tome procesu. Problemi se javljaju pri prevođenju nesrodnih jezika složenih gramatika, kod kojih izrada odgovarajućih programa nije trivijalan problem. Problemi su obično: fraze (dijelovi rečenice ili cijele rečenice koje se ne mogu doslovno prevoditi, nego se moraju uvrstiti u bazu podataka jezika kao i svaka druga riječ), višeznačnice i njihovo prepoznavanje. Upravo ti problemi u strojnom prevođenju javljaju se kao dobar početak rješavanja problema prepoznavanja strojno prevedenog teksta. Ta ideja upućuje na proučavanje nedostataka strojnih prevoditelja kako bi se što lakše uočio strojno prevedeni tekst. Međutim, postoji mnogo strojnih prevoditelja koji ne funkcioniraju na isti način na što također treba obratiti pažnju. U tablici 1 prikazan je izlaz nekoliko različitih strojnih prevoditelja kojima je kao ulaz dana ista rečenica |
Tablica 1: | Tablica 1: | ||
^Strojni prevoditelj ^ Primjer^ | ^Strojni prevoditelj ^ Primjer^ | ||
- | ^Google Translate | ”These days, all but one were subject to a vote, and all had a direct link to the post September 11th.”| | + | ^Google Translate | ”**These days**, all but one were subject to a vote, and all had a direct link to the post September 11th.”| |
- | ^Moses |”these days , except one were the subject of a vote , and all had a direct link with the after 11 September .”| | + | ^Moses |”**these days** , except one were the subject of a vote , and all had a direct link with the after 11 September .”| |
- | ^Systran| ”From these days, all except one were the object of a vote, and all were connected a direct link with after September 11th.”| | + | ^Systran| ”**From these days**, all except one were the object of a vote, and all were connected a direct link with after September 11th.”| |
- | ^Linguatec| ”Of these days, all except one were making the object of a vote and all had a straightforward tie with after September 11.”| | + | ^Linguatec| ”**Of these days**, all except one were making the object of a vote and all had a straightforward tie with after September 11.”| |
- | ^ProMT| ”These days, very safe one all made object a vote, and had a direct link with after September 11th.” | | + | ^ProMT| ”**These days**, very safe one all made object a vote, and had a direct link with after September 11th.” | |
- | ^Trident| ”From these all days, except one operated object voting, and all had a direct rope with after 11 septembre.”| | + | ^Trident| ”**From these all days**, except one operated object voting, and all had a direct rope with after 11 septembre.”| |
- | ^Skycode| ”In these days, all safe one made the object in a vote and all had a direct connection with him after 11 of September.”| | + | ^Skycode| ”**In these days**, all safe one made the object in a vote and all had a direct connection with him after 11 of September.”| |
==== N-gram model ==== | ==== N-gram model ==== | ||
Redak 27: | Redak 26: | ||
N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", | N-gram model često se koristi za procjenu tečnost uzastopnih riječi. Istraživači su predložili dodatne značajke za poboljšanje koje izvorni model podržava. Na primjer, procijenili su fluentnost neprekidnih riječi sekvencijalnom dubinskom analizom podataka. Modeli mogu izvući fluentne obrasce u ljudskom govoru (npr. „Ne samo * ali i ", " više * nego ") uspoređujući s netipičnim uzorcima strojeva (npr., "nakon * nakon", | ||
- | Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na Kullback-Leiblerovoj divergenciju | + | Mnogi klasifikatori pa tako i SVM (stroj potpornih vektora) imaju dobre performanse na zadatku otkrivanja strojno prevedenog teksta, ali ne daju naznake o stvarnim razlikama između takvog teksta i teksta koji je napisao čovjek. Kako bi se uočila razlika između klasa, oslanja se na frekvencije n-grama. Doprinos svakog n-grama izračunat je na temelju |
==Primjer== | ==Primjer== | ||
Redak 52: | Redak 51: | ||
==== Stablo za raščlanjivanje (eng. Parsing tree) ==== | ==== Stablo za raščlanjivanje (eng. Parsing tree) ==== | ||
- | Stabla za raščlanjivanje Li i sur. (2015) koristili su sintaksmo | + | |
+ | Sintaksno | ||
==== Distribucija riječi ==== | ==== Distribucija riječi ==== | ||
- | Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovom | + | |
+ | Uporaba riječi u tekstu koji je pisao čovjek često je u skladu sa Zipfovim | ||
==== Koherentnost ==== | ==== Koherentnost ==== | ||
- | Iako strojno prevedeni tekst može sačuvati značenje, koherentnost takvog teksta još uvijek je niska. Neki su istraživači mjerili koherentnost kako bi razlikovali strojni tekst od teksta koji je napisao čovjek. Na primjer, Nguyen-Son i sur. (2018) uočili su podudaranje između sličnih riječi dvije rečenice u istom ulomku | + | Iako strojno prevedeni tekst može sačuvati značenje, koherentnost takvog teksta još uvijek je niska. Neki su istraživači mjerili koherentnost kako bi razlikovali strojni tekst od teksta koji je napisao čovjek. Na primjer, Nguyen-Son i suradnici u članku iz 2018. uočili su podudaranje između sličnih riječi dvije rečenice u istom odlomku |
====Povratni prijevod (eng. Back Translation) ==== | ====Povratni prijevod (eng. Back Translation) ==== | ||
- | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelj. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog | + | Ova metoda koristi povratni prijevod za otkrivanje strojno prevedenog teksta. Ona istražuje varijantu teksta koja je opetovano prevedena u istom prevoditelju. Nakon određenog broja povratnog prevođenja tekst ostaje nepromijenjen. Odnosno, raniji povratni prijevodi daju veće razlike u odnosu na ulazni tekst od kasnijih. Mjeri se sličnost između teksta i njegovog povratnog |
===Postupak=== | ===Postupak=== | ||
Redak 70: | Redak 71: | ||
**Primjer: | **Primjer: | ||
- | | + | |
| | | | ||
| | 𝒎𝟏 ′ (Japanese): “被写体をどのように扱う かの最も良い例の1つは、あなたが完全に 気付いていないということです。”| | | | 𝒎𝟏 ′ (Japanese): “被写体をどのように扱う かの最も良い例の1つは、あなたが完全に 気付いていないということです。”| | ||
Redak 77: | Redak 78: | ||
| 𝒉𝟐 ′ (English): “One of the best examples of how to treat a topic is that you have not been completely examined, just like a photo you don't know.” | | 𝒉𝟐 ′ (English): “One of the best examples of how to treat a topic is that you have not been completely examined, just like a photo you don't know.” | ||
- | U tablici | + | U tablici |
==Korak 2 – Izračun sličnosti== | ==Korak 2 – Izračun sličnosti== | ||
Redak 88: | Redak 89: | ||
- | Prethodno navedene i objašnjene tehnike automatskog prepoznavanja strojno prevedenog teksta uspoređene su na istom skupu podataka i njihovi rezultati prikazani su u tablici | + | Prethodno navedene i objašnjene tehnike automatskog prepoznavanja strojno prevedenog teksta uspoređene su na istom skupu podataka i njihovi rezultati prikazani su u tablici |
U svrhu evaluacije modela u prepoznavanju strojno prevedenog teksta koristile su se četiri vrijednosti za procjenu performansi naučena modela: broj ispravno pozitivnih (eng. true positives, kraće: TP), broj ispravno negativnih (eng. true negatives, kraće: TN), broj neispravno pozitivnih (eng. false positives, kraće: FP) i broj neispravno negativnih klasifikacija (eng. false negatives, kraće: FN). | U svrhu evaluacije modela u prepoznavanju strojno prevedenog teksta koristile su se četiri vrijednosti za procjenu performansi naučena modela: broj ispravno pozitivnih (eng. true positives, kraće: TP), broj ispravno negativnih (eng. true negatives, kraće: TN), broj neispravno pozitivnih (eng. false positives, kraće: FP) i broj neispravno negativnih klasifikacija (eng. false negatives, kraće: FN). | ||
Točnost je metrika za procjenu klasifikacijskih modela. Neformalno je točnost dio predviđanja koja je model ispravno klasificirao. Formalno, točnost ima sljedeću definiciju: | Točnost je metrika za procjenu klasifikacijskih modela. Neformalno je točnost dio predviđanja koja je model ispravno klasificirao. Formalno, točnost ima sljedeću definiciju: | ||
Redak 111: | Redak 112: | ||
| | ||
- | Tablica | + | Tablica |
^Tehnika | ^Tehnika | ||
^Distribucija riječi |53.4%|52.9%| | ^Distribucija riječi |53.4%|52.9%| | ||
Redak 120: | Redak 121: | ||
- | Usporedbom rezultata evaluacije različitih tehnika automatskog prepoznavanja strojno prevedenog teksta možemo zaključiti kako tehnika povratnog prijevoda nadmašuje sve ostale metode sa značajnim poboljšanjima i točnosti i F1-mjere. Ova je tehnika najnovija i izgrađena je od strane istih istraživača koji su godinama unatrag radili na ostalim navedenih tehnikama. Prije predlaganja i osmišljanja ove tehnike vodeća korištena tehnika bila je tehnika N-grama zbog njenih rezultata koji su vidljivi u tablici | + | Usporedbom rezultata evaluacije različitih tehnika automatskog prepoznavanja strojno prevedenog teksta možemo zaključiti kako tehnika povratnog prijevoda nadmašuje sve ostale metode sa značajnim poboljšanjima i točnosti i F1-mjere. Ova je tehnika najnovija i izgrađena je od strane istih istraživača koji su godinama unatrag radili na ostalim navedenih tehnikama. Prije predlaganja i osmišljanja ove tehnike vodeća korištena tehnika bila je tehnika N-grama zbog njenih rezultata koji su vidljivi u tablici |
Redak 129: | Redak 130: | ||
[1] Nguyen-Son, H., Phuong Thao,T. , Hidano, S. , Kiyomoto, S., Detecting Machine-Translated Text using Back Translation, | [1] Nguyen-Son, H., Phuong Thao,T. , Hidano, S. , Kiyomoto, S., Detecting Machine-Translated Text using Back Translation, | ||
+ | |||
+ | [2] Aharoni, R.,Koppel, M., | ||
+ | |||
+ | [3] Lembersky, G., Ordan, N., Wintner, S.,Language Models for Machine Translation: | ||
+ | Original vs. Translated Texts, 2011. [[https:// | ||
+ | |||
+ | [4] Kurokawa, | ||
+ | Translation, | ||
+ | |||
+ | [5] Arase, Y., Zhou, M., Machine translation | ||
+ | detection from monolingual web-text, 2013. [[https:// | ||
+ | |||
+ | [6] Lioma, C., Keith van Rijsbergen, C.J., Part of speech n-grams and Information Retrieval, 2008. [[https:// | ||
+ | |||
+ | [7] Smruti Tahasildar, Language detection and translation using n-gram | ||
+ | and statistical machine translation approach, 2015. [[https:// | ||
+ | |||
+ | [8] Machine Translation, | ||
+ | |||
+ | [9] Li, Y., Wang, L., Zhao, H., A machine | ||
+ | learning method to distinguish machine translation | ||
+ | from human translation, |