Sadržaj

Sažetak

Strojno prevođenje jezika područje je računalne lingvistike koje istražuje prevođenje teksta ili govora s jednog jezika na drugi. Kvaliteta prijevoda nije garantirana, te uvelike ovisi o samom tekstu i tehnikama koje se koriste kako bi se olakšao prijevod strojnom prevođenju. Ljudski faktor je gotovo neizbježan, ali sve većim napretkom smanjuje se utjecaj čovjeka, te strojno prevođenje može samo prevesti tekst koji je u potpunosti razuman i korektan. Postoje dijelovi prevođenja, koji imaju još jako puno mjesta za napredak poput dijalekta. Strojno prevođenje teksta nalazi najveću uporabu u turizmu i društvenim mrežama. Detekcija strojnog prevedenog teksta pomaže u pronalaženju plagijata i lažnih recenzija, te se može koristiti kao alat za prepoznavanje botova na društvenim mrežama.

Uvod

Strojno prevođenje jezika područje je računalne lingvistike koje istražuje korištenje softvera za prevođenje teksta ili govora s jednog jezika na drugi. Strojno prevođenje zamjenjuje riječi iz jednog jezika s riječima iz drugog jezika, ali to često ne daje dobar prijevod, jer je potrebno prepoznavanje cijelih fraza, mnoge riječi imaju više od jednog značenja, te mnoge riječi nemaju ekvivalentan prijevod u drugom jeziku. Kvaliteta prijevoda može se poboljšati ljudskom pomoći, čovjek odredi koje riječi je stroj dobro preveo, te je stroju lakše točno prevesti zadani tekst, te se kvaliteta prijevoda može poboljšati smanjenjem fonda riječi, jer se unaprijed odredi o kojoj temi se radi npr. prijevod vremenskih prognoza.

Problemi strojno prevedenog teksta

U strojnom prevedenom tekstu često se nađu greške koje čine prevedeni tekst nerazumljivim. Česti problem kod prijevoda je da neke riječi ovise o kontekstu koji stroj ne razumije, jer nema sposobnost zaključivanja po kontekstu. Isto tako stroj ne može prepoznati greške u tekstu kojeg prevodi. Višeznačnost riječi predstavlja veliki problem stroju, koji ne može zaključiti koji prijevod treba uzeti na temelju konteksta. Stroj bira riječ na temelju statistike pojavljivanja riječi oko riječi koju prevodi, što je podložno pogreškama, jer riječ mijenja značenje kroz kontekst. Dijalekti predstavljaju jedan od većih problema stroju pri prevođenju teksta. Stroj dijalekte prevodi s manjom preciznošću od standardnog jezika. Imena ljudi, organizacija, mjesta stvaraju probleme stroju pri prijevodu, jer neka imena mogu imati isti oblik kao neke imenice, te stroj lako može prevesti imena u imenice čime se gubi smisao teksta. Taj problem može se riješiti identificiranjem imena u tekstu i pridodavanjem opisa npr. čovjek, država, rijeka, te se može riješiti stvaranjem liste u koju se spremaju riječi koje ne želimo prevesti.

Uporaba strojnog prevođenja teksta

Iako niti jedan stroj nije savršen, te niti jedan stroj neće dati uvijek savršen prijevod, mnogi sustavi mogu prevesti tekst da ostane razuman. Kvaliteta se poboljšava ograničavanjem i kontroliranjem teme i broja riječi koje stroj koristi, kako bi stroj lakše donosio odluke i kako bi mu se olakšao proces prevođenja. Najčešće se stroju zada tema teksta, po kojoj on onda prevodi tekst. Strojno prevođenje teksta popularno je u turističkim aplikacijama za prevođenje, koje olakšavaju ljudima međusobnu komunikaciju, a te aplikacije dostupne su svima putem mobilnih uređaja. Sve većim rastom društvenih mreža dolazi do sve veće potražnje za dobrim sustavima prevođenja strojnog teksta, danas korisnici društvenih mreža imaju opciju prevoditi objave drugih korisnika, kako bi se lakše sporazumjeli.

Detekcija strojnog prevedenog teksta

Strojno prevođenje teksta moćan je alat koji olakšava komunikaciju i sporazumijevanje ljudi koji pričaju različite jezike, ali isto tako može se zlouporabiti. Strojno prevođenje jezika može se koristiti kako bi osobe lakše plagirale tuđe tekstove i kako bi ostavljali lažne recenzije za razne proizvode. Botovi na društvenim mrežama često koriste strojno prevođenje teksta kako bi bili efektivniji u prenošenju lažnih informacija i prevara i kako bi proširili bazu napada. Detekcija strojnog prevođenja teksta može pomoći u čišćenju botova društvenih mreža, pronalaženju plagijata i uklanjanju lažnih recenzija.

Zaključak

Strojno prevođenje teksta moćan je alat koji uvelike olakšava sporazumijevanje i komunikaciju između ljudi koji pričaju različite jezike. Postoji dosta problema kod strojno prevedenog teksta, koji čini tekst nerazumnim, te zloporaba strojnog prevođenja teksta. Detekcija strojnog prevedenog jezika pomaže u pronalasku plagijata i lažnih recenzija, te se može koristiti kao alat za čišćenje zlonamjernih botova na društvenim mrežama.

Literatura

[1] https://en.wikipedia.org/wiki/Machine_translation

[2] https://paperswithcode.com/paper/machine-translated-text-detection-through

[3] https://arxiv.org/abs/1910.06558

Prezentacija : https://ferhr-my.sharepoint.com/:f:/g/personal/is52695_fer_hr/EknLtE8TpaRDuEPnnW7lgwIBPbFvahzwFgRkT3_cIs0NXA?e=WjjD0d