Gépi fordítás: A DeepL lenyomja a Google Fordítót

A Linguee új gépi fordítója: DeepL hatékonyabban fordít, mint a népszerű Google Fordító.

2017.08.29.

Hétfő óta elérhető az interneten egy új gépi fordító, a DeepL. Dolgoztak már valaha a 103 nyelv ismeretével kecsegtető Google Fordítóval? A DeepL a 103 helyett „csak” 7 nyelven beszél, azok bármelyike között oda-vissza fordít, a fordítás azonban természetesebb, a minősége tehát jobb. A javulás két okra vezethető vissza. Az egyik, hogy a DeepL a világ 23. legerősebb szuperszámítógépén fut (amit egyidőben használ világszerte sok ezer felhasználó).

Kifejezéstárak

A másik ok a továbbfejlesztett szoftveres technológia. A DeepL-nek volt, sőt most is elérhető egy elődje, a Linguee. Ezt az online kifejezéstárat (a Glosbehoz hasonlóan) sok-sok, emberi fordító által lefordított szakszöveg forrás- és célnyelvi változatával töltötték meg, amelyeket egy szoftver automatikusan párhuzamosított. Ez azt jelenti, hogy minden lefordított szónak, szókapcsolatnak egymáshoz rendelték a forrás- és a célnyelvi változatát. A Lingueevel szavakra és kifejezésekre lehet keresni; azok forrás- és célnyelvi változatait kb. 1 bekezdésnyi szövegkörnyezettel együtt ábrázolja. A DeepL-t a Linguee kifejezéstárán edzették, de teljes szövegeket képes lefordítani (mint a Google Fordító). A Google Fordító az ún. rekurrens neurális hálózatok technikát alkalmazza. Ez figyelembe veszi, hogy az egyes szavaknak szövegkörnyezettől függően más és más jelentése lehet (pl. a „cikk” mást jelent egy jogi és mást egy kereskedelmi szövegkörnyezetben).

Konvolúciós hálózatok

A DeepL által használt, fejlettebb konvolúciós hálózatok technika előnye, hogy a szavak feldolgozása párhuzamosan történik. Mindegyik szó befolyásolja, hogy a szövegrész mennyiben tartozhat egyik és mennyiben egy másik területhez, ami azután visszahat mindegyik szó fordítására (a legmegfelelőbb célnyelvi jelentés kiválasztására). Míg a rekurrens hálózatok tetszőlegesen hosszú szövegrészekkel (tagmondat, mondat, bekezdés, fejezet, teljes szöveg) tudnak számolni, addig a konvolúciós hálózatok csak egy adott mennyiséggel; a sebességelőny azonban nagyobb súllyal esik latba, mint ez a korlátozás. A Linguee / DeepL alapítója és ügyvezető igazgatója egyébként az a Gereon Frahling, aki 2007-ig a Google fejlesztőcsapatát erősítette.

Figyelem-mechanizmus

A konvolúciós hálózatok minőségelőnye döntően a figyelem-mechanizmusnak köszönhető, amely képes egyidejűleg több szinten működni. Figyelem-mechanizmust a Google is használ, de csak azért, hogy biztosítsa, hogy a lefordított mondat tartalmazza az eredeti valamennyi szavának jelentését. Ezen mechanizmus több szinten történő egyidejű bevetésének köszönhető, hogy a DeepL a szójelentések vetületeit pontosabban kinyerheti – legalábbis erre lehet következtetni a jobb BLEU-értékekből. A BiLingual Evaluation Understudy automatizált vizsgálat a gépek által fordított tesztek minőségének megállapítására.

Beam Search

A neurális hálózatok általában nem 1 bizonyos kimenetet képeznek közvetlenül, hanem minden lehetséges kimenethez valószínűségi értéket rendelnek. A Beam Search algoritmus figyelembe veszi a mondatok valószínűségét, de több lépésben a mondatoknak egy kis csoportját választja ki, amelyeket egy-egy szóval megtold. Ezáltal néha valamelyest valószínűtlen szót is beválaszt, ha azáltal a mondat egésze jobban fog illeni a szövegkörnyezetbe.

Minőség

A DeepL nem használ teljesen új technikákat. A konvolúciós hálózatok, a figyelem-mechanizmus és a Beam-Search kombinációja azonban megfelel a legfrissebb kutatási eredményeknek. Ezáltal a DeepL megelőzi a Google Fordító aktuális verzióját. Az új fordítót emberek tesztjének is alávetették. Adott szövegre a DeepL, a Google Fordító és a Microsoft Bing fordításait összehasonlítva háromszor gyakrabban ítélték természetesebbnek a DeepL megfejtését. Független tesztek szerint a DeepL működése képes a szituatív fordításra és természetesebb mondatokat produkál, ha olykor félrefordításokat is megereszt.

Forrás: Heise Online

Leave a reply

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.