A gépi fordításról

A gépi fordítás (ang. Machine Translation röv. MT) vagy automatikus fordítás a szövegek szoftverekkel, automatikusan történő fordítását jelöli. Az MT a mesterséges intelligencia részterülete. Míg az emberi fordítás az alkalmazott nyelvtudomány egy részterülete, az MT-t leginkább az informatika és a számítástechnikai nyelvészet területén kutatják. 2018.01.24.

 

Történet

Régi álma az embernek, hogy megértse azokat a nyelveket, amelyeket sosem tanult. (ld. Bábel tornya, a Pünkösdi csoda, Johann Joachim Becher numerikus interlingua-nyelve, a számokra épülő mesterséges Timerio-nyelv, vagy Douglas Adams Bábel-hala). A számítógép feltalálása és a nyelvtudomány első alkalommal adott konkrét lehetőséget a régi álom megvalósítására. A gépi fordítás fejlődését kezdettől fogva a katonai érdeklődés katalizálta. A legkorábbi projektek egyike egy orosz-angol fordítóprogram volt az Egyesült Államok hadserege számára. Közmondásosan rossz minősége ellenére a program népszerű volt a katonai vezetők körében, akik betekintést nyerhettek az orosz dokumentumok legalább körülbelüli tartalmába. Az 1966-ban az Egyesült Államok Védelmi Minisztériuma számára készült ALPAC-jelentés[1] a gépi fordítás alapvető kivitelezhetetlenségéről szólt, és lényegében majdnem 20 évre megszüntette a kutatást. Csak az 1980-as években kezdtek újabb kutatásokba olyan elektronikai gyártók, mint a Siemens AG (METAL-projekt). A Saarföldi Egyetemen fejlesztették ki SUSY-t (telnet://sbusol.rz.uni-sb.de login: susytest password: susyguest), „aki” képes volt oroszról, angolról és franciáról németre és vissza fordítani.[2] A kutatóterület további rendszere volt az ASCOF francia-német fordító, amely a fordításhoz morfo-szintaktikai és szemantikai információkat is felhasznált.[3] Ekkoriban kezdeményezte a japán kormány az Ötödik Generáció Projektet, melyben egy angol-japán fordítóprogramot írtak Prolog nyelven. Az egyetemek, elektronikai gyártók és a kormányzat szoros együttműködése vezetett a világszerte első, PC-re írt, tömegeknek szánt gépi fordítóprogramokhoz, ami Japánt a gépi fordítás-kutatás vezető szerepébe helyezte. Az 1990-es években Németországban zajlott le a Verbmobil BMBF-projekt, amelynek célja a német, angol és japán nyelveken folytatott párbeszédek tolmácsolása volt. A Verbmobil-rendszer felismerte a spontán beszédet, elemezte a bevitelt, lefordította, és mondatot szerkesztett belőle, amelyet ki is mondott.[4] A 2000-es években kezdtek egyre fejlettebb statisztikai eljárásokat használni. A Google 2006 óta kínál 104 nyelv mindegyikéről mindegyikére fordítani képes, statisztikai fordítórendszert.[5] A szabályalapú megközelítéseket is továbbfejlesztették. A legismertebb kutatóprojektek egyike az Apertium ingyenes szoftver, amelyet a spanyol és a katalón kormány finanszíroz, és az Alicantei Egyetem fejleszt. Több oka van annak, hogy a gépi fordítók iránti igény egyre növekszik:

  • Egyre több a digitális szöveg (ill. egyre több szöveg jelenik meg csak digitálisan), amelyek számítógéppel könnyen feldolgozhatók.
  • A globalizáció egyre több szöveg átvitelét teszi szükségessé egyre több nyelvre (a fordítási piac négyévente megduplázódik), míg a fordító- és tolmács-szakma népszerűsége azonos maradt.
  • Leginkább a kevés nyugat-európai / amerikai által beszélt, ill. ezek számára nehezen tanulható nyelvek válnak fontosabbá, amelyek beszélői a maguk részéről éppoly kevéssé beszélnek nyugati nyelveket:
    • kereskedelmileg fontosak a kelet-ázsiai nyelvek kínai, koreai, japán, valamint a thai
    • katonailag fontosak a nemzetközi konfliktus-régiók, főleg ahol jelen van az Egyesült Államok hadserege
  • 2003-ban több US-szoftvercég adott ki fordítóprogramokat arab, sőt pastu nyelvhez (az afganisztáni és a pakisztáni határterület nyelveinek egyike). Ugyancsak 2003-ban végzett a DARPA egy vak-kísérletet ismeretlen forrásnyelvek felismerésére. 2011 végén indították a BOLT programot kínai és arab szövegek angolra való fordításának céljával.[6][7]

Fordítási módszerek

Szótár-módszer

A forrásszöveg szavainak szótárból nyert céloldali megfelelői egymás után, az eredetivel azonos sorrendben kerülnek kiadásra. Ezt követően a szoftver a célnyelv mondatszerkesztési szabályai szerint rendezi a szavakat és alkalmazza a ragokat. Ez a legrégibb és legegyszerűbb gépi fordítási módszer, amely például a fenti orosz-angol rendszer alapja volt is.

Transzfer-módszer

A transzfer-módszer a klasszikus 3 lépésből álló gépi fordítási módszer: elemzés, transzfer, generálás. Az eljárás a második lépésről kapta a nevét. Mindenekelőtt a forrásszöveg nyelvtani struktúráját elemzi, gyakran fa-struktúrában. Ebből a választott transzfermódszertől függően gyakran szemantikai struktúrát vezet le. Ezt követően viszik át (=transzferálják) a struktúrákat a célnyelvre. Végül a célnyelven annak nyelvtani szabályainak megfelelően ismét mondatok keletkeznek és így képződik (=generálódik) a célszöveg.

Interlingua-módszer

Az interlingua-módszer elsőként a forrásszöveg nyelvtani információtartalmát elemzi, és ezt meghatározott szabályok szerint transzferálja egy „köztes nyelvre” (interlingua). A célnyelv nyelvtani információja ebből a köztes nyelvből képződik. Az interlingua-módszer hasznos a többértelmű kifejezéseknél. Így pl. a németül köznyelven megfogalmazott „Wenn ich arbeiten würde, würde ich mir ein Auto kaufen” (irodalmi német: „Wenn ich arbeitete, kaufte ich mir ein Auto”) mondat würde módbeli segédigéjét nem lenne helyes egy egyszerű transzfer-szabállyal wouldra fordítani („If I would work, I would buy a car”), mert az angolban az if-mondatokban a would nem használható. Az interlinguában a würde-információ absztrakt módon „irreális feltételre” fordulna, és az angolban szövegkörnyezettől függően a woulddal vagy anélkül realizálódna.

Példaalapú gépi fordítás (ang. Example-Based Machine Translation, EBMT)

A példa-alapú gépi fordítás magva egy fordítói mondattár, amelyben gyakran visszatérő mondatok és szólások vannak elmentve fordításukkal együtt. Statisztikailag Information-Retrieval-módszerekkel számítják ki, mennyire hasonlóak a fordítástár bejegyzései a forrásszöveg egyes mondataihoz. A végső fordítási javaslat a legjobban hasonlító mondatok fordításából áll össze.

Statisztikai gépi fordítás (Statistics-Based Machine Translation, SBMT)

A tulajdonképpeni fordítás előtt egy program kétnyelvű szövegeknek egy lehetőség szerint nagy szövegkorpuszát elemzi (pl. parlamenti jegyzőkönyvek korpuszát, mint a kanadai Hansard-Corpus). Ilyenkor a forrás- és a célnyelvi szavak és nyelvtani képletek gyakoriságuk és kölcsönös közelségük szerint rendeltetnek egymáshoz, és így egy szótár és egy nyelvtan-átviteli szabályzat jön létre. Ennek alapján fordíttatnak le a szövegek. A statisztikai gépi fordítás igen népszerű, mert a szóban forgó nyelvnek semmilyen ismeretét nem előfeltételezi. Emiatt a statisztikai gépi fordítás valós szövegállományok elemzésével olyan szabályokra is fényt deríthet, amelyeket a nyelvtudomány még nem tudott pontosan leírni.[8]

Neurális gépi fordítás (Neural Machine Translation, NMT)

A neurális gépi fordítás, ahogy a statisztikai gépi fordítás is, kétnyelvű szövegek elemzésén alapszik. Egy mesterséges neurális hálózat megtanulja ezeket a szövegeket, és elméleteket alkot a be- és a kimeneti szövegek közötti összefüggésekről.[9] Érdekessége, hogy a fordításból legtöbbször nem lehet levezetni, hogyan jött létre. Példa erre a DeepL[10] online szolgáltatás, amely a szövegeket általában precízebben fordítja le, mint a konkurens Google Fordító vagy a Bing Fordító.[11]

Gépi fordítás emberi segítséggel (Human-Aided Machine Translation, HAMT)

Az emberi segítséggel támogatott gépi fordításnál a felhasználónak a többértelmű vagy nehezen fordítható konstrukciókat magának kell lefordítania. Ez történhet előre, azáltal, hogy a felhasználó például a hosszú mondatokat rövidekre osztja fel, vagy interaktívan, például úgy hogy kiválasztja egy szó megfelelő jelentését. Nem tartozik a gépi fordításhoz a számítógéppel támogatott fordítás (Computer-Aided Translation, CAT vagy Machine-Aided Human Translation, MAHT), amelynél egy számítógépes program segíti az emberi fordítót a munkájában (automatikusan nem fordít). A gépi fordítás ezzel szemben automatikusan, ember beavatkozása nélkül jön létre.

Minőség

Értékelés

A gépi fordításkutatás az evaluációt használja a fordítási minőség skálázott értékeléséhez. A gépi fordítás fordításai először mondatonként kerülnek értékelésre; a mondatok normalizált összegéből ered a teljes szöveg minősége. A legtöbb esetben az értékelést a célnyelv egy anyanyelvi beszélője végzi, amit egy számmal fejez ki. Japánban pl. egy ötjegyű skálát használnak (0–4 pont):

  • 4 pont: Nagyon jól érthető vagy tökéletes; nincs benne nyilvánvaló hiba.
  • 3 pont: Egy-két rossz kifejezést tartalmaz, egyébként jól érthető.
  • 2 pont: Jóindulattal körülbelül ki lehet találni, mire gondolhattak eredetileg.
  • 1 pont: A mondat, ha egyáltalán értelmes, mást jelent, mint amit eredetileg mondani akartak. (Ennek oka gyakran a részben vagy egészen hibás nyelvtan-fordítás [struktúra]).
  • 0 pont:A mondat értelmetlen; olyan, mint a szavak véletlenszerűen összedobált, kaotikus csoportja.

A fordítási minőség automatikus értékeléséhez algoritmusokat használnak, mint pl. a Bleu-Score, amely az automatikus fordítás emberi referenciafordítással való hasonlóságát méri.[12] A Bleu-score és más értékelési módszerek is kritikát arattak, mert megbízhatatlanok és – főleg mondatszinten – csak megfelelő körülmények között képesek különbséget tenni jó és rossz fordítás között.[13] Mégis, az automatikus értékelés viszonylag jól korrelál az emberi értékelésekkel, főleg több ezer mondatos szövegdokumentumok értékelésekor.[14] Egy gépi előfordítás minőségének hatékony értékelési módszere az ún. találati rátán alapszik: „A terminusok (egyes szavak vagy állandó szókapcsolatok) száma, a dokumentumban szereplő valamennyi terminusra vonatkozólag, amelyeket a fordító változatlanul, mindenféle manuális utómunka nélkül átvehet (elhajlás – a mondatrész mondaton belüli pozíciója | a terminus mondatrészen belüli pozíciója)”.

Várakozások

A gépi fordítás jelenlegi teljesítménye sokak számára nem kielégítő. Alapjában véve a tudomány az emberi beszédet még nem érti teljes mértékben. A legtöbb nyelvtudós abból indul ki, hogy a tiszta nyelvértésen túlmenő kompetenciák hiányában a gépi fordításnak megvannak a határai, hogy sok fordítás nemcsak nagy mennyiségű koncepciós tudást, metatudást követel meg, hanem az emberi környezet mibenlétének és az emberközi interakciók konvencióinak ismeretét.

Gyakorlati problémák

A szuboptimális gépi fordításminőségnek nyomósabb, részben megoldható okai vannak:

  • A felhasználó nem ismeri a célnyelvet: Épp nyugati nyelvek közötti fordítások esetében a felhasználó a célnyelvet gyakran egy bizonyos mértékig maga is érti, így érzékenyebb a hibákra, mint az, aki kizárólag a fordításra van utalva.
  • Beszédstílus: Minden beszédstílusnak megvannak a különlegességei, amelyeket eddig még a nyelvészet sem írt le maradéktalanul. A gépi fordításrendszerek általában az írott újságnyelvből indulnak ki. Különösen rossz eredményt adnak a gépi fordításrendszerek az irodalmi szövegeknél, a beszélt nyelvnél és alkalmanként műszaki szövegeknél.
  • Túl kicsi vagy hibás szótár: A társadalom és a tudomány változásaival a nyelvek szókincse napról napra növekszik. Ezenkívül sok szónak több jelentése van (ld. homonímia), amely csak a szövegkörnyezet elemzésével egyértelműsíthető. A silány fordításokért nagy részben a szótárak hiányosságai felelősek. A legnagyobb gépi fordítóprogramok több millió bejegyzés és a jelentésárnyalatok sokszorosa között válogatnak.
  • Hiányzó transzfer-szabályok: Sok nyelvtani jelenség nyelvenként erősen eltér, ill. csak bizonyos nyelvekben lelhető fel. Ezen probléma megoldása gyakran nyelvészeti alapkutatást igényel; ezt a ráfordítást a fordítószoftver-gyártók igyekeznek elkerülni.
  • A számítástechnikai nyelvészet problémái: Emellett a gépi fordításnak sok egyéb problémája van, amelyek más számítógépes nyelvészeti alkalmazásoknál is felmerülnek, pl. a világismeret megértése.

Problémás nyelvtani területek

Nincs olyan gépi fordításrendszer, amely minden nyelvtani szabályt alkalmazna, ill. elemezne. Sokkal inkább abban bíznak, hogy egy ki nem elemzett nyelvtani jelenség a másik nyelven véletlenül hasonlóan működik, úgyhogy csak a szavakat kell lefordítani. Ilyen pl. a német der/die/das névelő, amelyet az angolban szinte mindig the-re és majdnem sohasem a-re kell fordítani. A „határozott névelőként” történő elemzés tehát elhagyható. Hogy német és angol között is kudarcot vallhat egy ilyen egyszerű fordítási feladat, a fenti if-mondat „würdével” jól példázza. A kevésbé közeli és nem rokon nyelvek között, mint a latin és a német vagy a kínai és a német, az ilyen közvetlen fordítások gyakran még szószinten sem biztos választások. Sok összetett nyelvtani jelenség még nincs a gépi fordítás számára feldolgozva. Néhány ilyen jelenség:

  • Névelők
  • Összetett névszók
  • Összetett mondatrészek
  • Vonatkozó névmások
  • Idő / Mód

Kereszthivatkozások

  1. John R. Pierce, John B. Carroll, et al.: Language and Machines – Computers in Translation and Linguistics. ALPAC report, National Academy of Sciences, National Research Council, Washington, DC, 1966.
  2. H.-D. Maas: Das Saarbrücker Übersetzungssystem SUSY. In: Sprache und Datenverarbeitung. 1978 (1).
  3. Axel Biewer et al.: A modular multilevel system for French-German translation. In: Computational Linguistics (Special issue on machine translation). Volume 11 Issue 2-3, April-September 1985, S. 137-154.
  4. Verbmobil – Info Phase 2. In: verbmobil.dfki.de. Abgerufen am 16. Juli 2016.
  5. statistical machine translation live. Och, Franz: Google Research Blog. Abgerufen am 21. Juli 2013.
  6. Broad Operational Language Translation (BOLT). In: www.darpa.mil. Abgerufen am 16. Juli 2016.
  7. BOLT | Linguistic Data Consortium. In: www.ldc.upenn.edu. Abgerufen am 16. Juli 2016.
  8. Phillip Koehn: Statistical Machine Translation. Hrsg.: Cambridge University Press. ISBN 978-0-521-87415-1.
  9. Dzmitry Bahdanau, et al.: Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of the International Conference on Learning Representations (ICLR), San Diego, CA, 2015.
  10. DeepL. DeepL GmbH, Köln; abgerufen am 18. September 2017.
  11. Anna Gröhn: Online-Übersetzer im Vergleich: “Ich will den Hals langsam atmen”. In: Spiegel Online. 17. September 2017 (spiegel.de [abgerufen am 18. September 2017]).
  12. Kishore Papineni et al.: BLEU: a method for automatic evaluation of machine translation. In ACL-2002: 40th Annual meeting of the Association for Computational Linguistics. 2002, S. 311–318.
  13. Callison-Burch, C., Osborne, M. and Koehn, P. (2006) “Re-evaluating the Role of BLEU in Machine Translation Research” in 11th Conference of the European Chapter of the Association for Computational Linguistics: EACL 2006 pp. 249–256
  14. Chris Callison-Burch, et al.: Findings of the 2012 Workshop on Statistical Machine Translation. In Proceedings of the Seventh Workshop on Statistical Machine Translation. 2012, S. 22–23.
  15. Maschinelle Übersetzer: DeepL macht Google Translate Konkurrenz. heise.de, 29. August 2017

Alkalmazások

Lásd még

Irodalom

  • Douglas Arnold et al.: Machine Translation. An Introductory Guide. Blackwell, Manchester u. a. 1994, ISBN 1-85554-246-3.
  • John W. Hutchins: Machine Translation. Past, Present, Future. Harwood und Wiley, Chichester/New York 1986, ISBN 0-470-20313-7.
  • Uwe Muegge: Lokalisierung und Maschinelle Übersetzungssysteme. In: Jörg Hennig, Marita Tjarks-Sobhani (Hrsg.): Lokalisierung von technischer Dokumentation. Schmidt-Römhild, Lübeck 2002, ISBN 3-7950-0789-5,  110–121.
  • Kurt Eberle: Integration von regel- und statistikbasierten Methoden in der Maschinellen Übersetzung. In: Uta Seewald-Heeg, Daniel Stein (Hrsg.): Maschinelle Übersetzung – von der Theorie zur Anwendung. JLCL, Heft 3/09, 2009.

Linkek

Leave a reply

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.