Internet se mění v pověstný Babylon
Říká se, že informační a komunikační technologie sjednotily svět do tzv. globální vesnice. Uvnitř tohoto pomyslného rurálního útvaru ovšem nepřestala existovat minimálně jedna významná bariéra. Zmíním-li jméno jistého starověkého města, jistě se dovtípíte, o jakou překážku jde. Tím městem je mezopotamský Bábel, u nás známější jako Babylon. Svět se z pohledu komunikačního propojení zmenšil, v jistých ohledech snad i zjednodušil, ale počet užívaných jazyků vzrostl. Pokud někomu nestačí toto relativně abstraktní podání, nechť si představí, v kolika jazycích komunikoval středověký obchodník ve střední Evropě. Šibal by odpověděl, že se vždy někdo s latinou našel a německy uměl kdekdo. Možná ano. I angličtina dnes zdánlivě představuje pověstnou lingua franca. Ale platí to pro miliardu Indů a obdobné množství Číňanů? Autoři projektu SMART si myslí, že nikoli. Jdou dokonce ještě dál a s podporou statistik o jazykové vzdělanosti národů tvrdí, že novodobý Babylon není daleko, leč lze proti němu rázně zakročit. Akronym SMART rozepsaný znamená Statistical Multilingual Analysis for Retrieval and Translation. V rámci projektu vznikla technologie strojového překladu, která se od svých současnic i předchůdkyň liší schopností automatického učení v reálném čase a na velmi malém vzorku. Strojový překlad není žádnou novinkou. Podle tvůrců SMART šlo o jeden z prvních problémů, na něž se vědci zaměřili již v 50. letech minulého století. Ani statistický strojový překlad není žádnou novinkou. Na něm začala ICT obec pracovat počátkem 90. let minulého století. Technologicky pracuje s tisícovkami reálných překladů mezi dvěma jazyky, podle nichž nastavuje pravidla pro řešení konkrétních situací. Téměř vše z existujících přístupů SMART převzal. Disponuje slovníky, sleduje kontext, pracuje s rolemi expertů anebo statisticky odhaduje spolehlivost překladu. Navíc se sám učí nové termíny, jejich překlady a vyhodnocuje způsoby užití. K „přežvýkání“ mu autoři předkládají relativně malé soubory dokumentů, u nichž definují kontext a příklady situací. V překladu jádra sdělení se SMART již údajně nemýlí. Pokud zatoužíte po implementaci softwarového polyglota do svých produktů, vyhledejte open source systémy Sinuhe nebo Max-Margin Based Translation. Oba SMART využívají.
