Compatibility

Návod: Kompatibilita v rámci OmegaT

Tento návod popisuje informace o kompatibilitě aplikace OmegaT s ostatními programy.

Obecné poznámky

V současnosti je standardní postup takový, že profesionální překladatelé dostávají a odevzdávají texty v digitální podobě, uživatelé OmegaT samozřejmě mají zájem na tom, aby byla zajištěna kompatibilita s ostatními programy. Tento návod má za cíl poskytnout informace o této oblasti.

Obecné poznámky: „kompatibilita“ je jen zřídka naprosto jednoznačná, typu „ano“ a „ne“. Když prodejce programu prohlašuje, že jeho produkt je kompatibilní s jiným software, tato kompatibilita zřídka dosahuje 100%. A naopak, když některé produkty nejsou zjevně přímo kompatibilní, je často možné nalézt postupy, které lze použít současně u různých programů. Otázkou, která tu musí být zodpovězena je, zda jsou tyto postupy přijatelné v rámci výsledků a vynaloženého úsilí, a lze očekávat, že odpověď bude u každého uživatele trochu jiná. Jinými slovy, „kompatibilita“ se netýká jen produktu, ale také pracovního postupu.

Operační systémy

OmegaT poběží pod jakýmkoliv systémem, na kterém je možno nainstalovat prostředí JRE (Java Runtime Environment). V současnosti sem patří všechny verze Microsoft Windows od verze Windows 98 a novější, Mac OS X a většina Linuxových distribucí.

Zdrojové texty (soubory na překlad)

Aktuální seznam všech podporovaných souborových formátů se nachází v uživatelské příručce OmegaT. Níže uvedený seznam není kompletním seznamem všech souborových formátů, které umí OmegaT zpracovat, ale je omezený na vybrané typy dle konkrétního zájmu běžného uživatele.

Překladové paměti

Pro překladové paměti existuje mezinárodní standard: TMX, neboli Translation Memory eXchange (Výměna překladových pamětí). Byl přijat velkou částí uživatelů a je podporován téměř všemi současnými CAT nástroji.

Standard TMX existuje jak v různých verzích, tak i na různých úrovních. Rozlišování je důležité pro účely kompatibility. Standard se stále vyvíjí; na tuto skutečnost odkazují samotné různé verze. Každá úroveň („Level“) obsahuje specifické údaje k formátování obsažené v souboru TMX:

Vybrané jiné CAT nástroje (jako např. TRADOS) jsou schopné exportovat různé soubory TMX v různých verzích. OmegaT podporuje všechny současné verze TMX, ale pravděpodobně budou lepší výsledky, když soubory TMX budou ve verzi 1.4b. 

Nástroje, které podporují různé úrovně souborů TMX jsou v zásadě mezi sebou stále kompatibilní. Formátovací údaje obsažené ve vyšší úrovni budou pro „ostatní“ nástroje bezvýznamné, ale textová informace bude zobrazována i tak, je možno nalézt shody, atd.

OmegaT používá mezinárodní standardy TMX jako svůj nativní formát překladové paměti. Některé CAT nástroje stále využívají vyhrazené proprietární formáty překladových pamětí, ale ve skutečnosti všechny podporují import a export souborů TMX. V praxi to vypadá tak, že překladatelé mohou odevzdávat překladové paměti svým zákazníkům a naopak, a pro příjemce slouží tyto soubory buď jako bezprostřední nebo budoucí reference; jestli se mají tyto soubory použít pro automatický pracovní postup je nutno počítat se zmíněným způsobem použití.

Jiné důležité body ohledně souborů TMX:

Standard TMX obsahuje definici, které znaky jsou přípustné. Ne všechny CAT nástroje jsou stejně přísné při zachovávání těchto definicí, proto některé CAT nástroje nejsou schopné přímo otevřít soubory TMX, které vytvořily určité jiné CAT nástroje. OmegaT zásadně dodržuje podmínky a je v mnohém tolerantní, přitom si všímá pochybení jiných nástrojů; pokud tu nastanou problémy, je možno je obecně řešit poměrně jednoduše přes funkci Najít a nahradit v textovém editoru a ošetřit tak nepovolené znaky v souboru TMX.

Soubory TMX jsou kódovány v Unicode, mohou mít kódování UTF-8 nebo UTF-16. Soubory TMX, které byly vytvořeny pod Windows, mohou začínat označením pořadí bajtů („byte-order mark“; BOM). Tento rozdíl v zásadě nevede k problémům s kompatibilitou.

Problémy kompatibility mohou vyvstat z rozdílů v použitých jazykových kódech. OmegaT podporuje jazykové kódy ve formátu „xx“, „XX“, „xxYY“ a „XX-YY“, kde xx nebo XX znamená jazyk, yy nebo YY znamená region. Přesněji řečeno, ISO standard pro jazykové kódy vyžaduje formát „xx-YY“ (např.: „en-GB“ pro britskou angličtinu); i když tuto variantu OmegaT podporuje, výchozí konvence v OmegaT nabízí formát „XX-YY“, např. „EN-GB“. OmegaT je tolerantní když čte soubory TMX: přijme soubory s en-GB, en-US, en, EN, adt. Ne všechny CAT nástroje poskytují stejnou míru tolerance a některé proto nezobrazí očekávané shody, pokud jazykové kódy nejsou dostatečně vyhovující. Tato nekompatibilita se dá řešit vyhledáním a nahrazením příslušných kódů jazyků v souboru TMX v odpovídajícím textovém editoru. Jiným zdrojem nekompatibility jsou tříciferné kódy jazyků, které OmegaT vůbec nepodporuje. (Toto je náhodou omezení Javy, ne samotné aplikace OmegaT.)

Pár bodů ohledně proprietárních souborů překladových pamětí:

Tradiční formát soubor překladové paměti programu Wordfast budí zvláštní zájem, což vychází z jeho jednoduchosti: sestává z prostého textového souboru s překladovou jednotkou (segmentem) na každém řádku, na kterém jsou zdroj a cíl od sebe odděleni tabulátorem. Tento formát lze jednoduše převést na formát TMX pomocí nástrojů třetích stran, jako je např. Wf2TMX. Pro tento účel lze také použít Anaphraseus.

Soubory glosáře

Soubory glosáře OmegaT jsou soubory obsahující prostý text ve formátu:

výraz zdrojového jazyka    <tab>    výraz cílového jazyka    <tab>    dodatečná informace

Některé jiné CAT nástroje jsou schopné importovat a exportovat soubory glosáře v tomto formátu, nebo v podobném formátu prostého textu, které lze jednoduše vytvářet ze souborů glosáře(například pomocí operací hledat & nahradit v Microsoft Wordu).

OmegaT také umí číst glosáře ve formátu TBX, což je průmyslový standard pro formát souborů glosáře.

OmegaT nemůže importovat nebo číst soubory glosáře v proprietárních binárních formátech, jako je např. Trados Multiterm.

Dvoujazyčné formáty nástrojů CAT

Spousta CAT nástrojů využívá zprostředkovaný formát dvoujazyčného souboru, tj. soubor obsahující jak segmenty zdrojového, tak i cílového jazyka, a v některých případech také strukturu původního souboru. Původně byly tyto formáty dvoujazyčných souborů produkovány vždy podle architektury daného nástroje. Nicméně se staly důležitým fenoménem při překladu za využití CAT nástrojů, a častou představují největší překážku v kompatibilitě mezi OmegaT a jinými CAT nástroji (nebo vlastně obecně mezi CAT nástroji).

Existují nejméně tři důvody proč zákazník může vyžadovat dodání překladu v určitém formátu dvoujazyčného souboru (místo toho, aby jednoduše požadoval jen přeložený soubor a eventuálně také překladovou paměť):

1. Některé CAT nástroje, zejména TRADOS, jsou schopné importovat širokou škálu souborových formátů, včetně formátů desktop publishing, a připravit je na překlad v příslušném nástroji. Taková „připravená“ forma je zpravidla právě formát dvoujazyčného souboru daného nástroje. Bez přípravy tímto způsobem, může být formát souboru pro překladatele nepřístupný.

2. Překlad je jen částí uceleného průběhu práce daného zákazníka. Překlad může být např. předán korektorovi k dalším úpravám. Pokud by úpravy korektora měly být zahrnuty v úložišti překladové paměti, kterou si chce zákazník ponechat, musí být tyto změny provedeny před tím, než jsou vytvořeny finální dokumenty. Toto může být provedeno buď s příslušným CAT nástrojem nebo v některých případech v externím formátu dvoujazyčných souborů, které zvládá daný nástroj přečíst.

3. Zákazník si přeje obdržet překladovou paměť, za jejíž pomoci může v budoucnu zpracovat jiné texty: jinými slovy, k provedení „předběžného překladu“ budoucích textů, na základě stávající překladové paměti. Aby bylo možno tento proces provést automaticky, musí být splněn dvě podmínky: za prvé, překladová paměť musí obsahovat formátovací údaje (vizte výše); a za druhé pravidla segmentace, která jsou aplikována na text, musí být stejná jako ta, která byla užita při vytvoření překladové paměti (nebo její části). Pro zákazníka je nejjednodušším způsobem, jak si zajistit, že tyto dvě podmínky jsou dodrženy, je, že si sám provede předběžný překlad textu před tím, než text předá překladateli (definování způsobu segmentace), a vytvořit překladovou paměť v CAT nástroje dle vlastního výběru po té, co obdrží přeložený zprostředkující dvoujazyčný soubor od překladatele (ujistí se, že formátovací údaje obsažené v překladové paměti budou kompatibilní s budoucími projekty).

Některé formáty dvoujazyčných souborů lze zpracovat v OmegaT, a ne vždy s velkou námahou. Nicméně je důležité tomuto procesu rozumět. Jednotlivé formáty dvoujazyčných souborů jsou popsány níže.

XLIFF

XLIFF je průmyslový standardní formát pro dvoujazyčné soubory. Podporuje jej hned několik CAT nástrojů a prakticky jsou některé CAT nástroje efektivně „vyvíjeny“ pro XLIFF standard: například Heartsome a Swordfish. Protože se jedná o standard, tak výhodou XLIFF je, že filtry souborů, poskytované jedním producentem CAT nástrojů pro konverzi mezi určitým formátem a XLIFF (a následné dokončení práce na překladu, a zpět), mohou být teoreticky použity pro přípravu souborů ve formátu týkající se překladu v jakémkoliv CAT nástroji schopném podporovat XLIFF. Prakticky to znamená, že práce s XLIFF často vyžaduje užití nástrojů, které nejsou pro uživatele příliš komfortní.

OmegaT má jen základní podporu pro XLIFF, a postup pro použití XLIFF v OmegaT ve spojení s nástroji Rainbow se nachází zde. Filtry dostupné pro formáty souborů jsou obzvláště příznačné spíše pro odvětví IT než pro soubory koncových uživatelů.

Trados „uncleaned RFT“ / „nečištěné RTF“

Formát souborů Trados „uncleaned“ RFT, kterým se často říká „uncleaned files“ / „nečištěné soubory“, byl po mnoho let nejběžnějším formátem dvoujazyčných souborů, které se používaly při překladatelské práci. Svůj původ má v použití MS Word jakožto prostředí pro CAT nástroj Trados. Navíc kromě Tradosu, některé další CAT nástroje také podporují formát „uncleaned RFT“, zejména Wordfast Classic.

V zásadě sestává tento formát ze souboru RTF, ve kterém se střídají zdrojové a cílové segmenty. Tyto segmenty jsou označeny a vymezeny speciálními znaky a styly formátování MS Word.

Nedávno (2008) byl vyvinutý skript (jen pro Windows) a postup, který umožňuje uživatelům OmegaT vytvořit soubory Trados uncleaned RTF pro odevzdání po dokončení jejich překladu. Více informací naleznete v návodu „Export formátu z OmegaT do Trados uncleaned RTF“.

Trados TTX

Formát Trados TTX tvoří protějšek k formátu „uncleaned RTF“ pro Trados Tag Editor, který narozdíl od Trados Workbench, nepracuje v přímé kombinaci s MS Wordem. TTX je formát založený na XML. Plugin OmegaT je teď dostupný pomocí takových prostředků, které umožní zpracovat tento formát v OmegaT.

Wordfast TXML

Formát Wordfast TXML je nativní interní formát nového programu Wordfast Professional (také známý jako Wordfast 6.0), z dílny Wordfast. Jak jeho jméno napovídá, je založen na formátu XML. V současnosti není aplikací OmegaT podporován, a podle vyjádření zástupců Wordfastu, bude pravděpodobně v blízké době nahrazen formátem XLIFF.

Déjà Vu „External Views“

Zajímavým rysem Déjà Vu je jeho souborový formát „External Views“. Tento formát umožňuje uživatelům OmegaT odevzdávat dvoujazyčné soubory uživatelům Déjà Vu DVX, kteří pak mohou nadále tyto soubory upravovat nebo je začlenit do svého automatického pracovního postupu. Více detailů naleznete v návodu Déjà Vu „External Views“.

Copyright Marc Prior 2009-2011