Howto - Translating PDF files with Iceni Infix and OmegaT

Návod: Překlad souborů PDF pomocí Iceni Infix a OmegaT

Tento návod poskytuje informace o použití OmegaT a Iceni Infix při překladu PDF souborů.

Nástin situace

Soubory PDF se řadí do dvou kategorií: pravé a „skenované“ PDFka.

„Skenovaný“ soubor PDF je takový soubor, u kterého formát PDF převážně slouží jako vhodný kontejner pro skeny tištěných stránek. Často takové skeny obsahují text, který má být přeložen. Neexistuje žádný způsob překladu skenovaných souborů PDF než nějakým způsobem obnovit text, a to buď ručním přepsáním nebo pomocí OCR (optické rozlišení znaků), a vytvořit tak vzhled stránky úplně od začátku znova. Tento návod se skenovaným souborům PDF dále nebude věnovat.

Opravdové soubory PDF (někdy zvané „nativní“ nebo „distilled“ PDF soubory, i když „distilled“ [„destilovaný“] je přesnější označení) jsou takové soubory PDF, které vznikly exportem z jiné aplikace, obvykle z oblasti programů elektronické přípravy dokumentů (DTP; desktop publishing). Aby bylo možno překládat soubory PDF, pak správný postup obvykle znamená vytvořit překlad v původní (DTP) aplikaci a pak projít stejné kroky produkce PDF, které byly učiněny u originálu. Překlad souboru PDF jeho přímou úpravou zpravidla není moc praktické. Při překladu souborů PDF „jen pro informaci“, překladatelé ještě před zahájením překladu často použijí konverzi souboru PDF na jiný formát, např. RTF; výsledky mohou být pro zvolený účel dostačující, ale nebudou odpovídat profesionálním standardům původního DTP zpracování.

Iceni Infix

Iceni Infix nabízí další možnost. Infix je editor PDF, tj. text v PDF můžete upravovat přímo. I když je diskutabilní, zda výsledky tohoto postupu budou srovnatelné s opětovným vytvořením vzhledu stránky překladu nějakým DTP profesionálem, ale budou pravděpodobně lepší než převod na zcela odlišný formát (jako např. RTF).

„Profesionální“ verze editoru Infix má další funkce, které by překladatele mohly zajímat: export textu v XML. Toto umožňuje exportovat text do souboru XML, který již lze překládat v CAT nástroji. Přeložený text můžete pak opět importovat do Infix Professional. OmegaT patří mezi CAT nástroje, pro které lze takovýto postup využít. Postup je popsán v tomto návodu.

Platformy

I když Infix je aplikací pro prostředí Windows, Iceni se překonal a vyšel vstříc i uživatelům Linuxu a Macintosh. Infox Professional lze použít na těchto platformách ve spojení s Crossover Linux a Crossover Macintosh. Crossover Linux a Crossover Macintosh stojí průměrně 40 €. Jak je zvykem, demo verze jsou dostupné také. Crossover Linux a Crossover Macintosh můžete získat na stránkách Codeweavers' website. Specifické informace o provozu programu Iceni Infix pod Crossover Linux nebo Crossover Macintosh jsou dostupné také.

Překlad souboru PDF: postup

Stáhněte si a instalujte Iceni Infix Professional ze stránky Iceni. Dostupná je demoverze; v čase psaní tohoto textu stojí plná verze přibližně 150 USD. Pokud používáte Linux nebo Macintosh, pořiďte si a instalujte odpovídající verzi Crossover před instalací Iceni Infix Professional. (Infix údajně pracuje i pod WINE.)

Spusťte Iceni Infix a otevřete soubor PDF, který chcete překládat. Příklad na obrázku je Směrnice Evropské komise v maďarštině.

infix1.png

Exportujte text z PDF do XML formátu programu Infix přes nabídku Document > Translate > Export XML. Uložit PDF. Toto je důležité: když exportujete soubor XML z PDF, Infix vytvoří poznámku v souboru kam pak patří všechny vyňaté části textu, takže musíte použít tuto verzi soubor, když chcete opět importovat přeložený XML soubor.

Vytvořte projekt OmegaT obvyklým způsobem.

Pokud používáte verzi OmegaT 2.3 nebo novější, jednoduše umístěte exportovaný soubor XML z Infix jak bylo popsáno výše do adresáře /source vašeho OmegaT projektu.

Jestliže používáte starší verzi OmegaT, pak se doporučuje upgradovat vaši instalaci OmegaT. Jinak by mělo jít překládat soubor XML z Infix s dobrými výsledky za použití starší verze OmegaT prostřednictvím filtru HTML. Aby byl tento filtr použit, prostě změňte koncovku souboru XML exportovaného z Infox místo .xml na .html.

Nechejte projekt v OmegaT znovu načíst. Teď již můžete překládat text (viz snímek obrazovky).

infix2.png

Poznámka na okraj: filtr aplikace OmegaT pro Infix zobrazuje tag Infixu <BR/> jako <brx/>. Toto pak umožňuje použít pravidlo pro segmentaci HTML a rozhodnout tak, jestli na takovýchto místech aplikovat segmentaci nebo ne.

Po dokončení překladu vytvořte přeložené dokumenty obvyklým způsobem (Ctrl+S, Ctrl+D). Přejděte k přeloženému souboru XML v projektovém adresáři /target aplikace OmegaT. Pokud jste změnili koncovku souboru na .html, změňte koncovku přeloženého souboru zpět na .xml.

Opět v programu Iceni Infix importujte přeložený soubor XML zpět na formát PDF, ze kterého jste text prvně exportovali. Uložte změny.

Když vše dobře šlo, váš překlad bude vypadat stejně jako originál, ovšem přeložen. (Viz snímek obrazovky: zde byly přeloženy pouze první tři segmenty.)

Pokud při své práci použijete demo verzi programu Iceni Infix, přeložený PDF dokument bude obsahovat vodoznak Iceni. U překladů „pro informaci“, by toto nemuselo vadit. Iceni Infix také umožňuje uložit soubory PDF do formátu RTF, ale v tomto případě je demoverze vhodná pouze pro demonstraci účelu, protože znaky jsou převedeny jen namátkově.

infix3.png

Jak už tak bývá u technických (a překladových) věcí, i tady je jeden háček.

Může se stát, že vestavěná písma v PDF neobsahují všechny znaky, které potřebujete. Pravděpodobně můžete tuto situaci vyřešit získáním a instalací potřebných písem; nebo můžete vybrat pro tento účel jiné písmo - což může ale nemusí být vhodné řešení.

Je tu velká pravděpodobnost, že v některých případech bude překlad delší než originál. Toto se musí řešit uvnitř Infix, např. zvětšení pole obsahujícího text. Infix má funkce, které toto umí zpracovat a poradí si i s ostatními potížemi, které v rámci tohoto návodu nelze všechny popsat.

Můžete se setkat s tím, že segmenty jsou zalomeny ukončením řádku na nevhodném místě. Tato situace je vám jistě známá, pokud jste překládali soubory Powerpoint prostřednictvím OmegaT, nebo podobně u jiných CAT nástrojů. Aby se toto vyřešilo, otevřete původní soubor PDF v Infix. Vyberte Tools > Text tool. Klikněte na sporný text a zobrazí se textové pole s formátovacími značkami. Snímek obrazovky ukazuje příklad: infix4.pngOdstranit zalomení řádku. Pak uložte změny a znovu exportujte PDF do XML (a změňte koncovku souboru atd.), a znovu jej importujte do svého projektu OmegaT. Pokud váš soubor obsahuje spousty takovýchto nevyhovujících zalomení, je efektivnější je odstranit všechny najednou, přepínáním mezi OmegaT a Infix si je necháte zobrazit.

Některé nevyhovující ukončení řádků mohou být požadovány pro správné umístění textu. V takovýchto případech je praktické odstranit je před exportem do XML, takže k překladu jsou vám předkládány navazující segmenty, a pak budou opět vloženy v Infix na konci zpracování projektu.

Copyright Marc Prior 2011