Howto - Translating PDF files with Iceni Infix and OmegaT

Guía: Traducir ficheiros en formato PDF con Iceni Infix e OmegaT

Esta guía explica como usar OmegaT e Iceni Infix para traducir ficheiros en formato PDF.

Situación

Existen dous tipos de ficheiros PDF: os \xABverdadeiros\xBB e os \xABescaneados\xBB.

Un ficheiro \xABescaneado\xBB é un ficheiro no que o formato PDF é un simple contedor de escaneos de documentos físicos. Polo xeral estes escaneos conteñen texto para traducir. Non existe unha forma de traducir un ficheiro PDF escaneado a non ser que recree dende cero o texto, xa sexa copiando o texto ou usando un software de OCR (recoñecemento óptico de caracteres), e o formato do texto. Esta guía non vai falar sobre os PDF escaneados.

Os verdadeiros ficheiros PDF (que en ocasións son denominados como ficheiros PDF \xABnativos\xBB ou \xABdestilados\xBB, inda que \xABdestilados\xBB ten un significado máis preciso) son ficheiros que foron exportados dende outro aplicativo, normalmente un programa de autoedición. O proceso adecuado para traducir un ficheiro PDF verdadeiro normalmente pasa por crear a tradución no programa de autoedición no que se creou o texto orixinal e despois seguir os mesmos pasos usados para crear o ficheiro PDF. Editar directamente os ficheiros en formato PDF para traducilos non é unha opción práctica. Polo xeral, as persoas que traducen ficheiros en formato PDF optan por convertelos a outro formato de ficheiro antes de traducir, como por exemplo RTF. Os resultados poden ser adecuados para este propósito, pero non acadarán os estándares profesionais do proceso orixinal do programa de autoedición.

Iceni Infix

Iceni Infix ofrece unha solución adicional. Infix é un editor de PDF que permite editar directamente o texto neste tipo de ficheiros. Inda que é discutible se os resultados deste proceso son comparables a empregar un programa de autoedición profesional é moi probable que sexan mellores ca converter os ficheiros a formatos totalmente novos (como RTF).

A versión \xABProfesional\xBB de Infix ten unha función adicional que resulta interesante para as persoas adicadas á tradución: exportar texto en formato XML. Poderá exportar o texto a un ficheiro XML e traducilo cunha ferramenta TAC. Poderá importar de novo o texto traducido a Infix Professional. OmegaT é unha das ferramentas coas que pode usar este proceso. Describiremos o proceso nesta guía.

Plataformas

A pesar de que Infix é un aplicativo de Windows, Iceni traballou para facilitar o seu uso en Linux e Macintosh. Poderá usar Infix Professional nestas plataformas a través de Crossover Linux ou Crossover Macintosh. Crossover Linux e Crossover Macintosh custan aproximadamente uns 40 \x80. Ten demos gratuítas dispoñibles. Poderá obter Crossover Linux e Crossover Macintosh na web de Codeweavers. Ten dispoñible información específica para executar Iceni Infix en Crossover Linux ou Crossover Macintosh.

Procedemento para traducir un ficheiro en formato PDF

Obteña Iceni Infix Professional na páxina web de Iceni e instáleo. Ten unha versión de demostración dispoñible. No momento no que se redactou este texto a versión completa custaba uns 150 $. Se emprega Linux ou Macintosh, obteña e instale a versión de Crossover adecuada antes de instalar Iceni Infix Professional. (Existen informes que indican que é posible executar Infix a través de WINE.)

Execute Iceni Infix e abra o ficheiro PDF que desexa traducir. O exemplo desta captura de pantalla é a guía de PEME da Comisión Europea en lingua húngara.

infix1.png

Exporte o texto do PDF no formato XML de Infix con Document > Translate > Export XML. Garde o PDF. Teña en conta: cando exporta o ficheiro XML dende o PDF, Infix crea unha nota no ficheiro na que indica onde pertencen as pezas do texto (\xABstories\xBB), polo que deberá empregar esta versión do ficheiro cando volva a importar o ficheiro XML traducido.

Cree un proxecto de OmegaT seguindo o método habitual.

Se está empregando a versión de OmegaT 2.3 ou unha superior, só terá que poñer o ficheiro XML exportado dende Infix no cartafol /source do seu proxecto de OmegaT.

Se está usando unha versión de OmegaT anterior, recomendámoslle que actualice a unha versión máis recente. Unha alternativa que ofrece bos resultados sería traducir o ficheiro XML de Infix empregando filtros de HTML. Para empregar estes filtros só ten que cambiar a extensión do ficheiro XML exportado de .xml a .html.

Volva a cargar o seu proxecto de OmegaT. Xa pode traducir o texto (como se mostra na captura de pantalla).

infix2.png

Teña en conta: OmegaT converte as etiquetas <BR/> de Infix a <brx/>. Isto permite empregar a regra de segmentación de HTML para decidir se a segmentación debería aplicarse nestes puntos.

Cando remate o proceso de tradución, cree o documento traducido seguindo o procedemento habitual (Ctrl+S, Ctrl+D). Sitúe o ficheiro XML traducido no cartafol /target do proxecto de OmegaT. Se cambiou a extensión do ficheiro a .html terá que cambiar a extensión do ficheiro traducido a .xml.

En Iceni Infix terá que importar o ficheiro XML traducido de novo ao ficheiro PDF dende o que o exportou. Garde os cambios.

Se todo foi ben, o ficheiro traducido será similar ao orixinal, pero terá o texto traducido. (Na captura de pantalla pode ver que só os tres primeiros segmentos foron traducidos.)

Teña en conta que se usou a versión de demostración de Iceni Infix para realizar este proceso o ficheiro PDF traducido terá unha marca de auga de Iceni. Para traducións nas que non precise un resultado profesional, este non debería ser un problema. Iceni Infix tamén lle permite gardar ficheiros PDF en formato RTF, pero neste caso a versión de demostración só é útil para realizar probas, xa que realiza substitucións aleatorias de caracteres.

infix3.png

Como tende a ser habitual cos aspectos técnicos (e coa tradución), existen algúns problemas.

É posible que se atope con que a fontes incrustadas no PDF non conteñen todos os caracteres que precisa. Una solución sería obter e instalar as fontes necesarias, ou empregar unha fonte distinta (o cal pode non ser unha solución adecuada).

É moi probable que en certos puntos a súa tradución sexa máis longa ca o texto orixinal. Deberá solucionar este problema a través de Infix, onde podería, por exemplo, aumentar o tamaño da caixa que contén o texto. Infix ten funcións para lidar con estes e outros problemas que van máis alá da intención desta guía.

Pode atoparse con segmentos rotos por saltos de liña forzados en lugares inapropiados. Esta situación pode resultarlle familiar se traduciu ficheiros de PowerPoint en OmegaT ou calquera outra ferramenta TAC. Para resolvelo, volva a abrir o ficheiro PDF orixinal en Infix. Seleccione Tools > Text tool. Ao facer clic no texto en cuestión aparecerá unha caixa de texto e marcas de formato. A captura de pantalla mostra un exemplo: infix4.png Elimine o salto de liña. Garde os cambios e volva exportar o PDF ao ficheiro XML (e cambie a extensión do ficheiro se fose necesario) e volva cargar o seu proxecto de OmegaT. Se o seu ficheiro contén moitos saltos inapropiados resultará máis eficiente eliminalos todos nunha soa ocasión, alternando entre OmegaT e Infix para situalos.

Algúns saltos de liña inadecuados poden requirir que cambie a posición do texto. Nestes casos, resulta práctico eliminalos antes de exportar o ficheiro a XML para obter segmentos cohesionados para traducir, e despois volver a introducilos en Infix ao final do proceso.

Copyright Marc Prior 2011