Howto - Translating PDF files with Iceni Infix and OmegaT

OmegaT, l'eina de memòria de traducció lliure

Manual: Traducció de fitxers PDF amb l'Infix d'Iceni i l'OmegaT

En aquest manual s'ofereix informació sobre com utilitzar l'OmegaT i l'Infix d'Iceni per traduir fitxers PDF.

Descripció del context

Els fitxers PDF es classifiquen en dues categories: PDF natius i PDF «escanejats».

Un fitxer PDF «escanejat» és un fitxer al qual el format PDF només funciona com un útil recipient per als fulls escanejats. Sovint, aquests escanejos contenen text que cal traduir. L'única manera de traduir un fitxer PDF escanejat consisteix a tornar a crear el text, ja sigui escrivint-lo de nou o mitjançant OCR (reconeixement òptic de caràcters), i tornar a crear de zero el disseny del fitxer. En aquest manual no es tracta el tema dels PDF escanejats.

Els fitxers PDF autèntics (anomenats de vegades fitxers PDF «natius») són fitxers PDF que s'han exportat d'una altra aplicació, normalment d'un programa d'autoedició. Per poder traduir un PDF autèntic, el procediment correcte sol consistir a fer la traducció amb el programa d'autoedició original i, a continuació, seguir el mateix procediment per a la producció del PDF que es va seguir en la creació de l'original. La traducció dels fitxers PDF mitjançant l'edició directa no sol ser una opció pràctica. Per a traduir fitxers PDF amb un objectiu merament informatiu, els traductors solen recórrer a convertir el fitxer PDF a un altre tipus de format de fitxer abans de fer-ne la traducció, com ara RTF; pot ser que els resultats compleixin l'objectiu, però no s'aconseguirà la qualitat professional del procés d'autoedició original.

L'Infix d'Iceni

L'Infix d'Iceni ofereix una opció més. L'Infix és un editor de PDF; és a dir, permet editar directament el text dels fitxers PDF. Tot i que es pot qüestionar si els resultats d'aquest procés seran comparables a la recreació del format de la traducció per part d'un professional de l'autoedició, probablement seran molt millors que la conversió a formats completament diferents (com ara RTF).

La versió «Professional» de l'Infix inclou una altra funció que pot interessar als traductors: l'exportació de text a XML. Aquesta funció permet exportar el text a un fitxer XML que es podrà traduir amb una eina TAO. En acabar, el text traduït es podrà tornar a importar a l'Infix Professional. L'OmegaT és una de les eines TAO per a les quals es pot seguir aquest procés. En aquest manual se'n descriu el procediment.

Plataformes

Tot i que l'Infix és una aplicació per al Windows, Iceni ha fet l'esforç de posar-la a disposició dels usuaris del Linux i el Macintosh. L'Infix Professional es pot utilitzar en aquestes plataformes juntament amb el CrossOver Linux i el CrossOver Macintosh, respectivament. El CrossOver Linux i el CrossOver Macintosh costen aproximadament 40 €, però també n'hi ha versions de prova gratuïtes. El CrossOver Linux i el CrossOver Macintosh es poden aconseguir al lloc web de Codeweavers. També hi trobareu informació específica sobre l'execució de l'Infix d'Iceni al CrossOver Linux o al CrossOver Macintosh.

Procediment per a traduir un fitxer PDF

Aconseguiu l'Infix Professional d'Iceni a la pàgina web d'Iceni i instal·leu-lo. N'hi ha també una versió de prova; en el moment d'escriure aquest text, la versió completa costa aproximadament 130 €. Si utilitzeu el Linux o el Macintosh, aconseguiu la versió adient del CrossOver i instal·leu-la abans d'instal·lar l'Infix Professional d'Iceni. (S'ha comprovat que l'Infix també funciona amb el WINE).

Inicieu l'Infix d'Iceni i obriu el fitxer PDF que vulgueu traduir. L'exemple que es mostra a la captura de pantalla és la guia de l'usuari de l'SME de la Comissió Europea en hongarès.

infix1.png

Exporteu el text del PDF al format XML de l'Infix amb Document > Translate > Export XML (Document > Traducció > Exporta a XML). Deseu el PDF. Informació important: quan exporteu el fitxer XML creat a partir del PDF, l'Infix fa una anotació al fitxer per indicar a quin lloc pertanyen totes les peces del text («històries»), de manera que haureu d'utilitzar aquesta versió del fitxer quan torneu a importar el fitxer XML traduït.

Creeu un projecte de l'OmegaT de la manera habitual.

Si utilitzeu la versió 2.3 o una posterior de l'OmegaT, només heu de col·locar el fitxer XML exportat de l'Infix com s'ha descrit més amunt a la carpeta /source (original) del vostre projecte de l'OmegaT.

Si utilitzeu una versió anterior de l'OmegaT, us recomanem que actualitzeu la vostra instal·lació de l'OmegaT. Com a alternativa, segurament podreu traduir el fitxer XML de l'Infix amb bons resultats en versions anteriors de l'OmegaT mitjançant el filtre d'HTML. Per fer sevir aquest filtre, només heu de canviar l'extensió del fitxer XML exportat de l'Infix d'.xml a .html.

Torneu a carregar el projecte de l'OmegaT. A continuació, podreu traduir el text (vegeu la captura de pantalla).

infix2.png

Nota: el filtre de l'Infix per a l'OmegaT canvia les etiquetes <BR/> de l'Infix a <brx/>. Això permet utilitzar la regla de segmentació d'HTML per establir si s'ha de produir la segmentació en aquests punts o no.

Un cop finalitzada la traducció, creeu el document traduït de la manera habitual (Ctrl+S, Ctrl+D). Localitzeu el fitxer XML traduït a la carpeta /target del projecte de l'OmegaT. Si vàreu canviar l'extensió del fitxer a .html, torneu a canviar l'extensió del fitxer traduït a .xml.

Torneu a l'Infix d'Iceni i importeu el fitxer XML traduït al PDF del qual el vàreu exportar. Deseu els canvis.

Si tot ha anat bé, la traducció tindrà el mateix aspecte que el text de partida, però traduït. (Fixeu-vos en la captura de pantalla: només se n'han traduït els tres primers segments).

Tingueu en compte que, si feu servir la versió de prova de l'Infix d'Iceni en aquest procediment, el fitxer PDF traduït inclourà una marca d'aigua d'Iceni. Si la traducció només té una finalitat informativa, potser no serà un problema. L'Infix d'Iceni també us permet desar els fitxers PDF en el format RTF, però en aquest cas la versió de prova només val per a fer proves, ja que es produeixen substitucions de caràcters aleatòries.

infix3.png

Com sol passar amb les tasques tècniques (i la traducció), no és sempre tan senzill.

Pot passar que els tipus de lletra incrustats al PDF no continguin tots els caràcters que us fan falta. En principi, la solució consisteix a obtenir i instal·lar els tipus de lletra necessaris, però també podeu triar un tipus de lletra diferent amb aquest propòsit, la qual cosa pot ser o no ser una bona solució al problema.

És molt probable que, en alguns punts, la traducció sigui més llarga que l'original. Això s'ha de solucionar a l'Infix; per exemple, ampliant el quadre que conté el text. L'Infix inclou funcions per a solucionar, entre d'altres, aquest problema i sobre els quals no parlarem en aquest manual.

Podríeu descobrir que els segments estan separats amb salts de línia en llocs inadequats. Aquesta situació us resultarà familiar si heu traduït fitxers del Power Point a l'OmegaT o a qualsevol altra eina TAO. Per solucionar-ho, torneu a obrir el fitxer PDF original amb l'Infix. Seleccioneu Tools > Text tool (Eines > Eina de text). En fer clic al text corresponent, es mostraran un quadre de text i unes marques de format. A la captura de pantalla en podeu veure un exemple: infix4.png Elimineu el salt de línia. A continuació, deseu els canvis i torneu a exportar el PDF al fitxer XML (i canvieu-ne l'extensió, etc.), i torneu a carregar el vostre projecte de l'OmegaT. Si el fitxer conté molts d'aquests salts de línia molestos, és més eficaç eliminar-los al mateix temps, canviant de l'OmegaT i l'Infix per veure on són.

Pot ser necessari deixar alguns salts de línia en llocs poc adequats per aconseguir una alineació correcta del text. En aquests casos, és més pràctic eliminar-los abans d'exportar el fitxer a XML, de manera que trobeu segments coherents a l'hora de fer la traducció, i tornar-los a introduir a l'Infix una vegada finalitzat el procés.

Copyright Marc Prior 2011