Howto - Translating PDF files with Iceni Infix and OmegaT

Guida: Tradurre i file PDF con Iceni Infix e OmegaT

Questa guida fornisce informazioni sull'utilizzo di OmegaT e Iceni Infix per tradurre file PDF.

Premesse

I file PDF si dividono in due categorie: PDF vero e PDF "scandito".

Un file PDF "scandito" è un file in cui il formato PDF serve solo da comodo contenitore per scansioni di pagine cartacee. Spesso, queste scansioni contengono testo da tradurre. Non c'è modo di tradurre un file PDF scandito se non ricreando il testo, o riscrivendolo o tramite riconoscimento ottico dei caratteri (OCR), e ricostruendo poi l'impaginazione da zero. I file PDF scanditi non sono oggetto di questa guida.

I file PDF veri (talvolta chiamati file PDF "nativi" o "distillati", sebbene "distillato" abbia un significato più preciso) sono file esportati da un'altra applicazione, solitamente un programma di desktop publishing (DTP). Per tradurre un file PDF vero, la procedura corretta è, in genere, produrre la traduzione nell'applicazione originale (DTP) e poi seguire la stessa procedura,per la produzione del PDF, utilizzata per l'originale. La traduzione di un file PDF tramite modifica diretta non è solitamente una proposta pratica. Per la traduzione di file PDF "informativi", i traduttori ricorrono spesso alla conversione del file PDF in un altro formato, come ad esempio RTF, prima della traduzione; i risultati possono essere adeguati allo scopo, ma non soddisfaranno gli standard professionali dell'elaborazione originale del DTP.

Iceni Infix

Iceni Infix offre una opzione ulteriore. Infix è un editor PDF, cioè il testo in PDF può essere modificato direttamente. Sebbene sia discutibile che i risultati di questa procedura siano o no paragonabili alla rimpaginazione della traduzione tramite un DTP professionale, essi sono probabilmente molto meglio della conversione in formati totalmente diversi (ad esempio RTF).

La versione "Professionale" di Infix ha una funzione ulteriore d'interesse per i traduttori: l'esportazione di testo in XML. Essa consente al testo essere esportato in un file XML, traducibile poi con un'applicazione CAT. Il testo tradotto può poi essere reimportato in Infix Professional. OmegaT è tra le applicazioni CAT con cui questo processo può essere utilizzato. La procedura è descritta in questa guida.

Piattaforme

Anche se Infix è un'applicazione Windows, Iceni ha compiuto sforzi per soddisfare anche gli utenti Linux e Macintosh. InFix Professional può essere utilizzato su queste piattaforme con Crossover Linux e Macintosh Crossover, rispettivamente. Crossover Linux e Macintosh Crossover costano circa €40. Sono pure disponibili versioni demo gratuite. Crossover Linux e Macintosh Crossover possono essere scaricati dal sito web di Codeweavers. Sono disponibili anche informazioni specifiche sull'esecuzione di Iceni Infix sul Crossover Linux o quello Macintosh.

Tradurre un file PDF: procedura

Ottenere e installare Iceni Infix Professional dalla pagina web di Iceni. È disponibile una versione dimostrativa; al momento della scrittura, la versione completa costa circa 150 dollari USA. Se si utilizza Linux o Macintosh, scaricare e installare la relativa versione Crossover prima di installare Iceni Infix Professional (Infix è segnalato lavorare anche su WINE).

Avviare Iceni Infix e aprire il file PDF che si desidera tradurre. L'esempio nella schermata è la Guida di utente delle PMI della Commissione europea in ungherese.

infix1.png

Esportare il testo dal formato PDF a quello XML di Infix tramite il comando Documento > Traduci > Esporta XML. Salvare il file PDF. Importante: quando si esporta da file PDF in file XML, Infix produce una nota nel file a cui appartengono tutte le parti di testo ("storie"), quindi è necessario utilizzare questa versione del file quando si reimporta il file XML tradotto.

Creare un progetto OmegaT nel modo consueto.

Se si utilizza OmegaT versione 2.3 o successive, è sufficiente posizionare il file XML esportato da Infix come descritto sopra, nella cartella /source del progetto OmegaT.

Se si utilizza una versione precedente di OmegaT, si raccomanda di aggiornarne l'installazione. In alternativa, si dovrebbe essere in grado di tradurre il file XML di Infix con buoni risultati utilizzando versioni precedenti di OmegaT mediante il filtro HTML. Per utilizzare questo filtro, è sufficiente modificare l'estensione del file del file XML esportato con Infix da .xml a .html.

Ricaricare il progetto OmegaT. Ora è possibile tradurre il testo (vedere schermata).

infix2.png

Nota: il filtro Infix di OmegaT fa corrispondere i tag <BR/> di Infix ai tag <brx/>. Ciò consente alla regola di segmentazione HTML di scegliere se effettuare o no la segmentazione che dovrebbe verificarsi in questi punti.

Dopo aver completato la traduzione, creare il documento tradotto nel modo consueto (Ctrl+S, Ctrl+D). Individuare il file XML tradotto nella cartella /target del progetto OmegaT. Se si è cambiata l'estensione del file in .html, riportare l'estensione del file tradotto a .xml.

Tornare a Iceni Infix, importare il file XML tradotto nuovamente nel PDF da cui era stato esportato. Salvare le modifiche.

Se tutto è andato bene, la traduzione apparirà nell'aspetto come l'originale, però tradotta (si veda la schermata: solo i primi tre segmenti sono stati tradotti).

Notare che se in questa procedura si utilizza la versione demo di Iceni Infix, il file PDF tradotto presenterà una filigrana Iceni. Per le traduzioni "informative", questo potrebbe non rappresentare un problema. Iceni Infix consente inoltre di salvare i file PDF in formato RTF, ma in tal caso la versione demo è davvero adatta a soli scopi dimostrativi, dato che contiene sostituzioni casuali di caratteri.

infix3.png

Come spesso capita con le cose tecniche (e con la traduzione di cose), ci sono gli inghippi.

Si potrebbe riscontrare che i tipi di carattere incorporati nel PDF non contengono tutti i caratteri necessari. Probabilmente si può risolvere il problema scaricando e installando i tipi di carattere che servono; oppure è possibile selezionare un carattere diverso per questo scopo – soluzione che potrebbe risultare adeguata o no.

C'è un'alta probabilità che, in alcuni punti, la traduzione sia più lunga rispetto all'originale. Questo problema deve essere affrontato e risolto in Infix, ad esempio ampliando la casella contenente il testo. Infix ha funzioni per risolvere questo e altri problemi che esulano dall'ambito di questa guida.

Si potrebbe riscontrare che i segmenti presentano interruzioni di linea in posizioni errate. Questa situazione probabilmente è nota, se si sono tradotti file di Powerpoint in OmegaT, o in altre applicazioni CAT. Per risolvere questo problema, riaprire il file PDF originale in Infix. Selezionare Strumenti > Strumento di testo. Fare clic sul testo in questione per visualizzare una casella di testo e i segni di formattazione. La schermata mostra un esempio: infix4.png Rimuovere l'interruzione di riga. Quindi salvare le modifiche e riesportare il file PDF in XML (e cambiare l'estensione del file, ecc.) e ricaricare il progetto OmegaT. Se il file contiene molte di queste interruzioni errate, è certamente meglio rimuoverle tutte insieme, alternando tra OmegaT e Infix per individuarle.

Alcune interruzioni di riga errate potrebbero essere necessarie per la corretta posizione del testo. In questi casi è pratico rimuoverle prima di esportare il file in XML, in modo da avere dei segmenti coesi per la traduzione, e poi reinserirle in Infix alla fine del processo.

Copyright Marc Prior 2011