HowTo - PDF-Dateien mit Iceni Infix und OmegaT übersetzen

Dieses HowTo enthält Informationen zur Verwendung von OmegaT und Iceni Infix zum Übersetzen von PDF-Dateien.

Hintergrund

PDF-Dateien lassen sich in zwei Kategorien einteilen: echte und "gescannte" PDFs.

Eine "gescannte" PDF-Datei ist eine Datei, in der das PDF-Format lediglich als praktischer Behälter für Scans von Papierseiten dient. Oft enthalten diese Scans Text für die Übersetzung. Es gibt keine Möglichkeit, eine gescannte PDF-Datei zu übersetzen, außer den Text neu zu erstellen, entweder durch erneutes Eintippen oder durch OCR (optische Zeichenerkennung), und das Dateilayout von Grund auf neu zu erstellen. Gescannte PDFs sind nicht Gegenstand dieses HowTo.

Echte PDF-Dateien (manchmal "native" oder "destillierte" PDF-Dateien genannt, obwohl "destilliert" eine präzisere Bedeutung hat) sind PDF-Dateien, die aus einer anderen Anwendung, normalerweise einem DTP-Programm, exportiert wurden. Für eine echte PDF-Datei, die übersetzt werden soll, ist die richtige Vorgehensweise normalerweise, die Übersetzung in der ursprünglichen Anwendung (DTP) zu erstellen und dann das gleiche Verfahren für die Erstellung der PDF-Datei zu befolgen, die für das Original verwendet wurde. Das Übersetzen der PDF-Datei durch direkte Bearbeitung ist in der Regel kein praktischer Vorschlag. Bei der Übersetzung von PDF-Dateien "zur Information" greifen Übersetzer vor der Übersetzung häufig auf die Umwandlung der PDF-Datei in ein anderes Dateiformat zurück, z. B. RTF. Die Ergebnisse können für diesen Zweck angemessen sein, entsprechen jedoch nicht den professionellen Standards des ursprünglichen DTP-Prozesses.

Iceni Infix

Iceni Infix bietet eine weitere Option. Infix ist ein PDF-Editor, d. h. der Text in der PDF-Datei kann direkt bearbeitet werden. Obwohl es fraglich ist, ob die Ergebnisse dieses Verfahrens mit der Neugestaltung der Übersetzung durch einen DTP-Experten vergleichbar sein werden, sind sie wahrscheinlich viel besser als die Konvertierung in völlig andere Formate (wie RTF).

Die "Professional"-Version von Infix hat eine weitere Funktion, die für Übersetzer von Interesse ist: XML-Textexport. Dadurch kann der Text in eine XML-Datei exportiert werden, die in einem CAT-Tool übersetzt werden kann. Der übersetzte Text kann dann erneut in Infix Professional importiert werden. OmegaT gehört zu den CAT-Tools, für die dieses Verfahren verwendet werden kann. Das Verfahren wird in diesem HowTo beschrieben.

Übersetzen einer PDF-Datei: Verfahren

Beziehen und installieren Sie Iceni Infix Professional von der Iceni-Webseite. Eine Demoversion ist verfügbar; Zum Zeitpunkt des Schreibens kostet die Vollversion rund 150 US$. Wenn Sie Linux oder Macintosh verwenden, besorgen und installieren Sie die entsprechende Crossover-Version, bevor Sie Iceni Infix Professional installieren. (Infix soll auch mit WINE arbeiten.)

Starten Sie Iceni Infix und öffnen Sie die PDF-Datei, die Sie übersetzen möchten. Das Beispiel im Screenshot ist die Europäische KMU-Benutzeranleitung der Europäischen Kommission auf Ungarisch.

infix1.png

Exportieren Sie den Text aus dem PDF im Infix-XML-Format mit Dokument > Übersetzen > XML exportieren. Speichern Sie das PDF. Das ist wichtig: Wenn Sie die XML-Datei aus der PDF-Datei exportieren, merkt sich Infix in der Datei, wo alle Textabschnitte ("Stories") hingehören. Daher müssen Sie diese Version der Datei beim erneuten Importieren der übersetzten XML-Datei verwenden.

Erstellen Sie auf die übliche Weise ein OmegaT-Projekt.

Wenn Sie OmegaT Version 2.3 oder höher verwenden, legen Sie einfach die XML-Datei aus Infix wie oben beschrieben in den Ordner /source Ihres OmegaT-Projekts.

Wenn Sie eine frühere Version von OmegaT verwenden, wird ein Upgrade Ihrer OmegaT-Installation empfohlen. Alternativ sollten Sie in der Lage sein, die Infix-XML-Datei mit guten Ergebnissen zu übersetzen, indem Sie frühere Versionen von OmegaT mithilfe des HTML-Filters verwenden. Um diesen Filter zu verwenden, ändern Sie einfach die Dateiendung der von Infix exportierten XML-Datei von .xml nach .html.

Laden Sie Ihr OmegaT-Projekt neu. Sie können den Text jetzt übersetzen (siehe Screenshot).

infix2.png

Hinweis: Der Infix-Filter von OmegaT ordnet das <BR/> von Infix <brx/>-Tags zu. Dadurch kann die HTML-Segmentierungsregel verwendet werden, um auszuwählen, ob an diesen Punkten eine Segmentierung erfolgen soll oder nicht.

Nach Abschluss der Übersetzung erstellen Sie das übersetzte Dokument wie gewohnt (Strg + S, Strg + D). Suchen Sie die übersetzte XML-Datei im Ordner /target des OmegaT-Projekts. Wenn Sie die Dateiendung in .html geändert haben, ändern Sie die Erweiterung der übersetzten Datei zurück in .xml.

Zurück in Iceni Infix importieren Sie die übersetzte XML-Datei zurück in das PDF, aus dem Sie es exportiert haben. Speichern Sie die Änderungen.

Alles in Ordnung, Ihre Übersetzung wird aussehen wie das Original, aber übersetzt. (Siehe Screenshot: nur die ersten drei Segmente wurden übersetzt.)

Beachten Sie, dass Ihre übersetzte PDF-Datei mit einem Iceni-Wasserzeichen versehen ist, wenn Sie in diesem Verfahren die Demoversion von Iceni Infix verwenden. Bei Übersetzungen, die "zur Information" gedacht sind, ist dies möglicherweise kein Problem. Iceni Infix ermöglicht es Ihnen auch, PDF-Dateien im RTF-Format zu speichern, aber in diesem Fall ist die Demo-Version wirklich nur zu Demonstrationszwecken geeignet, da sie zufällige Zeichenersetzungen enthält.

infix3.png

Wie so oft bei technischen Dingen (und bei Übersetzungen) gibt es Fallen.

Möglicherweise stellen Sie fest, dass die eingebetteten Schriftarten in dem PDF nicht alle Zeichen enthalten, die Sie benötigen. Sie können dies vermutlich beheben, indem Sie die erforderlichen Schriftarten besorgen und installieren; Oder Sie können eine andere Schriftart für diesen Zweck auswählen - die eine angemessene Lösung sein kann oder nicht.

Es besteht die große Wahrscheinlichkeit, dass Ihre Übersetzung an manchen Stellen länger ist als das Original. Dies muss in Infix behandelt werden, z. B. durch Vergrößern der Box mit dem Text. Infix hat Funktionen, um mit diesen und anderen Problemen umzugehen, die den Rahmen dieses HowTo sprengen würden.

Sie können feststellen, dass Segmente durch harte Zeilenumbrüche an ungünstigen Stellen unterbrochen sind. Diese Situation wird Ihnen wahrscheinlich vertraut sein, wenn Sie Powerpoint-Dateien in OmegaT oder für andere CAT-Tools übersetzt haben. Um dies zu beheben, öffnen Sie die ursprüngliche PDF-Datei erneut in Infix. Wählen Sie Extras > Textwerkzeug. Wenn Sie auf den fraglichen Text klicken, werden ein Textfeld und Formatierungszeichen angezeigt. Der Screenshot zeigt ein Beispiel:infix4.png. Entfernen Sie den Zeilenumbruch. Speichern Sie dann die Änderungen und exportieren Sie die PDF-Datei erneut in die XML-Datei (und ändern Sie die Dateierweiterung usw.) und laden Sie Ihr OmegaT-Projekt erneut. Wenn Ihre Datei viele solcher unbequemen Umbrüche enthält, ist es effizienter, sie alle gleichzeitig zu entfernen und zwischen OmegaT und Infix umzuschalten, um zu sehen, wo sie sich befinden.

Einige unbequeme Zeilenumbrüche können für die korrekte Positionierung des Textes erforderlich sein. In diesen Fällen ist es praktisch, sie zu entfernen, bevor Sie die Datei in XML exportieren, sodass Ihnen zusammenhängende Segmente für die Übersetzung angezeigt werden und sie dann am Ende des Prozesses wieder in Infix einzufügen.

Copyright Marc Prior 2011