Kompatibilität

Dieses HOWTO beschreibt OmegaTs Kompatibilität mit ausgewählten anderen Softwareprodukten.

Generelle Anmerkungen

Da es für professionelle Übersetzer Standardvorgehen ist, Texte in digitaler Form zu bekommen und zu liefern, sind Benutzer von OmegaT natürlich an der Kompatibilität mit anderen Softwareprodukten interessiert. Dieses HOWTO soll Informationen in diesem Bereich bereitstellen.

Eine allgemeine Anmerkung: "Kompatibilität" ist selten ein Schwarz-Weiß-, "Ja"- oder "Nein"-Problem. Wenn der Verkäufer eines Softwareprodukts behauptet, dass sein Produkt mit einer anderen Software kompatibel ist, ist diese Kompatibilität selten 100%. Umgekehrt, wo Produkte eindeutig nicht direkt kompatibel sind, ist es oft möglich, Verfahren zu finden, mit denen sie zusammenarbeiten können. Die Frage, die beantwortet werden muss, ist, ob diese Verfahren in Bezug auf das Ergebnis und den damit verbundenen Aufwand akzeptabel sind und die Antwort variiert wahrscheinlich von einem Nutzer zum anderen. Mit anderen Worten, "Kompatibilität" bezieht sich nicht nur auf Produkte, sondern auch auf Arbeitsabläufe.

Betriebssysteme

OmegaT läuft auf jedem Betriebssystem, auf dem eine geeignete Version der Java Runtime Environment (JRE) ausgeführt werden kann. Derzeit umfasst dies alle Versionen von Microsoft Windows ab Windows 98, Mac OS X und den meisten Linux-Distributionen.

Ausgangstexte (Dateien für die Übersetzung)

Schauen Sie ins OmegaT-Benutzerhandbuch für eine aktuelle Liste aller unterstützen Dateiformate. Die folgende Liste ist keine erschöpfende Liste aller von OmegaT unterstützten Dateiformate, sondern beschränkt sich auf diejenigen, die für typische Benutzer von besonderem Interesse sind.

Translation Memory

Für Translation Memory existiert ein internationaler Standard: TMX oder Translation Memory eXchange. Er wurde weitgehend übernommen und wird von fast allen gängigen CAT-Tools unterstützt.

Der TMX-Standard existiert sowohl in verschiedenen Versionen als auch auf verschiedenen Ebenen. Die Unterscheidung ist wichtig für die Kompatibilität. Der Standard befindet sich noch in der Entwicklung; Darauf beziehen sich die verschiedenen Versionen. Die Ebenen beziehen sich auf die Formatierungsinformationen, die in der TMX-Datei enthalten sind:

Bestimmte andere CAT-Tools (z. B. TRADOS) können verschiedene TMX-Dateien in verschiedenen Versionen exportieren. OmegaT unterstützt alle aktuellen Versionen von TMX, liefert aber wahrscheinlich bessere Ergebnisse, wenn die TMX-Datei Version 1.4b ist. 

Werkzeuge, die verschiedene Ebenen von TMX-Dateien unterstützen, sind im Prinzip immer noch miteinander kompatibel. Die Formatierungsinformationen, die in den höheren Ebenen enthalten sind, sind für das "andere" Werkzeug bedeutungslos, aber die Textinformationen können immer noch angezeigt, Fuzzy-Übereinstimmungen gefunden werden, usw.

OmegaT verwendet den internationalen TMX-Standard als natives Translation-Memory-Format. Einige CAT-Tools verwenden immer noch dedizierte proprietäre Translation-Memory-Formate, aber praktisch alle unterstützen den Import und Export von TMX-Dateien. In der Praxis ist es daher für Übersetzer möglich, Übersetzungsspeicher für Kunden bereitzustellen und umgekehrt für den Empfänger, diese Dateien für eine unmittelbare oder zukünftige Bezugnahme zu verwenden; Wenn die Dateien jedoch in einem automatisierten Arbeitsablauf verwendet werden sollen, gilt die oben beschriebene Einschränkung.

Weitere Hinweise zu TMX-Dateien:

Der TMX-Standard enthält Definitionen, welche Zeichen zulässig sind. Nicht alle CAT-Tools sind gleichermaßen streng in der Einhaltung dieser Definitionen; Folglich können einige CAT-Tools TMX-Dateien, die von bestimmten anderen CAT-Tools erstellt wurden, nicht direkt öffnen. OmegaT beobachtet im Allgemeinen die Bedingungen und toleriert die Nichteinhaltung anderer Werkzeuge durch sie; Sollten hier Probleme auftreten, können diese jedoch in der Regel recht einfach durch Suchen und Ersetzen in einem Texteditor des unzulässigen Zeichens in der TMX-Datei gelöst werden.

TMX-Dateien sind in der Unicode-Codierung, aber möglicherweise UTF-8 oder UTF-16. TMX-Dateien, die auf Windows-Systemen erstellt werden, können mit einer Byte-Order-Markierung (BOM) beginnen. Diese Unterschiede führen nicht generell zu Kompatibilitätsproblemen.

Kompatibilitätsprobleme können durch Unterschiede in den verwendeten Sprachcodes verursacht werden. OmegaT unterstützt Sprachcodes im Format "xx", "XX", "xx-YY" und "XX-YY", wobei xx oder XX die Sprache, yy oder YY die Region ist. Streng genommen erfordert der ISO-Standard für Sprachcodes "xx-YY" (zum Beispiel: "en-GB" für britisches Englisch); Obwohl diese Variante von OmegaT unterstützt wird, ist die Standardkonvention, die von OmegaT angeboten wird, "XX-YY", z. B. "EN-GB". OmegaT ist tolerant beim Lesen von TMX-Dateien: Es akzeptiert Dateien mit en-GB, en-US, en, EN usw. Nicht alle CAT-Tools weisen die gleiche Toleranz auf und einige zeigen daher möglicherweise nicht die erwarteten Übereinstimmungen an, wenn die Sprachcodes nicht ausreichend kompatibel sind. Diese Inkompatibilität kann durch Suchen und Ersetzen der relevanten Sprachcodes in der TMX-Datei in einem geeigneten Texteditor gelöst werden. Eine weitere mögliche Ursache für Inkompatibilitäten sind dreistellige Sprachcodes, die von OmegaT überhaupt nicht unterstützt werden. (Dies ist übrigens eine Einschränkung von Java, nicht von OmegaT selbst.)

Hinweise zu proprietären Translation-Memory-Dateien:

Das traditionelle Wordfast-Translation-Memory-Dateiformat ist aufgrund seiner Einfachheit von besonderem Interesse: Es besteht aus einer Nur-Text-Datei mit einer Übersetzungseinheit (Segment) in jeder Zeile, in der die Quelle und das Ziel durch eine Registerkarte getrennt sind. Dieses Format kann problemlos mit Dienstprogrammen von Drittanbietern wie Wf2TMX in das TMX-Format konvertiert werden. Anaphraseus kann auch für diesen Zweck verwendet werden.

Glossardateien

Die Glossardateien von OmegaT sind Klartextdateien im Format:

Quellterm <tab> Zielterm <tab> zusätzliche Information

Einige andere CAT-Tools können Glossardateien in diesem Format oder in einem ähnlichen Klartextformat importieren und exportieren, das sehr einfach daraus erzeugt werden kann (z. B. durch Suchen und Ersetzen in Microsoft Word).

OmegaT kann auch Glossare in TBX, dem Standardformat für Glossardateien, lesen.

OmegaT kann keine Glossardateien in proprietären Binärformaten wie Trados Multiterm importieren oder lesen.

Zweisprachige CAT-Tool-Formate

Viele CAT-Tools verwenden ein intermediäres zweisprachiges Dateiformat, z. B. eine Datei, die sowohl Quell- als auch Zielsprachsegmente enthält und in einigen Fällen auch die Struktur der Originaldatei. Ursprünglich waren diese zweisprachigen Dateiformate möglicherweise ein Nebenprodukt der Architektur des Tools. Sie sind jedoch zu einem wichtigen Phänomen in Übersetzungsworkflows geworden, die CAT-Tools beinhalten, und sie stellen oft das größte Hindernis für die Kompatibilität zwischen OmegaT und anderen CAT-Tools dar (oder zwischen CAT-Tools im Allgemeinen).

Es gibt mindestens drei Gründe, warum ein Kunde die Lieferung einer Übersetzung in einem bestimmten zweisprachigen Dateiformat anfordern kann (anstatt einfach die übersetzte Datei und möglicherweise auch das Translation Memory zu liefern):

1. Einige CAT-Tools, insbesondere TRADOS, sind in der Lage, eine Vielzahl von Dateiformaten, einschließlich Desktop-Publishing-Formaten, zu importieren und sie in dem betreffenden Werkzeug für die Übersetzung vorzubereiten. Das "vorbereitete" Formular ist normalerweise das zweisprachige Dateiformat des Tools. Ohne Vorbereitung auf diese Weise kann das ursprüngliche Dateiformat für den Übersetzer zugänglich sein.

2. Die Übersetzungsstufe ist nur ein Teil des Arbeitsablaufs des Kunden. Die Übersetzung kann beispielsweise an einen Prüfer zur Bearbeitung übergeben werden. Wenn die Änderungen des Prüfers in ein vom Kunden gepflegtes Translation-Memory-Repository aufgenommen werden sollen, müssen die Änderungen vorgenommen werden, bevor die endgültigen Dokumente erstellt werden. Dies kann entweder innerhalb des betreffenden CAT-Tools oder in einigen Fällen in einem externen zweisprachigen Dateiformat erfolgen, das das Tool lesen kann.

3. Der Kunde möchte ein Translation Memory erhalten, gegen das in Zukunft Texte geprüft werden können, um also zukünftige Texte mit einem vorhandenen Translation Memory "vorzuübersetzen". Damit dieser Prozess so automatisch wie möglich abläuft, müssen insbesondere zwei Bedingungen erfüllt sein: Erstens muss das Translation Memory Formatierungsinformationen enthalten (siehe oben) und zweitens müssen die Segmentierungsregeln, die auf den Text angewendet werden, dieselben sein wie die, die angewendet wurden, als das Translation Memory (oder ein Teil davon) erzeugt wurde. Der einfachste Weg für einen Kunden sicherzustellen, dass diese beiden Bedingungen erfüllt sind, besteht darin, dass er den Text selbst vorübersetzt, bevor er an den Übersetzer übergeben wird (wodurch definiert wird, wie er segmentiert wird) und das Translation Memory nach dem Empfang der übersetzten zweisprachigen Zwischendatei vom Übersetzer in dem CAT-Tool seiner Wahl erstellt (wodurch sichergestellt wird, dass die im Translation Memory enthaltenen Formatierungsinformationen mit zukünftigen Projekten kompatibel sind).

Verschiedene zweisprachige Dateiformate können von OmegaT gehandhabt werden - und nicht unbedingt mit großem Aufwand. Ein Verständnis der beteiligten Prozesse ist jedoch wichtig. Die einzelnen zweisprachigen Dateiformate werden im Folgenden beschrieben.

XLIFF

XLIFF ist das branchenübliche bilinguale Dateiformat. Es wird von verschiedenen CAT-Tools unterstützt und tatsächlich sind einige CAT-Tools effektiv um den XLIFF-Standard "herum entwickelt" worden: Heartsome und Swordfish sind Beispiele. Da es sich um einen Standard handelt, besteht ein Vorteil von XLIFF darin, dass Dateifilter, die von einem CAT-Tool-Anbieter für die Konvertierung zwischen einem bestimmten Format und XLIFF (und nach Abschluss des Übersetzungsworkflows wieder zurück) bereitgestellt werden, theoretisch zum Vorbereiten von Dateien für die Übersetzung in einem beliebigen CAT-Tool genutzt werden können, das in der Lage ist, XLIFF zu unterstützen. In der Praxis erfordert die Arbeit mit dem XLIFF-Arbeitsablauf oft die Verwendung von Werkzeugen, die nicht sehr benutzerfreundlich sind.

OmegaT bietet eine rudimentäre Unterstützung für XLIFF und ein Verfahren zur Verwendung von XLIFF in OmegaT in Verbindung mit den Rainbow-Tools finden Sie hier. Die verfügbaren Filter sind hauptsächlich für Dateiformate, die für die IT-Industrie typisch sind, und nicht für Endbenutzerdateien.

Trados "unbereinigtes RTF"

Das "unbereinigte" RTF-Dateiformat von Trados, oft einfach als "unbereinigte Dateien" bezeichnet, ist seit vielen Jahren das gebräuchlichste zweisprachige Dateiformat, das in Übersetzungsworkflows verwendet wird. Es verdankt seinen Ursprung der Verwendung von MS Word als Schnittstelle für das CAT-Tool von Trados. Zusätzlich zu Trados unterstützen auch einige andere CAT-Tools das "unbereinigte RTF"-Format, insbesondere Wordfast Classic.

Im Wesentlichen besteht dieses Format aus einer RTF-Datei, in der sich Quell- und Zielsegmente abwechseln. Diese Segmente sind durch Sonderzeichen und MS Word-Formatierungsstile gekennzeichnet und voneinander getrennt.

Ein Skript (nur für Windows) und eine Prozedur wurden kürzlich (2008) entwickelt, um es OmegaT-Benutzern zu ermöglichen, Trados-RTF-Dateien für die Übertragung am Ende ihrer Übersetzungsstufe zu produzieren. Weitere Informationen finden Sie im HowTo "Exportieren von OmegaT zu unbereinigtem RTF".

Trados TTX

Das Trados TTX-Format ist das Pendant zum "unbereinigten RTF"-Format für den Trados Tag Editor, der im Gegensatz zur Trados Workbench nicht in direkter Kombination mit MS Word funktioniert. TTX ist ein XML-basiertes Format. Ein OmegaT-Plugin ist jetzt verfügbar, mit dem dieses Format in OmegaT bearbeitet werden kann.

Wordfast TXML

Wordfast TXML ist das native interne Format von Wordfast's neuem Wordfast Professional (auch bekannt als Wordfast 6.0). Wie der Name schon sagt, handelt es sich um ein XML-basiertes Format. Es wird von OmegaT unterstützt.

Déjà Vu "Externe Ansicht"

Eine interessante Eigenschaft von Déjà Vu DVX ist das Dateiformat "External View". Mit diesem Dateiformat können OmegaT-Benutzer zweisprachige Dateien an Benutzer von Déjà Vu DVX liefern, die sie dann weiter bearbeiten oder in automatisierte Arbeitsabläufe einbinden können. Einzelheiten finden Sie im HowTo Déjà Vu "External View".

Copyright Marc Prior 2009-2014