Compatibiliteit

Deze HOWTO beschrijft de compatibiliteit van OmegaT met andere softwareproducten.

Algemene opmerkingen

Omdat het de standaardprocedure voor professionele vertalers is om teksten in digitale vorm te ontvangen en af te leveren, zijn gebruikers van OmegaT bij nature geïnteresseerd in de compatibiliteit er van met andere softwareproducten. Deze HOWTO richt zich op het verschaffen van informatie op dit gebied.

Een algemene observatie: "compatibiliteit" is zelden een geval van zwart en wit, "ja" of "nee". Waar de verkoper van een softwareproduct claimt dat zijn product compatibel is met een ander stukje software, is deze compatibiliteit zelden 100%. Tegengesteld daaraan, waar producten duidelijk niet direct compatibel zijn, is het vaak mogelijk om procedures te vinden waardoor zij wel samen kunnen werken. De vraag die moet worden beantwoord is of deze procedures acceptabel zijn in termen van resultaat en de te leveren inspanningen, en het antwoord zal zeker verschillen van de ene gebruiker naar de andere. Met andere woorden: "compatibiliteit" gaat niet alleen over producten, maar ook over werkstromen.

Besturingssystemen

OmegaT werkt op elk besturingssysteem waarop een geschikte versie van de Runtime Environment (JRE) kan worden uitgevoerd. Op dit moment zijn dat alle versies van Microsoft Windows vanaf Windows 98 en hoger, Mac OS X, en de meeste Linux-distributies.

Bronteksten (bestanden om te vertalen)

kijk in de gebruikershandleiding van OmegaT voor een recente lijst van alle ondersteunde bestandsindelingen. De lijst hieronder is geen volledige lijst van alle bestandsindelingen die worden ondersteund door OmegaT, maar is beperkt to die welke in het bijzonder interessant zijn voor gewone gebruikers.

Vertaalgeheugens

Er bestaat een internationale standaard voor vertaalgeheugens: TMX, of Translation Memory eXchange. Het is breed geadopteerd en wordt ondersteund door bijna alle huidige CAT-programma's.

De TMX-standaard bestaat zowel in verschillende versies als in verschillende niveaus. Het onderscheid is belangrijk om redenen van compatibiliteit. De standaard ondergaat nog steeds ontwikkelingen; dat is waar de verschillende versies naar verwijzen. De niveaus verwijzen naar de opmaak-informatie die is opgenomen in het TMX-bestand:

Bepaalde andere CAT-programma's (zoals TRADOS) zijn in staat om verschillende TMX-bestanden in verschillende versies te exporteren. OmegaT ondersteunt alle huidige versies van TMX, maar levert waarschijnlijk de beste resultaten voor overeenkomsten als het TMX-bestand van de versie 1.4b is. 

Gereedschappen die andere verschillende niveaus van TMX-bestanden ondersteunen zijn in principe nog steeds compatibel met elkaar. De opmaak-informatie die is opgenomeen in de hogere niveaus zal zonder betekenis zijn voor het "andere" programma, maar de tekstuele informatie kan nog steeds worden bekeken, fuzzy-overeenkomsten gevonden, etc.

OmegaT gebruikt de internationale TMX standaard als zijn eigen indeling voor vertaalgeheugens. Sommige CAT-programma's hebben nog steeds toegewezen gebonden indelingen voor vertaalgeheugens, maar ondersteunen virtueel allemaal de import en export van TMX-bestanden. In de praktijk is het daarom voor vertalers mogelijk om vertaalgeheugens te leveren aan klanten en vice-versa, en voor de ontvanger om deze bestanden te gebruiken als onmiddellijke of toekomstige verwijzing; als de bestanden echter moeten worden gebruikt binnen een geautomatiseerde werkstroom, dan is de hierboven beschreven beperking van toepassing.

Verdere opmerkingen met betrekking tot TMX-bestanden:

De TMX-standaard bevat definities van welke tekens toegestaan zijn. Niet alle CAT-programma's zijn even streng in de naleving van deze definities; als consequentie daarvan zijn sommige CAT-programma's niet in staat om direct TMX-bestanden te openen files die zijn gemaakt door bepaalde andere CAT-programma's. OmegaT volgt over het algemeen de condities en is tolerant voor de gebreken van andere programma's om ze te zien; zouden hier echter problemen ontstaan, dan kunnen zij in het algemeen redelijk eenvoudig worden opgelost door een zoek- en vervangactie in een tekstbewerker van het niet geldige teken binnen het TMX-bestand.

TMX-bestanden zijn in de codering Unicode, maar mogen UTF-8 of UTF-16 zijn. TMX-bestanden die zijn gemaakt op Windows systemen zouden kunnen beginnen met een byte-order mark (BOM). Deze verschillen leiden in het algemeen niet tot compatibiliteits-problemen.

Compatibiliteits-problemen zouden kunnen worden veroorzaakt door verschillen in de gebruikte taalcodes. OmegaT ondersteunt taalcodes in de indeling "xx", "XX", "xx-YY" en "XX-YY", waar xx of XX de taal is, yy of YY de regio. Strikt gesproken vereist de ISO standaard voor taalcodes "xx-YY" (bijvoorbeeld: "en-GB" voor Brits Engels); hoewel deze variant wordt ondersteund door OmegaT, is de door OmegaT aangeboden standaard conventie "XX-YY". OmegaT is tolerant bij het lezen van TMX-bestanden: het zal bestanden accepteren met en-GB, en-US, en, EN, etc. Niet alle CAT-programma's vertonen hetzelfde tolerantie en sommige zouden daarom de verwachte overeenkomsten niet hoeven weer te geven als de taalcodes niet genoeg voldoen. Deze incompatibiliteit kan worden opgelost door te zoeken naar en het vervangen van de relevante taalcodes in het TMX-bestand in een toepasselijke tekstbewerker. Een andere mogelijk bron van incompatibiliteit zijn drie-cijferige taalcodes, welke in het geheel niet worden ondersteund door OmegaT. (Dit is trouwens een beperking van Java, niet van OmegaT zelf.)

Punten met betrekking tot gebonden bestanden van vertaalgeheugens:

De traditionele bestandsindeling van Wordfast-vertaalgeheugens is van bijzondere interesse dankzij zijn eenvoud: het bestaat uit een bestand van platte-tekst met een vertaaleenheid (segment) op elke regel waarin de bron en het doel worden gescheiden door een tab. Deze indeling kan eenvoudig worden geconverteerd naar de TMX-indeling door programma's van derden zoals Wf2TMX. Anaphraseus kan ook voor dit doel worden gebruikt.

Bestanden van woordenlijsten

OmegaT's woordenlijsten zijn bestanden van platte-tekst in de indeling:

bronterm    <tab>    doelterm    <tab>    aanvullende informatie

Sommige andere CAT-programma's zijn in staat om woordenlijsten in deze indeling te importeren en te exporteren, of een soortgelijke indeling van platte-tekst die daaruit op eenvoudige wijze kan worden gemaakt (bijvoorbeeld door een zoek- & vervangactie in Microsoft Word).

OmegaT is ook in staat om woordenlijsten in TBX, de industrie-standaard indeling voor woordenlijstbestanden, te lezen.

OmegaT kan geen woordenlijsten in gesloten binaire indelingen, zoals Trados Multiterm, importeren of lezen.

Tweetalige indelingen voor CAT-programma's

Veel CAT-programma's maken gebruik van een tussenliggend tweetalige bestandsindeling, d.i. een bestand dat zowel de brontaal- als de doeltaalsegmenten bevat en in sommige gevallen ook de structuur van het originele bestand. Origineel zouden deze tweetalige bestandsindelingen een bijproduct van de architectuur van het programma kunnen zijn. Zij zijn echter een belangrijk fenomeen geworden in werkstromen van vertalingen waarbij CAT-programma's worden gebruikt, en zij vormen vaak het grootste obstakel voor compatibiliteit tussen OmegaT en andere CAT-programma's (of voor wat dat betreft: tussen CAT-programma's in het algemeen).

Er zijn tenminste drie redenen waarom een klant de levering van een vertaling in een bepaalde tweetalige bestandsindeling kan vragen (in plaats van eenvoudigweg levering van het vertaalde bestand en mogelijk ook het vertaalgeheugen):

1. Sommige CAT-programma's, met name TRADOS, is in staat om een breed scala aan bestandsindelingen te importeren, inclusief bestandsindelingen voor desktop publishing, en ze voor te bereiden op vertaling in het betreffende programma. De "voorbereide" vorm is veelal de tweetalige bestandsindeling van het programma. Zonder voorbereiding op deze manier zou het originele bestand toegankelijk kunnen zijn voor de vertaler.

2. Het stadium van vertaling is slechts een deel van de werkstroom van de klant. De vertaling zou bijvoorbeeld kunnen worden doorgegeven aan iemand die het controleert ter bewerking. Als de wijziging van de controle moeten worden opgenomen in een vertaalgeheugen dat wordt onderhouden door de klant, moeten de wijzigingen worden gemaakt vóórdat de uiteindelijke documenten worden gemaakt. Dit kan worden gedaan binnen het betreffende CAT-programma, of in sommige gevallen in een externe tweetalige bestandsindeling die het programma kan lezen.

3. De klant wil een vertaalgeheugen ontvangen waarmee in de toekomst teksten kunnen worden bewerkt: met andere woorden, om toekomstige teksten "voor te vertalen" met behulp van een bestaand vertaalgeheugen. Aan twee voorwaarden moet, om dit proces zo veel mogelijk te automatiseren, in het bijzonder zijn voldaan: ten eerste, het vertaalgeheugen moet opmaak-informatie bevatten (zie boven); en ten tweede, de op de tekst toegepaste segmentatie-regels moeten hetzelfde zijn als die welke werden toegepast toen het vertaalgeheugen (of deel er van) werd geproduceerd. De eenvoudigste manier voor klanten om er voor te zorgen dat aan die twee voorwaarden wordt voldaan is voor hen om de tekst zelf van te voren te vertalen, vóórdat die wordt doorgegeven aan de vertaler (daarbij definiërend hoe het is gesegmenteerd), en om het vertaalgeheugen te maken in het CAT-programma van hun keuze nadat zij het vertaalde tussenliggende tweetalige bestand van de vertaler hebben ontvangen (er daarmee voor zorgend dat de opgenomen opmaak-informatie in het vertaalgeheugen compatibel zal zijn met toekomstige projecten).

Verschillende tweetalige bestandsindelingen kunnen worden afgehandeld door OmegaT, en niet noodzakelijkerwijze met heel veel inspanning. Begrip van de betrokken processen is echter belangrijk. De individuele tweetalige bestandsindelingen worden hieronder beschreven.

XLIFF

XLIFF is de industriële standaard tweetalige bestandsindeling. Het wordt ondersteund door meerdere CAT-programma's, en in feite zijn sommige CAT-programma's effectief "ontworpen rondom" de XLIFF-standaard: Heartsome en Swordfish zijn vorbeelden hiervan. Omdat het een standaard is, is een voordeel van XLIFF dat bestandsfilters die worden verschaft door de ene verkoper van een CAT-programma voor conversie tussen een bepaalde indeling en XLIFF (en, volgend op de voltooide werkstroom van de vertaling, weer terug) kan in theorie worden gebruikt om bestanden te prepareren in de betrokken indeling voor vertaling in een willekeurig CAT-programma dat in staat is om XLIFF te ondersteunen. In de praktijk vereist het werken met de XLIFF-werkstroom vaak het gebruik van programma's die niet erg gebruikersvriendelijk zijn.

OmegaT heeft rudimentaire ondersteuning voor XLIFF, en een procedure voor het gebruiken van XLIFF in OmegaT in samenwerking met de programma's van Rainbow kan hier worden gevonden. De beschikbare filters zijn hoofdzakelijk voor bestandsindelingen die meer bijzonder zijn voor de IT-industrie in plaats van voor bestanden voor eindgebruikers.

Trados "vuile RTF"

De Trados "vuile" RTF-bestandsindeling, waarnaar vaak wordt verwezen als naar "vuile bestanden", was vele jaren de meest gebruikte algemene tweetalige bestandsindeling in werkstromen voor vertalingen. Het dankt zijn bestaan aan het gebruiken van MS Word als een interface voor het Trados CAT-programma. In aanvulling op Trados ondersteunen echter ook verschillende andere CAT-programma's de "vuile RTF"-indeling, met name Wordfast Classic.

In essentie bestaat deze indeling uit een RTF-bestand waarin de bron- en doelsegmenten elkaar afwisselen. Deze segmenten worden gemarkeerd en gescheiden door speciale tekens en MS Word-opmaakprofielen.

Een script (alleen voor Windows) en procedure werden recent (2008) ontwikkeld om OmegaT-gebruikers in staat te stellen om vuile RTF-bestanden voor Trados te maken om af te leveren aan het einde van hun vertaalstadium. Voor details, zie de "Exporteren vanuit OmegaT naar vuile RTF" HOWTO.

Trados TTX

Trados TTX-indeling is het tegenovergestelde van de "vuile RTF"-indeling voor Trados Tag Editor, die, anders dan Trados Workbench, niet werkt in directe combinatie met MS Word. TTX is een XML-gebaseerde indeling. Een OmegaT plugin is nu beschikbaar door middel waarvan deze indeling kan worden afgehandeld in OmegaT.

Wordfast TXML

Wordfast TXML is de eigen interne indeling van Wordfast's nieuwe Wordfast Professional (ook bekend als Wordfast 6.0). Zoals zijn naam aangeeft, is het een XML-gebaseerde indeling. Het wordt ondersteund door OmegaT.

Déjà Vu "External View"

Een interessante mogelijkheid van Déjà Vu DVX is zijn "External View"-bestandsindeling. Deze bestandsindeling maakt het gebruikers van OmegaT mogelijk om tweetalige bestanden af te leveren aan gebruikers van Déjà Vu DVX, die ze dan verder kunnen bewerken of ze kunnen invoegen binnen geautomatiseerde werkstromen. Voor details, zie de Déjà Vu "External View" HOWTO.

Copyright Marc Prior 2009-2014