Compatibility

HOWTO: OmegaT:n yhteensopivuus

Tämä HOWTO-ohje kuvaa OmegaT:n yhteensopivuutta muiden ohjelmien kanssa.

Yleisiä huomioita

Koska ammattikääntäjät tavallisesti vastaanottavat ja toimittavat tekstejä digitaalisessa muodossa, OmegaT:n käyttäjät ovat tietysti kiinnostuneita ohjelman yhteensopivuudesta muiden ohjelmistotuotteiden kanssa. Tässä HOWTO-ohjeessa kerrotaan OmegaT:n yhteensopivuudesta tällä osa-alueella.

Yleisesti voi sanoa, että "yhteensopivuus" on harvoin mustavalkoinen kyllä tai ei -tilanne. Yhteensopivuus on harvoin sataprosenttista myyjän väittäessä tuotteen olevan yhteensopiva toisen ohjelmistotuotteen kanssa. Toisaalta tuotteiden ollessa selkeästi yhteensopimattomia ne voivat kuitenkin usein sopivalla menettelyllä toimia yhdessä. Kysymys kuuluukin, ovatko nämä menettelyt hyväksyttäviä kun otetaan huomioon tulokset ja vaivannäkö. Vastaus todennäköisesti vaihtelee käyttäjästä riippuen. Yhteensopivuudessa ei siis ole kyse vain tuotteista, vaan myös asiankäsittelystä.

Käyttöjärjestelmät

OmegaT toimii missä tahansa käyttöjärjestelmässä, jossa toimii sopiva Java Runtime Environment (JRE) -versio. Nykyisellään näihin kuuluvat Microsoft Windows alkaen Windows 98:sta, Mac OS X ja useimmat Linux-jakeluversiot.

Lähdetekstit (käännettävät tiedostot)

OmegaT:n käyttöopaassa on ajantasainen lista tuetuista tiedostomuodoista. Tämä lista ei ei ole kaikenkattava lista kaikista OmegaT:n tukemista tiedostomuodoista, vaan se rajoittuu tavallisen käyttäjän kannalta oleellisiin muotoihin.

Käännösmuistit

Käännösmuisteilla on kansainvälinen standardi TMX eli Translation Memory eXchange. Sitä käytetään laajasti ja lähes kaikki nykyiset CAT-työkalut tukevat sitä.

TMX-standardi on sekä eri versioina että eri tasoilla. Ero on yhteensopivuuden kannalta olennainen. Standardi on yhä kehitysvaiheessa, johon eri versiot liittyvät. Tasot viittaavat TMX-tiedoston sisältämiin muotoilutietoihin:

Jotkut muut CAT-työkalut (kuten TRADOS) osaavat viedä erilaisia TMX-tiedostoja eri versioihin. OmegatT tukee kaikkia nykyisiä TMX-versioita, mutta tuottaa todennäköisesti parempia vastinetuloksia, jos TMX-tiedoston versio on 1.4b. 

Eri tasojen TMX-tiedostoja tukevat työkalut ovat silti periaatteessa keskenään yhteensopivia. Korkeampien tasojen muotoilutiedot ovat toiselle työkalulle merkityksettömiä, mutta tekstitiedot ovat näkyvissä, vastineet löytyvät jne.

OmegaT:n oma käännösmuistimuoto on kansainvälinen TMX-standardi. Jotkut CAT-työkalut käyttävät yhä omia yksityisiä käännösmuistimuotojaan, mutta lähes kaikki tukevat TMX-tiedostojen tuontia ja vientiä. Käytännössä kääntäjä voi siis toimittaa asiakkaalle käännösmuisteja ja päinvastoin, ja vastaanottaja voi käyttää tiedostoja heti tai vastaisuudessa. Jos tiedostoja käytetään automaattisessa asiankäsittelyssä, niitä koskee yllä mainittu rajoite.

Muuta huomattavaa TMX-tiedostoista:

TMX-standardissa on määritelty sallitut merkit. Kaikki CAT-työkalut eivät kuitenkaan noudata määritelmiä yhtä tiukasti, minkä vuoksi jotkut niistä eivät voi suoraan avata muiden tuottamia TMX-tiedostoja. OmegaT noudattaa yleensä ehtoja ja hyväksyy muiden työkalujen noudattamatta jättämisen, mutta jos ongelmia tulee, ne voi yleensä ratkaista kohtuullisen helposti muuttamalla kielletty merkki TMX-tiedostosta etsi ja korvaa -toiminnolla tekstieditorissa.

TMX-tiedostoissa käytetään Unicode-merkistökoodausta, joko UTF-8 tai UTF-16. Windows-järjestelmässä tuotetut TMX-tiedostot saattavat alkaa BOM-merkillä (byte order mark). Ne eivät yleensä aiheuta yhteensopivuusongelmia.

Yhteensopivuusongelmia voivat aiheuttaa käytettyjen kielikoodien erot. OmegaT tukee kielikoodeja muodoissa "xx", "XX", "xx-YY" ja "XX-YY", joissa xx tai XX on kieli ja yy tai YY alue. Tarkasti ottaen kielikoodien ISO-standardi vaatii muodon "xx-YY" (esimerkiksi "en-GB" eli brittienglanti). Vaikka OmegaT tukee tätä vaihtoehtoa, sen oletusasetuksena on "XX-YY", eli esimerkiksi "EN-GB". OmegaT käsittelee TMX-tiedostoja suvaitsevaisesti ja hyväksyy tiedostot, jotka on merkitty en-GB, en-US, en, EN jne. Kaikki CAT-työkalut eivät ole yhtä suvaitsevaisia eivätkä välttämättä näytä odotettuja vastineita, elleivät kielikoodit ole tarpeeksi yhdenmukaisia. Ongelma voidaan ratkaista etsimällä ja korvaamalla kyseiset TMX-tiedoston kielikoodit sopivassa tekstieditorissa. Yhteensopivuusngelmia voivat tuottaa myös kolmikirjaimiset kielikoodit, joita OmegaT ei tue lainkaan. (Tämä on tosin Javaan, ei itse OmegaT:hen liittyvä rajoitus.)

Huomattavaa ohjelmien omia käännösmuistimuotoja koskien:

Perinteinen Wordfast-käännösmuisti on erityisen kiinnostava yksinkertaisuutensa vuoksi. Se on tekstitiedosto, jossa on jokaisella rivillä käännösyksikkö (segmentti), lähde ja kohde sarkaimen erottamina. Muoto on helppo muuntaa TMX-muotoon kolmannen osapuolen apuohjelmilla, joihin kuuluu Wf2TMX.

Sanastotiedostot

OmegaT:n sanastotiedostot ovat tekstitiedostoja muodossa:

lähdetermi    <tab>    kohdetermi    <tab>    lisätiedot

Jotkut CAT-työkalut osaavat tuoda ja viedä sanastotiedostoja tässä muodossa tai samankaltaisessa tekstimuodossa, joka voidaan luoda siitä helposti (esimerkiksi Microsoft Wordissa etsi ja korvaa -toiminnolla).

OmegaT ei osaa tuoda tai lukea sanastotiedostoja ohjelmien omissa binaarimuodoissa, kuten Trados Multitermissä.

CAT-työkalujen kaksikieliset tiedostomuodot

Monet CAT-työkalut käyttävät välillistä kaksikielistä tiedostomuotoa eli tiedostoa, joka sisältää segmentit sekä lähde- että kohdekielellä ja joissakin tapauksissa myös alkuperäisen tiedoston rakenteen. Alunperin kaksikieliset tiedostomuodot ovat saattaneet olla työkalun sisäisen rakenteen sivutuote. Niistä on kuitenkin tullut merkittävä ilmiö käännösten CAT-työkaluilla tehtävässä asiankäsittelyssä ja ne ovat usein suurin este OmegaT:n ja muiden CAT-työkalujen yhteensopivuudelle (ja itse asiassa eri CAT-työkalujen välillä yleensäkin).

Asiakas saattaa ainakin kolmesta eri syystä haluta käännöksen tietyssä kaksikielisessä tiedostomuodossa (eikä vain käännettyä tiedostoa ja mahdollisesti käännösmuistia).

1. Jotkut CAT-työkalut, erityisesti TRADOS, osaavat tuoda paljon erilaisia tiedostomuotoja, myös taittotiedostoja, ja valmistella ne kyseisen työkalun käännettäviksi. Valmisteltu muoto on yleensä työkalun kaksikielinen tiedostomuoto. Alkuperäinen, valmistelematon tiedosto ei siten ehkä ole kääntäjän käytettävissä.
2. Käännösvaihe on vain yksi osa asiakkaan asiankäsittelyä. Käännös voidaan esimerkiksi toimittaa tarkastajalle editointia varten. Jos tarkastajan tekemät muutokset on tarkoitus sisällyttää asiakkaan ylläpitämään käännösmuistien raaka-arkistoon, muutokset on tehtävä ennen kuin lopulliset tiedostot luodaan. Se voidaan tehdä joko kyseisellä CAT-työkalulla tai joissakin tapauksissa ulkoisen kaksikielisen tiedostomuodon kautta, jota työkalu osaa käsitellä.
3. Asiakas haluaa käännösmuistin, jonka kautta tekstejä voidaan ajaa vastaisuudessa, eli tulevat tekstit esikäännetään käännösmuistin avulla. Se käy mahdollisimman automaattisesti vain kahden ehdon täyttyessä: ensinnäkin käännösmuistin pitää sisältää muotoilutiedot (katso yllä) ja toiseksi tekstiin sovellettujen segmentaatiosääntöjen on oltava samat kuin käännösmuistiin sitä (tai sen osaa) luotaessa sovelletut. Asiakkaalle helpoin tapa varmistaa ehtojen täyttyminen on esikääntää teksti itse ennen sen toimittamista kääntäjälle (eli määrittää itse segmentointi) ja luoda käännösmuisti valitsemallaan CAT-työkalulla kun kääntäjältä on saatu välillinen kaksikielinen tiedosto (millä varmistetaan, että käännösmuistin muotoilutiedot ovat yhteensopivat tulevien projektien kanssa).

OmegaT osaa käsitellä useita kaksikielisiä tiedostomuotoja eikä se välttämättä ole kovin vaivalloista. Menettelyn ymmärtäminen on kuitenkin olennaista. Alla on kuvattu yksittäiset kaksikieliset tiedostomuodot.

XLIFF

XLIFF on alan standardin mukainen kaksikielinen tiedostomuoto. Monet CAT-työkalut tukevat sitä. Itse asiassa jotkut onkin käytännöllisesti katsoen suunniteltu XLIFF-standardin ympärille, esimerkiksi Heartsome ja Swordfish. XLIFF-muoto on standardi, minkä etu on se, että yhden CAT-työkalun myyjän tarjoamat tiedostosuodattimet tietyn tiedostomuodon ja XLIFF-muodon väliseen muuntamiseen (ja käännöksen asiankäsittelyn lopuksi takaisin muuntamiseen) kelpaavat teoriassa tiedostojen valmisteluun kyseisessä muodossa millä tahansa XLIFF-muotoa tukevalla CAT-työkalulla. Käytännössä XLIFF-asiankäsittelyn kanssa työskentely usein edellyttää vähemmän käyttäjäystävällisten työkalujen käyttöä. 

OmegaT:llä on alkeellinen XLIFF-tuki. Menettely XLIFF-tiedostojen käyttämiseen OmegaT:ssä Rainbow-työkalujen kanssa löytyy täältä. Saatavana olevat suodattimet ovat lähinnä IT-alalle ominaisia tiedostomuotoja, ei loppukäyttäjän tiedostoja, varten.

Tradosin kaksikielinen RTF

Tradosin kaksikielinen RTF-tiedostomuoto, jota yleensä kutsutaan vain kaksikieliseksi tai uncleaned-tiedostoksi, on vuosia ollut käännösten asiankäsittelyssä yleisimmin käytetty kaksikielinen tiedostomuoto. Se juontaa juurensa MS Wordin käyttämisestä CAT-työkalu Tradosin käyttöliittymänä. Tradosin lisäkisi kuitenkin monet muutkin CAT-työkalut, etenkin Wordfast Classic, tukevat kaksikielistä RTF-muotoa.
Periaatteessa muoto koostuu RTF-tiedostosta, jossa on vuorotellen lähde- ja kohdesegmentti. Nämä segmentit on merkitty ja erotettu erikoismerkein ja MS Wordin muotoilutyylein.
Hiljakkoin (2008) kehitettiin komentosarja (vain Windowsille) ja aliohjelma, joiden avulla OmegaT-käyttäjät voivat tuottaa Tradosin kaksikielisiä RTF-tiedostoja toimitettavaksi käännösvaiheen lopuksi. Katso tarkemmat tiedot osasta HOWTO: Tiedostojen vienti OmegaT:sta Tradosin kaksikieliseen RTF-muotoon.

Trados TTX

Tradosin TTX-muoto on kaksikielisen RTF -muodon vastapuoli Trados Tag Editorissa, joka toisin kuin Trados Workbench, ei toimi suoraan yhdessä MS Wordin kanssa. TTX on XML-pohjainen muoto. Komentosarja (Toxic eli Trados-OmegaT-eXchange) ja suodatinyhdistelmä, joiden avulla TTX-tiedostoja voi kääntää OmegaT:llä, ovat saatavana täällä. Tärkeä huomio: ominaisuus on vielä hyvin varhaisessa kehitysvaiheessa.

Wordfast TXML

Wordfast TXML on Wordfastin uuden Wordfast Professionalin (toiselta nimeltään Wordfast 6.0) oma sisäinen tiedostomuoto. Nimensä mukaisesti se on XML-pohjainen muoto. OmegaT ei tällä hetkellä tue sitä. Wordfastin edustajien mukaan XLIFF todennäköisesti syrjäyttää sen lähitulevaisuudessa.

Déjà Vun External View

Déjà Vu DVX:ssä on kiinnostava ominaisuus, External View -tiedostomuoto. Tiedostomuodon avulla OmegaT-käyttäjät voivat toimittaa kaksikielisiä tiedostoja Déjà Vu DVX -käyttäjille, jotka voivat sitten muokata niitä tai sisällyttää ne automaattiseen asiankäsittelyyn. Katso tarkemmat tiedot osasta HOWTO: Déjà Vun External View.



Takaisin dokumentaatioon
© Marc Prior, 2009