Compatibility

OmegaT 技術情報:OmegaT の互換性

この技術情報では、OmegaT と他のプログラムとの互換性について説明します。

全般

職業翻訳者が原文をデジタル形式で受け取るのがふつうになっているので、OmegaT ユーザーは当然ながら他のプログラムとの互換性に関心があります。この技術情報は、まさにそのようなユーザーを対象に書かれています。

端的にいうなら、「互換性」とは白黒はっきりつけがたいものであり、「はい」か「いいえ」の二択で答えられる単純なものではありません。あるベンダーが、自社製品は他のプログラムと互換性がある、と主張するとき、その互換性が 100% ということはまずありません。またそれとは逆に、互換性がないと明言されている場合でも、うまく連携させる方法が何か見つかることがよくあります。したがって、ここで本当に重要なのは、その方法が労力に見合った結果を得られるものなのかどうか、という点でしょう。そして、その判断基準は人によって異なります。別の言い方をすると、「互換性」とはその製品のみならず、作業フローも含めて問われるものなのです。

OS

OmegaT は、適切なバージョンの Java 実行環境(JRE)を実現できるシステムであれば、どの OS 上でも動作します。これには現時点で、Windows 98 以降のすべての Microsoft Windows、Mac OS X、そしてほとんどの Linux ディストリビューションが含まれます。

原文テキスト(翻訳対象の原文ファイル)

対応するすべてのファイル形式の最新の一覧については、取扱説明書を参照してください。下記の一覧は、OmegaT が対応するファイル形式を網羅したものではありませんが、一般のユーザーが特に関心を持ちそうなものをピックアップしています。

翻訳メモリ

翻訳メモリに関する国際標準として、TMX(Translation Memory eXchange)があります。広く採用されている形式であり、最近のほとんどの CAT ツールが対応しています。

TMX 標準は、異なるバージョンと異なるレベルのものがあります。それらの間の区別は、互換性に関して重要です。TMX 標準は現在も開発が進行中であり、それに対応して種々のバージョンがあります。レベルは、TMX ファイルに含まれる書式情報に対応します。

他の一部の CAT ツール(TRADOS など)は、種々の TMX ファイルをさまざまなバージョンに合わせて出力できます。OmegaT は、現行の全バージョンの TMX に対応していますが、TMX ファイルがバージョン 1.4b の場合に最良の一致結果が得られる可能性が高いでしょう。 

TMX ファイルの種々のレベルに対応するツールは、原則として相互に互換性があります。上位レベルの書式情報は、他のツールにとっては無意味ですが、文書情報や抽出された参考訳文を閲覧することは可能です。

OmegaT は、固有の翻訳メモリ形式として、国際標準の TMX を使用しています。一部の CAT ツールは、今でも独自形式の翻訳メモリを使用していますが、ほとんどすべてのツールが、TMX ファイルのインポート/エクスポートに対応しています。したがって実際上、翻訳者と顧客の間で双方向に翻訳メモリを渡すことができ、受け取った TMX ファイルを直ちにまたは将来参照することができます。ただし、自動化された作業フローのなかでファイルを使用する場合、前述のような制約があります。

TMX ファイルに関するその他の留意点

TMX 標準には、許容される文字の定義が含まれます。そのような定義の順守に関して、すべての CAT ツールが同じように厳格というわけではありません。したがって、一部の CAT ツールは、他の特定の CAT ツールで作成した TMX ファイルを開くことができません。OmegaT は一般に、条件をよく順守しており、他のツールの非順守に対して許容性があります。それでも問題が発生した場合は、一般には、TMX ファイル中の不適正文字をテキストエディターで検索・置換することで簡単に解決できます。

TMX ファイルは Unicode でエンコードされていますが、UTF-8 と UTF-16 の場合があります。Windows システムで作成された TMX ファイルは、先頭にバイトオーダーマーク(BOM)があるかもしれません。このような相違は、一般には互換性の問題をもたらしません。

使用する言語コードの違いによって、互換性の問題が生じる可能性があります。OmegaT は、「xx」、「XX」、「xx-YY」、「XX-YY」のような形式の言語コードに対応しています。ここに、xx や XX は言語を、yy や YY は地域を表します。厳密には、ISO 標準では「xx-YY」のような言語コードが要求されます(たとえば英国式英語は「en-GB」)。このような異種形式に OmegaT は対応しますが、OmegaT が提供するデフォルト形式は「XX-YY」であり、たとえば「EN-GB」のように表します。OmegaT は、TMX ファイルを読み込む際に許容性があり、en-GB、en-US、en、EN などのファイルを受け入れます。すべての CAT ツールが同じ許容性を持つわけではないので、ツールによっては、言語コードが十分に順守されていないと、期待される参考訳文を表示しないことがあります。このような非互換性は、適切なテキストエディターで TMX ファイル内の関連する言語コードを検索・置換することによって解決できます。ほかに非互換性の原因となりうるのは、OmegaT がまったく対応していない 3 桁の言語コードです。(ちなみにこれは、OmegaT ではなく Java による制約です。)

独自形式の翻訳メモリファイルに関する留意点

従来の Wordfast 翻訳メモリファイル形式は、その簡潔さが注目に値します。それはプレーンテキストファイルからなり、各行は1つの翻訳単位(分節)からなり、原文と訳文の間にタブが挟まれています。この形式は、Wf2TMX のような関連プログラムを用いて TMX 形式に容易に変換できます。この目的のために、Anaphraseus を用いることもできます。

用語集ファイル

OmegaT の用語集ファイルは、以下の形式のプレーンテキストファイルです。

原文用語 <tab> 訳文用語 <tab> 追加情報

他の CAT ツールの中には、この形式の用語集、またはそこから容易に作成できる同様のプレーンテキスト形式の用語集(たとえば Microsoft Word の検索・置換操作によって作成)をインポート/エクスポートできるものがあります。

OmegaT はまた、用語集ファイルの業界標準である TBX 形式の用語集を読み込むこともできます。

OmegaT は、Trados Multiterm のような独自仕様のバイナリ形式用語集ファイルのインポートや読み込みができません。

バイリンガル CAT ツール形式

多くの CAT ツールは、バイリンガル中間ファイル形式を使用しています。すなわち、原文言語分節と訳文言語分節をともに含むファイルであり、原文ファイルの構造も含んでいることがあります。当初、これらのバイリンガルファイル形式は、ツールの構造上の副産物だったかもしれません。けれども今では、CAT ツールを用いた翻訳作業フローのなかで重要な要素となっており、しばしば OmegaT と他の CAT ツールとの互換性に関して最大の障害にもなっています(CAT ツール間の一般的な問題と言えます)。

顧客が特定のバイリンガルファイル形式(単に訳文ファイルだけでなく翻訳メモリも)で翻訳を納品するよう求める理由が、少なくとも3つあります。

1. 一部の CAT ツール、特に TRADOS は、デスクトップ出版形式を含む広範囲なファイル形式をインポートすることができ、またそのツールで翻訳するためにファイル形式を準備することができます。「準備される」形式とは、一般にはそのツールのバイリンガルファイル形式です。このような準備がないと、原文ファイル形式で翻訳者の手に渡る可能性があります。

2. 翻訳作業は、顧客の作業フローの一部でしかありません。翻訳結果は、たとえば編集のためにチェッカーの手に渡ります。もしチェッカーによる変更結果を、顧客が管理する翻訳メモリの中に保存するのであれば、最終文書を作成する前に変更を行う必要があります。この作業は当該の CAT ツール内で行うこともできますが、場合によっては、そのツールで読み込むことのできる外部のバイリンガルファイル形式で作業することもできます。

3. 顧客は、将来テキストを処理するのに使えるような翻訳メモリを受け取ることを望んでいます。つまり、既存の翻訳メモリを使って将来のテキストを「事前に翻訳する」ということです。この過程をできるだけ自動化するには、特に 2 つの条件を満たす必要があります。まず、翻訳メモリは書式情報を持たなければなりません(上記参照)。次に、テキストに適用される分節規則は、翻訳メモリ(またはその一部)が作成された時と同じ分節規則でなければなりません。顧客にとって、この 2 つの条件を満たすための一番簡単な方法は、テキストを自前で事前に翻訳してから翻訳者に渡し(それによってテキストをどのように区切るかを規定します)、翻訳済みのバイリンガル中間ファイルを翻訳者から受け取った後に、自ら選んだ CAT ツールで翻訳メモリを作成することです(それによって翻訳メモリ内に含まれる書式情報が、将来のプロジェクトと互換性を持つようになります)。

OmegaT は、いくつかのバイリンガルファイル形式を取り扱うことができ、それは必ずしも難しくありません。けれども、その過程を理解することは重要です。個々のバイリンガルファイル形式を以下に説明します。

XLIFF

XLIFF は、業界標準のバイリンガルファイル形式です。複数の CAT ツールがこの形式に対応しており、実際に一部の CAT ツール(たとえば Heartsome と Swordfish)は、事実上 XLIFF 標準を基本に設計されています。XLIFF は標準なので、その利点として、ある CAT ツールメーカーが特定の形式と XLIFF との間で変換(翻訳作業フロー完了後は逆方向に変換)するために提供したファイルフィルターを使えば、理論的には、XLIFF に対応する任意の CAT ツールで翻訳するために、同形式のファイルを用意できます。実際には、XLIFF の作業フローに沿って作業すると、往々にしてあまり使いやすくないツールを使用しなければなりません。

OmegaT は、XLIFF に基本的に対応しています。OmegaT と Rainbow ツールを組み合わせて XLIFF を使用する手順は、ここに書かれています。利用できるフィルターの多くは、エンドユーザー向けファイルではなく、IT 業界特有のファイル形式です。

Trados の「Uncleaned RTF」

Trados の「uncleaned」RTF ファイル形式は、しばしば単に uncleaned ファイルと呼ばれ、翻訳作業フローにおいて長年最もよく使われてきたバイリンガルファイル形式です。その起源は、Trados CAT ツールのインターフェースに MS Word が使われたことにあります。けれども、Trados のほかに、Wordfast Classic など複数の CAT ツールが uncleaned RTF 形式に対応しています。

この形式は基本的に、原文分節と訳文分節が交互に並んでいる RTF ファイルからなります。これらの分節はマークが付けられ、特別な文字によって区切られ、MS Word の書式とスタイルを持ちます。

OmegaT ユーザーが Trados の uncleaned RTF ファイルを作成するためのスクリプト(Windows 専用)と手順が、最近(2008 年)開発され、翻訳作業後の納品時に利用することができます。詳しくは、 技術情報「OmegaT から uncleaned RTF へのエクスポート」を参照してください。

Trados TTX

Trados TTX 形式は、Trados Tag Editor 用の uncleaned RTF 形式に相当します。Trados Tag Editor は、Trados Workbench のように MS Word と直接組み合わせて使うものではありません。TTX は XML ベースの形式です。TTX 形式を OmegaT で取り扱うための OmegaT plugin が利用できるようになりました。

Wordfast TXML

Wordfast TXML は、Wordfast 社の新しい Wordfast Professional(Wordfast 6.0 とも呼ばれる)に固有の内部形式です。その名が示すとおり、XML ベースの形式です。現時点で OmegaT はこの形式に対応していません。Wordfast の関係者によると、中期的には XLIFF に置き換えられる可能性が高いとのことです。

Déjà Vu の「External Views」

Déjà Vu DVX の特徴として興味深いのは、「External View」ファイル形式です。このファイル形式によって OmegaT ユーザーは、Déjà Vu DVX ユーザーにバイリンガルファイルを渡すことができます。それを受け取ったユーザーは、ファイルをさらに編集したり、自動化された作業フローに組み込んだりすることができます。詳しくは、Déjà Vu「External View」の技術情報を参照してください。

Copyright Marc Prior 2009-2011