Howto - Translating PDF files with Iceni Infix and OmegaT

技術情報:Iceni Infix と OmegaT を使って PDF ファイルを翻訳

この技術情報は、OmegaT と Iceni Infix を使って PDF ファイルを翻訳する方法を説明します。

背景

PDF ファイルには、本来のPDFと「スキャンされた」PDFの 2 種類があります。

「スキャンされた」PDF ファイルでは、PDF 形式は単に、ハードコピーされたページのスキャン画像の便利な入れ物として使われています。このようなスキャン画像には、しばしば翻訳対象のテキストが含まれています。スキャンされた PDF ファイルを翻訳するには、タイピングまたは OCR(光学的文字読取装置)によってテキストを再作成し、ファイルのレイアウトを最初からやりなおすしかありません。この技術情報では、スキャンされた PDF は対象外とします。

本来の PDF ファイルは、他のプログラム(通常はデスクトップパブリッシング(DTP)プログラム)からエクスポートされた PDF ファイルです(これは、「ネイティブ」PDF または「distilled」PDF ファイルと呼ばれることもありますが、「distilled」にはより厳密な意味があります)。本来の PDF ファイルを翻訳するための正しい手順は、通常は、当初の(DTP)プログラムで翻訳を行ってから、原文ファイルのときと同様の手順で訳文ファイルから PDF ファイルを作成するというものです。PDF ファイルを直接編集して翻訳するという案は、一般には実際的ではありません。「参照用途の」PDF ファイルを翻訳するために、翻訳者はしばしば、PDF ファイルを RTF などの別のファイル形式に変換してから翻訳を行います。その結果は目的に適うかもしれませんが、当初の DTP 工程のプロ基準を満たさなくなります。

Iceni Infix

Iceni Infix は、さらに別の方法を提供します。Infix は PDF エディターであり、PDF 内のテキストを直接編集できます。この手順の結果が、DTP の専門家が訳文のレイアウトをやりなおした結果との比較に耐えるかは議論の余地があるでしょう。けれども、RTFのようなまったく別の形式に変換するよりはずっと良好な結果になると思われます。

Infix の「Professional」版には、翻訳者にとって関心を引く XML テキストエクスポート機能がついています。これによって、CAT ツールで翻訳可能な XML ファイルにテキストをエクスポートできます。出来上がった訳文テキストを、再度 Infix Professional にエクスポートできます。OmegaT は、この方法を使える CAT ツールの 1 つです。その手順をこの技術情報で説明します。

プラットフォーム

Infix は Windows のプログラムですが、Iceni は、Linux と Macintosh でも使えるようにしました。Infix Professional は、Crossover Linux および Crossover Macintosh と併用することで、それぞれ Linux および Macintosh 上で使用できます。Crossover Linux と Crossover Macintosh の価格は、約 40 ユーロです。無料のデモ版があります。Crossover Linux と Crossover Macintosh は、Codeweavers の website から入手できます。Crossover Linux や Crossover Macintosh で Iceni Infix を実行することに関する具体的な情報もあります。

PDF ファイルの翻訳:手順

Iceni webpage からIceni Infix Professional を入手してインストールします。デモ版を用意してあります。執筆時点で、製品版の価格は約 150 米ドルです。Linux または Macintosh のユーザーは、対応する Crossover 版を入手・インストールしてから、Infix Professional をインストールします。(Infix は、WINE 上でも動作することが報告されています。)

Iceni Infix を起動して、翻訳したい PDF ファイルを開きます。スクリーンショットの例は、ハンガリー語で書かれた欧州委員会の SME ユーザーガイドです。

infix1.png

[Document]→[Translate]→[Export XML]を選んで、PDF 中のテキストを Infix の XML 形式にエクスポートします。PDF を保存します。重要:PDF から XML ファイルをエクスポートする場合、Infix は、テキストの全構成要素(「ストーリー」)が帰属するファイルに注記を記すので、翻訳後の XML ファイルを再度インポートする際には、このバージョンのファイルを使用する必要があります。

通常の方法で OmegaT プロジェクトを作成します。

OmegaT 2.3 以降の版を使用している場合は、上述のように Infix からエクスポートされた XML ファイルをそのまま、対象となる OmegaT プロジェクトの source フォルダーに入れます。

それより古い版の OmegaT を使用している場合は、新しい版の OmegaT をインストールすることをお勧めします。あるいは、HTML フィルターを使うことによって、古い版の OmegaT で Infix XML ファイルを翻訳して良好な結果が得られるはずです。このフィルターを使用するには、Infix によってエクスポートされた XML ファイルのファイル拡張子を、単に .xml から .html へ変更します。

OmegaT プロジェクトを再読み込みします。テキストを翻訳できるようになりました(スクリーンショットを参照)。

infix2.png

注意:OmegaT の Infix フィルターは、Infix の <BR/> を <brx/> タグに対応付けます。これによって、HTML 分節化規則を使用して、この位置で分節を区切るかどうか選ぶことができます。

翻訳完了後に、通常の方法(Ctrl+S、Ctrl+D)で訳文文書を作成します。OmegaT プロジェクトの target フォルダー内に XML 訳文ファイルがあります。ファイル拡張子を .html に変更した場合、訳文ファイルの拡張子を .xml に戻してください。

Iceni Infix に戻って、XML 訳文ファイルを、先にエクスポートした元のPDF にインポートします。変更を保存します。

すべてうまく行けば、原文と同じような見た目の訳文ファイルができます。(スクリーンショット参照:最初の 3 分節のみ翻訳済み。)

Iceni Infix のデモ版を使用した場合、この手順において PDF 訳文ファイルに Iceni の透かしが入ります。「参照用途」の翻訳であれば、これは問題にならないかもしれません。Iceni Infix では、PDF ファイルを RTF 形式で保存することもできます。ただしこの場合、デモ版では文字がランダムに置き換わるので、デモ目的にのみ適します。

infix3.png

技術や翻訳に関連してよくあることですが、落とし穴もあります。

ユーザーにとって必要なすべての字体が、PDF に組み込まれていないかもしれません。必要な字体を入手・インストールすることで、この問題を解決できるかもしれません。あるいは、適切な解決策かどうかは別として、目的に合った別の字体を選択することができます。

いくつかの箇所で、原文より訳文のほうが長くなる可能性は十分にあります。これは、テキストが入っているボックスを拡大するなどによって、Infix 内で処理する必要があります。Infix には、この問題や、本技術情報の範囲を超える他の問題に対処する機能があります。

分節が不都合な場所で、強制改行によって切られていることがあるかもしれません。これは、OmegaT や他の CAT ツールで Powerpoint ファイルを翻訳する際に、よく遭遇する状況でしょう。この問題を解決するために、原文の PDF ファイルを Infix で開きなおします。[Tools]→[Text tool]を選択します。問題のテキストをクリックすると、テキストボックスと書式記号が表示されます。スクリーンショットに例を示します。

infix4.png

改行を削除します。変更を保存してから、PDF を XML ファイルにエクスポートし(ファイル拡張子の変更等も行い)、OmegaT プロジェクトを再読み込みします。ファイル内に不都合な行の分断がたくさんある場合は、OmegaT と Infix の間で切り替えて場所を確認して、一度に除去するほうが効率的です。

一部の不都合な改行は、テキストを正しく位置付けるために必要かもしれません。may be required for correct positioning of the text. そのような場合、ファイルを XML にエクスポートする前に改行を取り除くほうが実際的です。そうすることで、まとまりのある分節が翻訳用に提示され、翻訳後に Infix で分節を再挿することになります。

Copyright Marc Prior 2011