Совместимость

В этом HowTo рассматриваются вопросы совместимости OmegaT с другими программными продуктами.

Общие замечания

Поскольку профессиональные переводчики постоянно сталкиваются с получением и передачей текстов в цифровом виде, пользователям OmegaT полезно знать, как происходит взаимодействие с другими программными продуктами. Данное HowTo пытается ответить на этот вопрос.

Сразу стоит отметить, что «совместимость» очень редко представляет собой чёрно-белый вопрос, на который можно ответить «да» или «нет». Когда производитель программного продукта заявляет о совместимости с другой программой, совместимость редко достигает 100%. И наоборот, когда программные продукты явно не совместимы между собой, часто можно найти способы для организации взаимодействия между ними. Поэтому отвечать нужно на вопрос: возможно ли организовать такое взаимодействие с приемлемыми уровнями результата и затраченных усилий, и ответ на него скорее всего у разных пользователей будет отличаться. Другими словами, «совместимость» зависит не только от программных продуктов, но ещё и от организации рабочего процесса.

Операционные системы

OmegaT может быть запущена на любой операционной системе, где есть подходящая версия Java Runtime Environment (JRE). В настоящий момент к таким системам относятся все версии Microsoft Windows, начиная с Windows 98, Mac OS X, а также большинство дистрибутивов GNU/Linux.

Исходные тексты (файлы для перевода)

Для получения актуального списка поддерживаемых форматов, пожалуйста, обратитесь к руководству пользователя OmegaT. Ниже представлен не полный перечень форматов, поддерживаемых OmegaT, но лишь тех, которые обычно представляют интерес для пользователей.

Памяти переводов

Для памяти переводов существует международный стандарт: TMX или Translation Memory eXchange. Он получил широкое распространение и поддерживается почти всеми современными программами CAT.

Стандарт TMX описан для разных версий и для разных уровней. Эти различия необходимы для обеспечения совместимости. Стандарт всё ещё находится в разработке. Далее описаны различия между его версиями. Уровни описывают информацию о форматировании, содержащуюся в файле TMX:

Некоторые программы CAT (например, TRADOS) способны экспортировать файлы TMX в различных версиях. OmegaT поддерживает все существующие версии TMX, но для получения наилучших результатов рекомендуется использовать версию 1.4b. 

Программы, поддерживающие различные уровни файлов TMX, в принципе также совместимы между собой. Данные о форматировании, содержащиеся в более высоких уровнях, ничего не будут значить для «другой» программы, но текстовые данные всё ещё будут доступны для просмотра, нечётких совпадений и т. д.

OmegaT использует международный стандарт TMX в качестве внутреннего формата хранения памяти переводов. Некоторые программы CAT всё ещё используют собственные форматы памяти переводов, но практически все из них поддерживают импорт и экспорт файлов TMX. Таким образом, на практике у переводчиков есть возможность обмениваться памятью переводов со своими клиентами, а у получателей этих файлов — возможность использовать их для текущей и будущей работы. Однако если эти файлы планируется использовать в автоматизированном рабочем процессе, то нужно учитывать вышеописанные ограничения.

Дополнительные замечания о файлах TMX:

Стандарт TMX описывает разрешённые к использованию символы. Не все программы CAT одинаково строго следуют этим ограничениям, в результате чего некоторые из этих программ оказываются неспособными открывать файлы TMX, созданные в других программах CAT. OmegaT старается придерживаться этих ограничений и терпима к их вольной трактовке другими программами. Тем не менее если из-за этого всё же возникают проблемы, решить их довольно просто с помощью поиска и замены недопустимых для TMX символов в обычном текстовом редакторе.

Файлы TMX используют кодировку Unicode, в частности UTF-8 или UTF-16. Файлы TMX, созданные в Windows, могут начинаться с маркера последовательности байтов (BOM). Это различие обычно не приводит к проблемам совместимости.

Проблемы совместимости могут возникать при различных способах указания языковых кодов. OmegaT поддерживает языковые коды в формате «xx», «XX», «xx-YY» и «XX-YY», где «xx» или «XX» обозначают язык, а «yy» или «YY» — регион. Строго говоря, стандарт ISO для языковых кодов требует их указания в формате «xx-YY» (например, «en-GB» для британского английского). Хотя такой вариант поддерживается в OmegaT, по умолчанию OmegaT использует формат «XX-YY», например, «EN-GB». При чтении файлов TMX OmegaT терпимо относится к языковым кодам: файлы с кодами «en-GB», «en-US», «en», «EN» и т. д. будут успешно распознаны. Не все программы CAT проявляют такую же терпимость и могут не находить совпадения, если языковые коды недостаточно совместимы для них. Эта проблема может быть решена с помощью замены языковых кодов файлов TMX в текстовом редакторе. Ещё одним возможным источников проблем совместимости могут выступать языковые коды, состоящие из трёх цифр, которые никак не поддерживаются в OmegaT. (В данном случае это ограничение Java, а не самой OmegaT.)

Замечания о проприетарных форматах файлов памяти переводов:

Традиционный формат файлов памяти переводов Wordfast интересен, в частности, своей простотой: он представляет собой обычный текстовый файл с единицей перевода (сегментом) в каждой отдельной строке, где источник и перевод разделены знаком табуляции. Этот формат можно легко преобразовать к TMX с помощью сторонних программ, например, Wf2TMX. Также для этой задачи может быть использован Anaphraseus.

Файлы глоссариев

Файлы глоссариев OmegaT — это простые текстовые файлы в следующем формате:

исходный термин    <знак табуляции>    перевод термина    <знак табуляции>    дополнительная информация

Некоторые из программ CAT способны импортировать и экспортировать файлы глоссариев в таком формате или в похожем текстовом формате, который очень легко можно из них получить (например, с помощью поиска и замены в Microsoft Word).

OmegaT также поддерживает чтение глоссариев в формате TBX, промышленном стандарте файлов глоссариев.

OmegaT не способна импортировать или читать файлы глоссариев в проприетарных форматах, таких как Trados Multiterm.

Двуязычные форматы программ CAT

Многие программы CAT используют промежуточные двуязычные форматы файлов, т. е. файлов, содержащих как сегменты источника, так и сегменты перевода, а иногда и структуру оригинального файла. Изначально такие двуязычные файловые форматы могли быть побочными продуктами архитектуры программ. Однако со временем они стали важным феноменом в рабочем процессе, включающим в себя программы CAT, и часто они вызывают наибольшее затруднение в организации совместимости между OmegaT и другими программами CAT (или, если на то пошло, между программами CAT вообще).

Существует как минимум три причины, по которым заказчик может потребовать предоставить перевод в конкретном двуязычном файловом формате (вместо переведённого текста и, возможно, памяти перевода):

1. Некоторые программы CAT, в частности TRADOS, способны импортировать большое количество форматов файлов, включая издательские форматы, и подготавливать их к переводу в этой программе. Такая «подготовленная» форма обычно представляет собой двуязычный формат файла этой программы. Без такой подготовки переводчику может быть доступен оригинальный формат файла.

2. Этап перевода является лишь частью рабочего процесса заказчика. Например, перевод может далее передаваться на проверку или редактирование. Если изменения редактора должны быть включены в репозиторий памяти переводов, находящийся у заказчика, то эти изменения должны быть сделаны перед созданием конечных документов. Это может быть сделано либо в данной программе CAT, либо, в некоторых случаях, во внешнем двуязычном формате файлов, который поддерживается этой программой.

3. Заказчик желает получить память переводов, которая будет использована для будущих переводов; другими словами, для «предварительного перевода» будущих текстов с существующей памятью переводов. Чтобы этот процесс был максимально автоматизирован, необходимо выполнение двух условий: во-первых, память переводов должна содержать информацию о форматировании (см. выше), и, во-вторых, правила сегментации, применённые к тексту, должны совпадать с теми, что были использованы при создании памяти переводов (или её части). Самый простой способ для заказчика убедиться в том, что оба этих условия выполнены, это самостоятельно выполнить предварительный перевод (таким образом задав сегментацию) и создать память переводов в системе автоматизированного перевода на его выбор после получения переведённого промежуточного двуязычного файла от переводчика (тем самым гарантируя то, что информация о форматировании, содержащаяся в памяти переводов, будет совместима с будущими проектами).

Некоторые из двуязычных форматов файлов можно передавать в OmegaT, не обязательно прилагая при этом большие усилия. Однако важно понимать суть процессов, происходящих при этом. Ниже описаны конкретные примеры двуязычных форматов файлов.

Файлы XLIFF

XLIFF представляет собой промышленный стандарт двуязычного формата файла. Он поддерживается несколькими программами CAT, а некоторые из этих программ по сути «созданы вокруг» стандарта XLIFF: Heartsome и Swordfish одни из них. Поскольку это стандарт, XLIFF обладает преимуществом того, что файловые фильтры одного производителя программ CAT для преобразования между определённым форматом и XLIFF (и в обратную сторону после перевода) в теории могут быть использованы для подготовки файлов в формате, подходящем для их перевода в любой программе CAT, поддерживающей XLIFF. На практике использование в рабочем процессе XLIFF часто требует применения не очень дружественных к пользователю инструментов.

В OmegaT поддержка XLIFF находится в зачаточном состоянии. Ознакомиться с процедурой использования XLIFF в OmegaT вместе с Rainbow tools можно здесь. Доступные файловые фильтры представляют интерес главным образом для специалистов в информационных технологиях, но не для конечных пользователей.

Trados «неочищенный RTF»

Файловый формат Trados «неочищенный RTF», часто называемый просто «неочищенные файлы», многие годы был самым распространённым двуязычным форматом файлов, используемым в процессе перевода. Своим происхождением он обязан MS Word, выступавшему в качестве интерфейса для системы автоматизированного перевода Trados. Однако помимо Trados он поддерживается и некоторыми другими программами CAT, в частности Wordfast Classic.

По сути этот формат представляет собой файл RTF, в котором чередуются исходные и переведённые сегменты. Эти сегменты обозначаются и разделяются специальными символами и стилями форматирования MS Word.

Недавно (2008) были созданы скрипт (только для Windows) и процедура, позволяющие пользователям OmegaT получать неочищенные файлы RTF Trados для передачи их заказчику по окончании процесса перевода. За подробностями обратитесь к HowTo по экспорту неочищенного RTF из OmegaT.

Trados TTX

Формат Trados TTX дополняет формат «неочищенный RTF» для Trados Tag Editor, который в отличие от Trados Workbench не работает в комбинации с MS Word. TTX — это формат, основанный на XML. Сейчас уже доступен плагин для OmegaT, с помощью которого с этим форматом можно работать в OmegaT.

Файлы Wordfast TXML

Wordfast TXML представляет собой родной внутренний формат Wordfast Professional (также известной как Wordfast 6.0). Как можно понять из его названия, этот формат основан на XML. OmegaT его поддерживает напрямую.

Déjà Vu «External View»

Интересной возможностью Déjà Vu DVX является её файловый формат «External View». Этот формат позволяет пользователям OmegaT передавать двуязычные файлы пользователям Déjà Vu DVX, которые в дальнейшем могут их редактировать или использовать в своих автоматизированных рабочих процессах. За подробностями обратитесь к HowTo по Déjà Vu «External View».

Copyright Марк Прайор 2009–2014