Howto - Using the OmegaT tokenizer

Plug-in tokenizeru byl integrován do OmegaT ve verzi 3.0.0. Následující informace se tedy vztahuje pouze na situaci, pokud používáte nižší verzi OmegaT než 3.0.0.
Pokud jste používali plug-in tokenizeru s dřívější verzí OmegaT a pak jste upgradovali na verzi OmegaT 3.0.0. nebo novější, pak smažte soubory plug-inu tokenizeru z vašeho adresáře obsahující pluginy.

Tokenizer OmegaT je plugin pro OmegaT. Poskytuje v rámci OmegaT lepší výsledky pro přibližné překlady a shody s glosářem, a to určením kořenu / kmene („stemming“) slov zdrojového textu. Například rozezná ohýbaná slova v textu a zobrazí odpovídající záznam v glosáři, a to i když záznam v glosáři obsahuje neohýbanou formu slova (lemma).

Příprava

Před používáním tokenizeru s aplikací OmegaT se musíte nejdříve ujistit, že verze vaší OmegaT je pro toto vhodná a připravená pro použití tokenizeru.

Verze OmegaT Webstart: tokenizer není s verzí OmegaT Webstart kompatibilní. Pokud chcete používat tokenizer, instalujte si standardní verzi OmegaT (poslední beta verzi) pro svůj systém.

OmegaT verze 2.1.0 a starší: aktuální tokenizer není kompatibilní s těmito verzemi. (Tokenizer můžete použít s verzemi 2.0.x a 2.1.0, ale toto vyžaduje jak odlišné verze tokenizeru, tak odlišný způsob instalace.) Uživatelé by měli povýšit na nejnovější beta verzi OmegaT.

Verze OmegaT pro Windows: aby šlo použít OmegaT (jakákoliv verze) s tokenizerem, tak musí být tento program spuštěn přes soubor spouštěcího skriptu. Soubor spouštěcího skriptu není dostupný s verzemi OmegaT pro Windows. Pokud používáte verzi pro Windows s JRE, stáhněte si soubor OmegaT_with_JRE.bat; Pokud používáte verzi pro Windows bez JRE, stáhněte si soubor OmegaT_without_JRE.bat. Po stažení umístěte soubor do hlavního adresáře OmegaT (adresář obsahující soubor OmegaT.jar).

Verze bez závislosti na platformě (pod Windows): užijte daný soubor se spouštěcím skriptem pro OmegaT (Omega.bat).

Verze pro systémy Linux: užijte daný soubor se spouštěcím skriptem pro OmegaT (OmegaT nebo OmegaT.sh).

Zkontrolujte, že OmegaT se spustí, když spustíte soubor se startovacím skriptem:
- Pod Linuxem, na příkazové řádce
- Pod Windows, kliknutím na soubor se spouštěcím skriptem

Instalace tokenizeru

Po přípravě na instalaci (vizte výše), instalujte tokenizer následovně:

1. Stáhněte si archiv zip obsahující tokenizer (pro OmegaT ve verzi 2.1.1 a novější

2. Rozbalte soubory tokenizeru z archivu zip.

3. V hlavním adresáři programu OmegaT (tj. adresář obsahující soubor OmegaT.jar), vytvořte podadresář nazvaný „plugins“, a to tehdy, pokud podadresář s tímto názvem dosud není k dispozici. Zkopírujte soubory, které jste rozbalili z archivu tokenizeru přímo do tohoto podadresáře.

4. Otevřete soubor se spouštěcím skriptem v textovém editoru. Uživatelé Windows (obzvláště): nestačí jen kliknout na tento soubor. Místo toho, otevřete si textový editor (např. Poznámkový blok nebo WordPad), pak otevřete soubor se spouštěcím skriptem přes Soubor > Otevřít. Může být přístupná možnost přes dialogové menu, které se zobrazí po nakliknutí souboru pravým tlačítkem myši, pak označte textový editor, ve kterém si přejete soubor otevřít.

5. Spouštěcí skript obsahuje příkaz ke spuštění OmegaT. Základní tvar tohoto příkazu je:

java -jar OmegaT.jar

Podle nastavení vašeho systému může být spouštěcí příkaz mírně odlišný.

6. vyberte tokenizer z následujícího seznamu, podle vašeho zdrojového jazyka:

org.omegat.plugins.tokenizer.LuceneArabicTokenizer
org.omegat.plugins.tokenizer.LuceneBrazilianTokenizer
org.omegat.plugins.tokenizer.LuceneChineseTokenizer
org.omegat.plugins.tokenizer.LuceneCJKTokenizer
org.omegat.plugins.tokenizer.LuceneCzechTokenizer
org.omegat.plugins.tokenizer.LuceneDutchTokenizer
org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
org.omegat.plugins.tokenizer.LuceneGermanTokenizer
org.omegat.plugins.tokenizer.LuceneGreekTokenizer
org.omegat.plugins.tokenizer.LucenePersianTokenizer
org.omegat.plugins.tokenizer.LuceneSmartChineseTokenizer
org.omegat.plugins.tokenizer.LuceneRussianTokenizer
org.omegat.plugins.tokenizer.LuceneThaiTokenizer
org.omegat.plugins.tokenizer.SnowballDanishTokenizer
org.omegat.plugins.tokenizer.SnowballDutchTokenizer
org.omegat.plugins.tokenizer.SnowballEnglishTokenizer
org.omegat.plugins.tokenizer.SnowballFinnishTokenizer
org.omegat.plugins.tokenizer.SnowballFrenchTokenizer
org.omegat.plugins.tokenizer.SnowballGerman2Tokenizer
org.omegat.plugins.tokenizer.SnowballGermanTokenizer
org.omegat.plugins.tokenizer.SnowballHungarianTokenizer
org.omegat.plugins.tokenizer.SnowballItalianTokenizer
org.omegat.plugins.tokenizer.SnowballNorwegianTokenizer
org.omegat.plugins.tokenizer.SnowballPorterTokenizer
org.omegat.plugins.tokenizer.SnowballPortugueseTokenizer
org.omegat.plugins.tokenizer.SnowballRomanianTokenizer
org.omegat.plugins.tokenizer.SnowballRussianTokenizer
org.omegat.plugins.tokenizer.SnowballSpanishTokenizer
org.omegat.plugins.tokenizer.SnowballSwedishTokenizer
org.omegat.plugins.tokenizer.SnowballTurkishTokenizer

Na konec spouštěcího příkazu v souboru obsahujícím váš spouštěcí skript přidejte paramter --ITokenizer= jež bude následován celým jménem tokenizeru (zkopírováním celého řádku, vložením mezery).

Například, když chcete použít anglický tokenizer (při překladech z angličtiny), může váš spouštěcí příkaz vypadat takto:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.SnowballEnglishTokenizer

Nebo když překládáte z turečtiny, může pak vypadat takto:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.SnowballTurkishTokenizer

Důležitá poznámka: celý příkaz musí být na jednom řádku (i když se to tu třeba zobrazuje jako dva řádky).

7. Spusťte tento soubor a OmegaT bude nyní spuštěna s funkcí tokenizeru. Testujeme: zkontrolujte zda záznamy v glosáři se zobrazují i když aktuální segment OmegaT obsahuje, oproti záznamu v glosáři, výraz v ohýbané formě.

8. Pokud chcete používat různé tokenizery, například protože překládáte z více než jednoho jazyka, vytvořte oddělené soubory OmegaT se spouštěcím skriptem zvlášť pro každý tokenizer, který chcete použít. Pojmenujte pak soubor se spouštěcím skriptem podle daného jazyka, např. „OmegaT-EN.bat“ pro spouštění souboru se spouštěcím skriptem, který dosahuje příkaz s anglickým tokenizerem a „OmegaT-TR.bat“ pro soubor se spouštěcím skriptem, který obsahuje příkaz s tureckým tokenizerem.

9. V některých případech se může stát, že tokenizer zdrojového jazyka se ruší s kontrolou pravopisu cílového jazyka. Tento problém můžete odstranit tak, že deklarujete tokenizer pro cílový jazyk (tam kde je dostupný), a to prostřednictvím parametru --ITokenizerTarget=.

Například, pokud překládáte z čínštiny do holandštiny, zkuste:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.LuceneChineseTokenizer --ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneDutchTokenizer

10. Po vytvoření spouštěcího skriptu, jak je to popsáno nahoře, můžete konfigurovat svůj systém tak, aby se dalo spouštět OmegaT pohodlněji, např. vytvořením zástupce. Jak vytvořit zástupce ve Windows:

Klikněte pravým tlačítkem myši na spouštěcí skript (OmegaT.bat), pak podržte pravé tlačítko myši stisknuté, přetáhněte skript na požadovanou pozici, např. na své pracovní ploše. Jakmile uvolníte tlačítko myši, otevře se dialogové okno s několika položkami. Vyberte položku „Vytvořit zde zástupce“.

Podobně můžete kliknout pravým tlačítkem myši na spouštěcí skript. Vyberte „Odeslat“, pak vyberte „Plocha (vytvořit zástupce)“.

Až zástupce vytvoříte a otestujete, můžete jej přidat do nabídky Start tak, že jej tam přetáhnete.

Copyright Marc Prior 2010-2011