Howto - den OmegaT-Tokenizer benutzen

Das Tokenizer-Plugin wurde in OmegaT in Version 3.0.0 integriert. Die folgende Information trifft deshalb nur zu, wenn Sie eine frühere OmegaT-Version als 3.0.0 benutzen. Wenn Sie das Tokenizer-Plugin mit früheren Versionen von OmegaT benutzt haben und auf Version 3.0.0 oder später von OmegaT aktualisiert haben, löschen Sie die Plugin-Dateien aus Ihrem Plugin-Ordner.

Der OmegaT-Tokenizer ist ein Plugin für OmegaT. Es liefert bessere Fuzzy- und Glossarmatches in OmegaT, indem die Wurzeln ("Stemmen") der Quellwörter berechnet werden. Es erkennt zum Beispiel flektierte Wörter in Texten und zeigt den entsprechenden Glossareintrag an, auch wenn der Glossareintrag nur die nicht-abgeleitete Form eines Wortes enthält.

Vorbereitung

Bevor Sie den Tokenizer mit OmegaT verwenden, müssen Sie zuerst sicherstellen, dass Ihre Version von OmegaT dafür geeignet und vorbereitet ist.

Webstart-Version von OmegaT: Der Tokenizer ist nicht kompatibel mit der Webstart-Version von OmegaT. Wenn Sie den Tokenizer benutzen möchten, installieren Sie die Standardversion von OmegaT (neueste Betaversion) für Ihr System.

OmegaT-Version 2.1.0 und älter: Der aktuelle Tokenizer ist nicht kompatibel mit diesen Versionen. (Der Tokenizer kann mit den Versionen 2.0.x und 2.1.0 verwendet werden, aber das erfordert eine andere Version des Tokenizers und ein anderes Installationsverfahren). Benutzern wird empfohlen, auf die neueste Beta-Version von OmegaT zu aktualisieren.

Windows-Versionen von OmegaT: Um OmegaT (alle Versionen) mit dem Tokenizer zu benutzen, muss es mit einer Startskriptdatei gestartet werden. Eine Startskriptdatei wird mit Windowsversionen von OmegaT nicht mitgeliefert. Wenn Sie die Windowsversion mit JRE benutzen, laden Sie die Datei OmegaT_with_JRE.bat herunter; Wenn Sie die Windowsversion ohne JRE benutzen, laden Sie die Datei OmegaT_without_JRE.bat herunter. Speichern Sie die Datei nach dem Herunterladen in den OmegaT-Hauptordner (den Ordner, der die Datei OmegaT.jar enthält).

Plattformneutrale Versionen (unter Windows): Finden Sie Ihre OmegaT-Startskriptdatei (OmegaT.bat).

Linux-Versionen/-Systeme: Finden Sie Ihre OmegaT-Startskriptdatei (OmegaT oder OmegaT.sh).

Überprüfen Sie, dass OmegaT gestartet wird, wenn Sie die Startskriptdatei öffnen:
- unter Linux auf der Kommandozeile
- unter Windows durch Klicken auf die Startskriptdatei

Den Tokenizer installieren

Nach den Installationsvorbereitungen (siehe oben), installieren Sie den Tokenizer wie folgt:

1. Laden Sie das Tokenizer Zip-Paket (für OmegaT Versionen 2.1.1 und neuer) herunter.

2. Entpacken Sie die Dateien aus dem Tokenizer Zip-Paket.

3. Erstellen Sie im OmegaT-Hauptprogrammordner (d. h. dem Ordner, der die Datei OmegaT.jar enthält) einen Unterordner genannt "plugins", wenn ein Ordner mit demselben Namen nicht schon existiert. Kopieren Sie die Dateien, die Sie aus dem Tokenizer-Paket entpackt haben, direkt in diesen Unterordner.

4. Öffnen Sie Ihre Startskriptdatei in einem Texteditor. Windowsbenutzer (im Speziellen): Klicken Sie nicht einfach auf diese Datei. Starten Sie stattdessen einen Texteditor (so wie Notepad oder Wordpad), öffnen Sie die Startskriptdatei dann mit Datei > Öffnen. Sie können auch mit der rechten Maustaste auf die Datei klicken, dann einen Texteditor auswählen, in dem sie geöffnet werden soll.

5. Die Startskriptdatei enthält das OmegaT-Startkommando. Die grundlegende Form des Kommandos ist:

java -jar OmegaT.jar

Abhängig von Ihrer Systemkonfiguration, kann das Startkommando leicht abweichen.

6. Suchen Sie einen Ihrer Quell-Sprache entsprechenden Tokenizer aus der folgenden Liste:

org.omegat.plugins.tokenizer.LuceneArabicTokenizer
org.omegat.plugins.tokenizer.LuceneBrazilianTokenizer
org.omegat.plugins.tokenizer.LuceneChineseTokenizer
org.omegat.plugins.tokenizer.LuceneCJKTokenizer
org.omegat.plugins.tokenizer.LuceneCzechTokenizer
org.omegat.plugins.tokenizer.LuceneDutchTokenizer
org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
org.omegat.plugins.tokenizer.LuceneGermanTokenizer
org.omegat.plugins.tokenizer.LuceneGreekTokenizer
org.omegat.plugins.tokenizer.LucenePersianTokenizer
org.omegat.plugins.tokenizer.LuceneSmartChineseTokenizer
org.omegat.plugins.tokenizer.LuceneRussianTokenizer
org.omegat.plugins.tokenizer.LuceneThaiTokenizer
org.omegat.plugins.tokenizer.SnowballDanishTokenizer
org.omegat.plugins.tokenizer.SnowballDutchTokenizer
org.omegat.plugins.tokenizer.SnowballEnglishTokenizer
org.omegat.plugins.tokenizer.SnowballFinnishTokenizer
org.omegat.plugins.tokenizer.SnowballFrenchTokenizer
org.omegat.plugins.tokenizer.SnowballGerman2Tokenizer
org.omegat.plugins.tokenizer.SnowballGermanTokenizer
org.omegat.plugins.tokenizer.SnowballHungarianTokenizer
org.omegat.plugins.tokenizer.SnowballItalianTokenizer
org.omegat.plugins.tokenizer.SnowballNorwegianTokenizer
org.omegat.plugins.tokenizer.SnowballPorterTokenizer
org.omegat.plugins.tokenizer.SnowballPortugueseTokenizer
org.omegat.plugins.tokenizer.SnowballRomanianTokenizer
org.omegat.plugins.tokenizer.SnowballRussianTokenizer
org.omegat.plugins.tokenizer.SnowballSpanishTokenizer
org.omegat.plugins.tokenizer.SnowballSwedishTokenizer
org.omegat.plugins.tokenizer.SnowballTurkishTokenizer

Fügen Sie das Argument --ITokenizer= hinzu, gefolgt von einem Leerzeichen und dem vollen Namen des Tokenizers (durch Kopieren der ganzen Zeile) an das Ende des Startkommandos in Ihrer OmegaT-Startskriptdatei.

Um zum Beispiel den englischen Tokenizer zu benutzen (wenn aus dem Englischen übersetzt wird), sollte Ihr Startkommando nun heißen:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.SnowballEnglishTokenizer

Oder wenn Sie aus dem Türkischen übersetzen, sollte es nun heißen:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.SnowballTurkishTokenizer

Wichtig: Das ganze Kommando muss in einer Zeile erscheinen (selbst wenn es in dem Editor, in dem sie es lesen, aussieht, als wäre es in zwei Zeilen).

7. Führen Sie diese Datei aus, OmegaT sollte nun mit der Tokenizer-Funktion starten. Überprüfen Sie zum Testen, ob Glossareinträge angezeigt werden, auch wenn das aktuelle OmegaT-Segment einen Begriff in flektierter Form aus dem Glossar enthält.

8. Wenn Sie unterschiedliche Tokenizer benutzen möchten, weil Sie aus mehr als einer Sprache übersetzen, erstellen Sie eine separate OmegaT-Startskriptdatei für jeden Tokenizer, den Sie benutzen möchten. Benennen Sie die Startskriptdateien entsprechend, zum Beispiel "OmegaT-EN.bat" für die Startskriptdatei, die den Befehl mit dem englischen Tokenizer enthält und "OmegaT-TR.bat" für die Startskriptdatei, die den Befehl mit dem türkischen Tokenizer enthält.

9. In einigen Fällen stellen Sie möglicherweise fest, dass der Quellsprachen-Tokenizer die Zielsprachen-Rechtschreibprüfung stört. Sie können dieses Problem beheben, indem Sie mit dem Argument "--ITokenizerTarget=" auch einen Tokenizer für die Zielsprache angeben (sofern verfügbar).

Versuchen Sie zum Beispiel, wenn Sie von Chinesisch nach Niederländisch übersetzen:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.LuceneChineseTokenizer --ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneDutchTokenizer

10. Nach dem Erstellen eines Startskripts wie oben beschrieben, können Sie Ihr System so konfigurieren, dass OmegaT bequemer gestartet werden kann, zum Beispiel durch Erstellen einer Verknüpfung. Um eine Verknüpfung unter Windows zu erstellen:

Klicken Sie mit der rechten Maustaste auf das Startskript (OmegaT.bat), ziehen Sie das Skript bei gedrückter rechter Maustaste an einen geeigneten Ort, z. B. auf Ihren Desktop. Wenn Sie den Rechtsklick loslassen, wird ein Dialogfeld mit einer Reihe von Optionen geöffnet. Wählen Sie "Verknüpfung hier erstellen".

Alternativ klicken Sie mit der rechten Maustaste auf das Startskript, Wählen Sie "Senden an", wählen Sie dann "Desktop (Verknüpfung erstellen)".

Nach dem Erstellen und Testen der Verknüpfung können Sie sie zum Startmenü hinzufügen, indem Sie sie dort hinein ziehen.

Copyright Marc Prior 2010-2011