Howto - Using the OmegaT tokenizer

De plug-in Tokenizer werd in OmegaT geïntegreerd in versie 3.0.0. De volgende informatie is daarom alleen van toepassing als u een eerdere versie gebruikt van OmegaT dan 3.0.0.
Als u de plug-in Tokenizer heeft gebruikt met een eerdere versie van OmegaT en hebt bijgewerkt naar versie 3.0.0 of later van OmegaT, verwijder dan de bestanden voor de plug-in Tokenizer uit uw map plug-in.

De OmegaT Tokenizer is een plug-in voor OmegaT. het biedt betere fuzzy overeenkomsten en overeenkomsten uit woordenlijsten in OmegaT, door de bronnen ("stammen") van de bronwoorden te berekenen. Het zal bijvoorbeeld vervoegde woorden in tekst herkennen en het overeenkomende item uit de woordenlijst weergeven, zelfs als de woordenlijst alleen de niet-vervoegde vorm van een woord bevat.

Voorbereiding

Vóór het gebruiken van de Tokenizer met OmegaT dient u er voor te zorgen dat uw versie van OmegaT geschikt en voorbereid is om er mee te gebruiken.

Webstart-versie van OmegaT: de Tokenizer is niet compatibel met de Webstart-versie van OmegaT. Installeer de standaard versie van OmegaT (laatste bèta versie) voor uw systeem als u de Tokenizer wilt gebruiken.

OmegaT versie 2.1.0 en ouder: de huidige Tokenizer is niet compatibel met deze versies. (De Tokenizer kan worden gebruikt met de versies 2.0.x en 2.1.0, maar dat vereist zowel een andere versie van de Tokenizer, als ook een andere procedure voor de installatie.) Gebruikers worden geadviseerd bij te werken naar de laatste bèta versie van OmegaT.

Windows-versies van OmegaT: om OmegaT (elke versie) te kunnen laten werken met de Tokenizer, moet die worden gestart vanuit een opstartbestand. Een bestand voor opstarten wordt niet meegeleverd met de versies van OmegaT voor Windows. Indien u de versie van Windows met JRE gebruikt, download het bestand OmegaT_with_JRE.bat; Indien u de versie van Windows zonder JRE gebruikt, download dan het bestand OmegaT_without_JRE.bat. Plaats, na het downloaden, het bestand in de hoofdmap van OmegaT (de map die het bestand OmegaT.jar bevat).

Platform-neutrale versie (op Windows): lokaliseer uw bestand om OmegaT op te starten (OmegaT.bat).

Linux-versies/systemen: lokaliseer uw opstarbestand voor OmegaT (OmegaT of OmegaT.sh).

Controleer of OmegaT wordt gestart als u het opstartbestand uitvoert:
- Op Linux, op de opdrachtregel
- Op Windows, door te klikken op het opstartbestand

Installeren van de Tokenizer

Installeer, na de voorbereiding voor de installatie (zie boven), de Tokenizer als volgt:

1. Download het pakket tokenizer zip (voor OmegaT versie 2.1.1 en later).

2. Pak de bestanden van het Tokenizer zip-pakket uit.

3. Maak, in de hoofdmap van het programma OmegaT (d.i. de map die het bestand OmegaT.jar bevat), een submap genaamd "plugins", als een submap met die naam daar nog niet bestaat. Kopieer de bestanden die u heeft uitgepakt uit het Tokenizer-pakket direct in deze submap.

4. Open ur bestand voor het opstarten in een tekstbewerker. Windows-gebruikers (in het bijzonder): klik niet eenvoudigweg op dit bestand. Start, in plaats daarvan, een tekstbewerker (zoals Notepad of Wordpad), en open het bestand om op te starten met Bestand > Openen. Het zou ook mogelijk kunnen zijn om met rechts te klikken op het bestand en dan een tekstbewerker te selecteren waarmee het geopend kan worden.

5. Het bestand om op te starten bevat de opdracht om OmegaT te starten. De basisvorm van deze opdracht is:

java -jar OmegaT.jar

Afhankelijk van de configuratie van uw systeem zou de opdracht om te starten enigszins kunnen verschillen.

6. Kies een tokenizer uit de volgende lijst, overeenkomstig uw brontaal:

org.omegat.plugins.tokenizer.LuceneArabicTokenizer
org.omegat.plugins.tokenizer.LuceneBrazilianTokenizer
org.omegat.plugins.tokenizer.LuceneChineseTokenizer
org.omegat.plugins.tokenizer.LuceneCJKTokenizer
org.omegat.plugins.tokenizer.LuceneCzechTokenizer
org.omegat.plugins.tokenizer.LuceneDutchTokenizer
org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
org.omegat.plugins.tokenizer.LuceneGermanTokenizer
org.omegat.plugins.tokenizer.LuceneGreekTokenizer
org.omegat.plugins.tokenizer.LucenePersianTokenizer
org.omegat.plugins.tokenizer.LuceneSmartChineseTokenizer
org.omegat.plugins.tokenizer.LuceneRussianTokenizer
org.omegat.plugins.tokenizer.LuceneThaiTokenizer
org.omegat.plugins.tokenizer.SnowballDanishTokenizer
org.omegat.plugins.tokenizer.SnowballDutchTokenizer
org.omegat.plugins.tokenizer.SnowballEnglishTokenizer
org.omegat.plugins.tokenizer.SnowballFinnishTokenizer
org.omegat.plugins.tokenizer.SnowballFrenchTokenizer
org.omegat.plugins.tokenizer.SnowballGerman2Tokenizer
org.omegat.plugins.tokenizer.SnowballGermanTokenizer
org.omegat.plugins.tokenizer.SnowballHungarianTokenizer
org.omegat.plugins.tokenizer.SnowballItalianTokenizer
org.omegat.plugins.tokenizer.SnowballNorwegianTokenizer
org.omegat.plugins.tokenizer.SnowballPorterTokenizer
org.omegat.plugins.tokenizer.SnowballPortugueseTokenizer
org.omegat.plugins.tokenizer.SnowballRomanianTokenizer
org.omegat.plugins.tokenizer.SnowballRussianTokenizer
org.omegat.plugins.tokenizer.SnowballSpanishTokenizer
org.omegat.plugins.tokenizer.SnowballSwedishTokenizer
org.omegat.plugins.tokenizer.SnowballTurkishTokenizer

Voeg het argument --ITokenizer= gevolgd door de volledige naam van deze tokenizer (door de gehele regel te kopiëren en een spatie in te voegen) toe aan het einde van de opdracht om te starten in uw bestand voor het opstarten van OmegaT.

Bijvoorbeeld: om de Engelse tokenizer (voor het vertalen vanuit het Engels) te gebruiken, zou uw opdracht om starten nu kunnen zijn:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.SnowballEnglishTokenizer

Of indein u vanuit het Turks vertaald, zou het nu kunnen zijn:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.SnowballTurkishTokenizer

Belangrijk: deze hele opdracht moet op één regel staan (zelfs als het lijkt alsof die op twee regels staat in de weergave waarin u dit leest).

7. Voer dit bestand uit en OmegaT zou nu moeten starten met de functie Tokenizer. Controleer, om te testen, of items uit de woordenlijst worden weergegeven zelfs als het huidige segment in OmegaT een term in een vervoegde vorm bevat van die in de woordenlijst.

8. Indien u verschillende tokenizers wilt gebruiken omdat u uit meer dan één taal vertaalt, maak dan een afzonderlijk bestand om OmegaT op te starten voor elke tokenizer die u wilt gebruiken. Geef de bestanden om op te starten toepasselijke namen, bijvoorbeeld "OmegaT-EN.bat" voor het bestand om op te starten dat de opdracht met de Engelse tokenizer bevat en "OmegaT-TR.bat" voor het bestand om op te starten dat de opdracht met de Turkse tokenizer bevat.

9. In sommige gevallen zou u kunnen merken dat de tokenizer voor de brontaal botst met de spellingscontrole door de doeltaal. U kunt dit probleem elimineren door ook een tokenizer voor de doeltaal te specificeren (indienn beschikbaar), met het argument --ITokenizerTarget=.

Als u bijvoorbeeld vertaalt vanuit Chinees naar Nederlands, probeer dan:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.LuceneChineseTokenizer --ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneDutchTokenizer

10. Na het maken van een opstartbestand zoals hierboven beschreven kunt u uw systeem zo configureren dat OmegaT eenvoudiger wordt gestart, bijvoorbeeld door een snelkoppeling te maken. Een snelkoppeling maken in Windows:

Klik met rechts op het opstartbestand (OmegaT.bat), en houd de rechter muisknop ingedrukt, sleep het bestand naar een handige locatie, zoals uw bureaublad. Wanneer u de rechter muisknop loslaat opent een dialoogvenster met een aantal opties. Kies "Snelkoppeling maken".

Als alternatief, klik met rechts op het opstartbestand. Selecteer: "Kopiëren naar", selecteer dan "Bureaublad (snelkoppeling maken)".

Na het maken en testen van de snelkoppeling kunt u het aan het menu Start toevoegen door het daarheen te slepen.

Copyright Marc Prior 2010-2011