Denna HOWTO beskriver OmegaT:s kompatibilitet med andra mjukvaruprodukter.
Eftersom det är rätt vanligt för professionella översättare att ta emot och skicka text i olika format är OmegaT-användare naturligtvis intresserade av dess kompatibilitet med annan mjukvara. Denna HOWTO försöker ge information om detta.
En allmän iakttagelse är att "kompatibilitet" sällan är svart på vitt "ja" eller "nej", När en försäljare av ett program hävdar att produkten är kompatibel med ett annan program, är kompatibiliteten sällan 100%. Däremot är det ofta möjligt att hitta tillvägagångssätt för att få program att fungera när de inte kan arbeta tillsammans direkt. Frågan är om dessa procedurer är acceptabla vad gäller resultat och ansträngning som krävs. Detta varierar från fall till fall och mellan olika användare. Med andra ord handlar "kompatibilitet" inte bara om program, men också om arbetsflöden.
OmegaT kan köras på vilket system som helst, förutsatt att JRE (Java Runtime Environment) kan köras. För närvarande innefattar detta alla versioner av Microsoft Windows från Windows 98 och framåt, Mac OS X, och de flesta distributioner av Linux.
Se Användarmanualen för OmegaT för en uppdaterad lista av alla filformat som stöds, Listan nedan är inte en fullständig lista av alla filformat som stöds av OmegaT, utan är begränsad till dem som är av extra intresse för den typiske användaren.
OpenOffice.org; Open Document Format; Star Office; Open Office Writer; Open Office Calc; Open Office Impress; NeoOffice:
Dessa filformat motsvarar formaten i Microsoft Office. Open Document Format är en internationell standard och har ersatt det patentskyddade (men öppna) Star Office-formatet; dessa är faktiskt två skilda men väldigt likartade filformat. NeoOffice är en version av OpenOffice.org för Mac OS X. OmegaT har filfilter för både Open Document Format och Star Office-formatet som det ersatte. Dessa filfilter är utmärkta, och risken för att skada formateringen i en fil i formatet OpenOffice.org, Star Office, etc. när de översätts i OmegaT är extremt liten.
HTML; XHTML:
HTML och XHTML, dess XML-motsvarighet, är de vanligaste filformaten för webbplatser. Återigen så har OmegaT utmärkta filfilter för båda formaten. Precis som med OpenOffice.org-filer, kan dessa översättas i OmegaT med väldigt liten risk för korruption. Det kan dock vara värt att ställa in filtren för optimala resultat.
Microsoft Office 97-2003 (Microsoft Word/Excel/Powerpoint 2003):
Dessa filformat är patentskyddade, binära och tills nyligen inte offentligt dokumenterade, vilket gör dem oerhört svåra att hantera i ett översättningsverktyg.
Vissa översättningsverktyg löser det här problemet, åtminstone när det gäller MS Word, genom att arbeta inom Word; de flesta andra konverterar till RTF och tillbaka, ofta utan att översättaren märker något.
OmegaT stödjer inte några av de här formaten. Istället är standardproceduren att översättaren först måste konvertera dem till OpenOffice.org-format för att kunna fungera med OmegaT.
Kvaliteten på konverteringsprocessen är vanligtvis god, konverteringen för Word och Excel är bättre än den för Powerpoint. Åsikterna går isär huruvida kvaliteten på konverteringen är adekvat för professionell översättning. Det är dock värt att notera att översättningsverktyg som ger intrycket att hantera Microsoft Office-filer direkt, inte sällan orsakar formateringsförluster eller korruption, antingen genom att infoga ny formatering relaterad till översättningsprocessen, eller genom att konvertera till RTF och tillbaka (en process som inte heller är helt fri från förluster). Med andra ord är inte OmegaT inte ovanlig bland översättningsverktygen när Microsoft Office-filer måste konverteras till ett annat format fram och tillbaka.
Användare uppmuntras att testa processen själva, helst med filer med komplex formatering. Det är viktigt att notera att kvaliteten på konverteringen avser konverteringen fram och tillbaka (ibland kallat "roundtripping"). En fil från Microsoft Word kan se ganska annorlunda ut i OpenOffice.org när den konverterats till ODT, även om strukturen bevarats och formateringen inte har ändrats på något sätt.
Vissa användare av OmegaT har gjort sig av helt med Microsoft Office, andra använder det bara för att kontrollera dokument med komplex formatering. Några av problemen med konverteringen mellan Microsoft Office och OpenOffice.org är kända: t.ex. "SIdnummer"-fältet i Microsoft Word förloras efter att ha konverterats till OpenOffice.org och tillbaka, men det kan infogas igen i Microsoft Office efter att konverterats till Microsoft Word-format.
Det finns en spridd missuppfattning att OpenOffice.org enbart kan hantera relativt enkel formatering från Microsoft Office, men så är inte fallet. Även komplexa formateringar som stilar och spårade ändringar bevaras och behålls när filer konverteras tillbaka till Microsoft Office. Ett större och vanligare problem än "komplex formatering" är "dålig formatering". Speciellt när skribenten har arrangerat texten fritt (t.ex. genom att använda mellanslag eller flera tabbslag för indentering) istället för att använda riktig strukturering.
RTF (Rich Text Format):
RTF är strukturellt ganska olik formaten för Microsoft Office 98-2003, men för OmegaT gäller detsamma: det stöds inte direkt, och standardproceduren är att konvertera till OpenOffice.org och tillbaka.
Microsoft Office 2007 (Word, Excel, PowerPoint 2007); Office Open XML:
Formatet för Microsoft Office 2007 (även kallat Office Open XML) är radikalt annorlunda mot formaten för Office 97-2003. Faktum är att strukturen är väldigt lik den i OpenOffice.org-filer: den består av ett zip-arkiv som innehåller flera filer, och filerna som innehåller texten är baserat på XML-standard. Detta gör det i princip enklare för översättningsverktyg att stödja formatet och redigera det direkt.
OmegaT har ett dedikerat filter för Microsoft Office 2007-filer. När detta skrivs är filtret dock i ett tidigt utvecklingsstadium, och har en betydande nackdel: det resulterar i ett stort antal taggar. Denna olägenhet måste balanseras mot att eliminera risken att skada filen under översättningen, då OmegaT redigerar filen direkt utan konvertering.
Ett alternativ, och i de flesta fall en bättre lösning är att konvertera Microsoft Office 2007-filer till OpenDocument Format (OpenOffice.org) och tillbaka, som de tidigare Microsoft Office 97-2003-formaten. Det finns flera sätt att göra detta. Antingen direkt (från Office Open XML till OpenDocument Format), eller indirekt via Microsoft Office 97-2003-formatet:
1. I Microsoft Office 2007, konvertering till Microsoft Office 98-2003-format (följt av konvertering i OpenOffice.org till OpenDocument Format).
2. För användare av Microsoft Office som inte (ännu) har versionen från 2007, kan konvertera mellan Office Open XML och Microsoft Office 98-2003 med en gratis insticksomvandlare från Microsoft som finns här. Denna omvandlare finns både för Windows och Mac.
3. Office Open XML kan konverteras direkt till Open Document Format och tillbaka med ODF-omvandlaren som finns tillgänglig här. Verktyget kräver MS Office (XP/2003/2008).
4. Användare med Mac OS X kan konvertera direkt från Office Open XML till OpenDocument Format och tillbaka i NeoOffice.
5. Användare med Linux kan använda det här omvandlingsverktyget för att konvertera direkt mellan Office Open XML och OpenDocument Format.
6. Den nuvarande versionen av OpenOffice.org (3.0.x) kan importera Microsoft Office 2007 och konvertera dem till OpenOffice.org-format, men inte tillbaka. Programmet kan såklart konvertera dem tillbaka till Microsoft Office 97-2003-formaten, som i sin tur kan läsas av Microsoft Office 2007. Denna procedur kan vara accepterad av kunder som använder Microsoft Office 2007.
Det finns en internationell standard för översättningsminnen: TMX, eller Translation Memory eXchange. Den är allmänt vedertagen och stöds av nästan alla översättningsverktyg.
TMX finns både i olika versioner och i olika nivåer. Den åtskillnaden är viktig i kompatibilitetssyfte. Standarden är fortfarande under utveckling; detta är vad de olika versionerna refererar till. Nivån refererar till formateringsinformationen som finns i TMX-filen:
Nivå 1 TMX-filer innehåller ingen formateringsinformation.
Nivå 2 TMX-filer innehåller formateringsinformation, men de här filerna är typiskt endast kompatibla när samma översättningsverktyg används. Med andra ord, om en OmegaT-användare hittar 100%:ig träff i en Nivå 2 OmegaT TMX-fil, kan det accepteras utan att ändras. Men det samma skulle inte gälla för en Nivå 2 TMX-fil skapad av ett annat översättningsverktyg (eller vice versa). Detta leder till svårigheter i arbetsflödet när användare av översättningsverktyg (oftast kunder) förväntar sig att få översättningsminnen och automatiskt kunna sätta in 100%:iga träffar.
Nivå 3 TMX-filer innehåller formateringsinformation i ett format som andra översättningsverktyg kan läsa. Det är ovanligt att översättningsverktyg stöder Nivå 3.
Verktyg som stöder olika nivåer på TMX-filer är i princip fortfarande kompatibla med varandra. Formateringsinformationen i de högre nivåerna blir meningslösa för det "andra" verktyget, men textinformationen kan fortfarande ses, luddiga träffar hittas, etc.
OmegaT använder den internationella TMX-standarden som inhemskt format för översättningsminnen. Vissa översättningsverktyg använder fortfarande patentskyddade format för översättningsminnen, men de allra flesta stöder ändå import och export av TMX-filer. I praktiken är det alltså möjligt för översättare att leverera översättningsminnen till kunder och vice versa, och för mottagaren att använda de filerna för direkt eller senare referens. Om filerna ska användas inom ett automatiserat arbetsflöde, finns dock begränsningarna som beskrivits ovan.
Ytterligare anmärkningar om TMX-filer:
Standarden för TMX innehåller definitioner om vilka tecken som är tillåtna. Inte alla översättningsverktyg är lika strikta i att efterfölja dessa omständigheter; detta leder till att vissa översättningsverktyg inte kan öppna TMX-filer skapade av vissa andra översättningsverktyg. OmegaT efterlever generellt omständigheterna och är tolerant mot andra verktygs försummelse att efterleva dem. Om problem uppstår, kan de vanligtvis lösas genom att använda funktionen "Sök och ersätt" i en textredigerare för att ta bort olovliga tecken i TMX-filen.
TMX-filer kodas i Unicode, men kan både vara antingen UTF-8 eller UTF-16. TMX-filer som skapats i Windows kan börja med en byte-ordningsmarkering (BOM). Detta skapar vanligtvis inga kompatibilitetsproblem.
Kompatibilitetsproblem kan orsakas av skillnader i språkkoderna. OmegaT stöder språkkoder i formatet "xx", "XX", "xx-YY" och "XX-YY", där xx eller XX är språket, yy eller YY regionen. Strikt sett är ISO-standarden för språkkoder "xx-YY" (t.ex.: "en-GB" för brittisk engelska); även om OmegaT stöder denna variant, är den normala varianten i OmegaT "XX-YY", t.ex. "EN-GB". OmegaT är tolerant när det läser TMX-filer: det kommer acceptera filer med en-GB, en-US, en, EN, etc. Alla översättningsverktyg uppvisar inte samma tolerans, och några kommer alltså inte visa de förväntade träffarna om språkkoderna inte är stämmer överens tillräckligt. Denna inkompatibilitet kan lösas genom att söka och ersätta språkkoderna i TMX-filen i en textredigerare. En annan möjlig orsak till inkompatibilitet är tresiffriga språkkoder, som inte stöds av OmegaT. (Detta är för övrigt en begränsning i Java, inte OmegaT i sig.)
Anmärkningar om patentskyddade filer för översättningsminnen:
Det traditionella formatet för översättningsminnen i Wordfast är speciellt av intresse, på grund av sin enkelhet: det består av en vanlig textfil en översättningsenhet (ett segment) på varje rad, där källa och mål är separerade med ett tabbslag. Detta format kan enkelt konverteras till TMX med extern mjukvara som Wf2TMX.
OmegaT:s ordlistefiler är vanliga textfiler i formatet:
källterm <tab> målterm <tab> ytterligare information
Vissa andra översättningsverktyg kan importera och exportera ordlistor i detta format, eller i ett liknande textfilformat som lätt kan skapas (t.ex. med funktionen "Sök och ersätt" i Microsoft Word).
OmegaT kan inte importera eller läsa ordlistefiler i patentskyddade binära format som Trados Multiterm.
Många översättningsverktyg använder sig av en mellanliggande tvåspråkig fil, alltså en fil som innehåller både käll- och målsegment, och ibland även strukturen i källfilen. Ursprungligen var dessa tvåspråkiga filer restprodukter av verktygets arkitektur. De har däremot blivit viktiga inom arbetsflöden för översättning med översättningsverktyg, och har kommit att bli det största hindret för kompatibilitet mellan OmegaT och andra översättningsverktyg (eller mellan översättningsverktyg i allmänhet).
Det finns åtminstone tre anledningar för en kund att be om leverans i ett speciellt tvåspråkigt format (snarare än att få den översatta filen och möjligtvis översättningsminnet):
1. Vissa översättningsverktyg, speciellt TRADOS, kan importera en mängd olika filformat, inklusive DTP-format (datorstödd trycksaksproduktion) och kan förbereda dem för översättning i verktyget. Den "förberedda" formen är vanligtvis verktygets tvåspråkiga filformat. Utan förberedning, kan filen vara tillgänglig för översättaren. 2. Översättningsarbetet är enbart en del av kundens arbetsflöde. Översättningen måste kanske kontrolleras innan redigering. Om korrekturens ändringar ska inkluderas i översättningsminnet som kunden har, så måste ändringarna göras innan de färdiga dokumenten skapas. Detta kan antingen göras med det aktuella verktyget, eller i vissa fall en extern tvåspråkig fil som verktyget kan läsa.Flera av de tvåspråkiga filerna kan hanteras i OmegaT, inte nödvändigtvis med större ansträngning. Det är dock viktigt att förstå de involverade processerna. De olika tvåspråkiga filformaten beskrivs nedan.
XLIFF är standardformatet för tvåspråkiga filer. Det stöds av flera översättningsverktyg, och faktum är att flera faktiskt är uppbyggda kring XLIFF-standarden: t.ex. Heartsome och Swordfish. Eftersom det är en standard, är en fördel med XLIFF att filfiltren som erbjuds av ett översättningsverktyg för konvertering av ett visst format till XLIFF (och, efter översättning, tillbaka igen) kan i teorin användas för att förbereda filer i det formatet för översättning i vilket översättningsverktyg som helst som stöder XLIFF. I praktiken kräver arbete med XLIFF verktyg som inte är speciellt användarvänliga.
OmegaT har rudimentär support för XLIFF, och ett tillvägagångssätt för att använda XLIFF i OmegaT tillsammans med verktyg från Rainbow finns här. Filtren som finns är mest för filformat speciella för IT-industrin, snarare än användarformat.
Trados TTX är motsvarigheten till "uncleaned RTF"-formatet för Trados Tag Editor, som till skillnad från Trados Workbench inte arbetar direkt i kombination med MS Word. TTX är ett XML-baserat format. En kombination av ett skript ("Toxic", för Trados-OmegaT-eXchange) och ett filter som gör det möjligt att översätta TTX-filer i OmegaT finns här. Observera: denna funktion är fortfarande i ett tidigt utvecklingsstadium.
Wordfast TXML är det inhemska filformatet för Wordfasts nya Wordfast Professional (också känd som Wordfast 6.0). Som namnet antyder, är det ett XML-baserat format. Det stöds inte av OmegaT för närvarande, och enligt representanter från Wordfast kommer det troligtvis ersättas av XLIFF i sinom tid.
En intressant funktion i Déjà Vu DVX är dess "External View"-filformat. Detta filformat möjliggör användare av OmegaT att leverera tvåspråkiga filer till användare av Déjà Vu DVX, som sedan kan redigera dem ytterligare, eller inkorporera dem i automatiserade arbetsflöden. För ytterligare detaljer, se Déjà Vu "External View" HOWTO.
Tillbaka till Dokumentation
© Marc Prior, 2009