Howto - Translating Word 2007 files in OmegaT

Guida de OmegaT:
Traduction in OmegaT del files in formato Word 2007 (Office Open XML, .docx)

Iste Guida provide punctos sur le traduction in OmegaT re files MS Office 2007 (e subsequente).

Situation de fundo

Con le advenimento de Microsoft Office 2007, Microsoft Word, Excel e Powerpoint ha nove formatos de file. iste formatos es formalmente note como "Office Open XML", e ha respectivemente le extensiones .docx, .xlsx e .pptx. Le formatos es anque usate in MS Office 2010. Pro gratia del convenientia, illos essera referite in sequito como "Formatos de file MS Office 2007".

A partir del Version 1.7.1 in avante, OmegaT esseva habile a tractar directemente files Microsoft Office 2007, sin conversion. Con le apparentia de OmegaT Version 2.1.8, le tractamento de iste formato de file in OmegaT alsi deveni multo plus facile.

Le avantages de usar le formato .docx con OmegaT

A mesura que le clientes e le autores promove Microsoft Office/Word al versiones plus recente, le traductores pote expectar se de reciper le files progressivemente in le nove formato. Differentemente al vetule formatos .doc, .xls e .ppt, iste files pote esser tractate directemente in OmegaT, con nulle perdita de formato in consequentia del conversiones verso e a partir de del altere formatos.

Le nove formato pote alsi servir como un utile maniera de tractar le vetule formatos .doc, .xls e .ppt, post que illos pote esser convertite a lor MS Office 2007 pendantes, traducite in OmegaT, e reconvertite de nove in le vetule formato. Iste procedura es in consequentia un alternativa pro le traductores qui prefererea non tusar OpenOffice.org pro iste proposito.

Converter in formato MS Office 2007

On pote converter le files MS Office 1997/2000/2003/XP al formato MS Office 2007 per apertura in MS Office 2007 e salvamento con "Salva Como" in le formato nove. (Post que isto es ora le formato standard, illo es simplemente describite como Word, Excel o Powerpoint in MS Office 2007).

Pro usatores qui non ha MS Office 2007 o 2010 e non desidera comprar los, Microsoft provide un plugin de compatibilitate pro le versiones anterior.

Usatores de Linux: ambe MS Office 2007 e le plugin de compatibilitate Microsoft opera sur Linux Crossover.

Punctos a notar quando on usa le formatos .docx, .xlsx e .pptx con OmegaT

In OmegaT versions prior to 2.1.8, each formatting change in an MS Office 2007 file resulted in a long series of multiple tags, which often made handling this file format impractical. As of version 2.1.8, by default, these multiple tags are now aggregated (condensed) into a single tag. Le usatores que desidera render files MS Office 2007 deberea dunque promover al version 2.1.8 o subsequente de OmegaT.

(Le major facilitate de tractar le tag con le files .docx veni a costo de un legier perdita in controlo re le formato. Exempli gratia, sin le function "aggrega le tags", ubi un parola in le texto original es in nigrato e italico, le traductor poterea seliger de render lo in nigrato solmente, o sol in italico. Con le function "aggrega le tags" habilitate, isto non es possibile. Le major parte del usatores probabilemente trovara que le major facilitate de uso supera iste disavantage.)

Le formato .docx es alsi pron al introduction de codice de formato "enoiose" que resulta in un apparition de tags importun e inutile in le quadro del modifica (editor) de OmegaT. Since these are inconvenient during translation, it is worthwhile trying to remove these nuisance tags before beginning translation in OmegaT. OmegaT divide iste problema con altere applicationes CAT que tracta le formato .docx, e le solutiones es simile o identic.

Como remover importun codice de formato ab le files .docx

Nota que mesmo post que le preparationes de Word esseva cambiate de maniera que illos non insereva codices "enoiose", per exemplo pro le auto syllabation, tal codices pote ancora esser presente in le file e non removite per le cambio in le configuration. Le remotion de iste codices es describite in sequito. ante que tu seque le instructiones in sequito pro le remotion del codices enoiose, comocunque, rememorar se facer le cambios de configuration in Word in prime loco, o Word pote simplemente re-inserer codices enoiose un altere vice quando le file es aperte novemente

Le macro CodeZapper

Como jam mentionate, iste problema con MS Office 2007 non es unic in OmegaT. Le traductor David Turner ha scripte un macro MS Word (fortemente recommendate!) pro tractar con le problema.

Nivellar le formato del character

Un alternative executar le macro CodeZapper sur tu texto, is "nivellar" le formato. "Nivellar" le formato significa applicar le formato del prime character in un selection de texto (assi como un integre paragrapho) a omne characteres subsequente. Nota que isto non es le identic cosa de "cancellar" le formato, le qual causarea le retorno al formato base del character del documento.

Tu pote nivellar le formato de paragrapho essentialmente copiante paragraphos integre in MS Word e los collar back super se ipse assi como le paragrapho integre assume le formato del prime character.

Nivellar le formato del character de un paragrapho manualmente

Grado 1: discoperi le marca del paragrapho. Marca cata paragrapho cliccante sur illo repetitemente usque le paragrapho integre es marcate. Pois move le fin del marca un character al sinistre de sorta que il non include le marca del paragrapho.

Grado 2: copia iste texto marcate (Ctrl+C). Pois selige "Colla Special" (Word 2003) o clicca sur le sagitta al base del button "Insere" (Word 2007) pro obtener le optiones Colla extendite. Finalmente, insere le contento usante le option "Texto Unicode non formattate ".

Ubi le paragraphos contine formato integrate (nigrato, italico, ligamines, etc.), tu pote o:

- nivellar le formato ab iste paragraphos usante le macro ut describite supra, pois re insere le formato; o

- marcar sol le texto usque al initio del parte formattate, copiar iste texto e collar lo retro, super se ipse, pois iterar le processo sur le texto post le parte formattate.

Crear un macro pro nivellar le formato del character de un paragrapho

Tu pote automatisar satis le procedura precedente per le creation de un macro. Breve instructiones pro crear le macro (in MS Office 2007) es fornite in sequito. (Pro instructiones plus detaliate, refere te a tu manual de instruction o clicca ci, ci o ci.)

Si tu non ha ja facite assi, adde le linguetta Disveloppator al banda ut seque: clicca sur le button Office. Selige le Optiones de Word Clicca Popular in le cassa de dialogo Optiones de Word. Sur le "banda", compulsa le linguetta "Monstra disveloppator" e confirma lo con OK. Claude Word.

Lancea de nove Word, crea a file Word nove e adde un paragrapho de texto exemplo, longe al minus tres lineas, e.g.:

Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho Isto es un paragrapho

Clicca sur le button marca paragrapho pro render le marcas del paragrapho visibile.

Placia le cursor in tu paragrapho de texto (non in le prime o ultime lineas).

Crear le macro:

Sur le etiquetta Disveloppator, clicca sur Registra macro.

In le cassa Nomine del macro, scribe un nomine pro le macro, assi como "levelformat". Pro render le macro utilisabile in omne documentos, selige in le cassa "Salva macro in": Normal.dotm. Si tu ha facite cambios a tu Normal.dotm, tu pote voler in prime loco lo salvar.

Clicca sur le button Claviero. Clicca in le cassa pro un nove combination de claviero, pois experimenta con le combinationes de claviero pro trovar uno que non es assignate. Si un combination que tu tenta es jam assignate, es monstrate un message pro iste effecto in the dialogo, e tu pote deler le combination e experir un altere. Ctrl+Shift+9 sembla no sia assignate a ulle altere function in le installation basic de Word, ma tu pote usar omne altere combination que non esseva jam assignate.

Clicca sur Assigna pro assignar le via breve al macro que tu es circa registrar. Alicun cosa tu ora face essera registrate in le macro, assi seque exactemente iste procedura:

Ctrl+Cursor Up (this takes the cursor to the beginning of the paragraph)

Ctrl+Shift+Cursor a basso (isto selige le paragrapho, includente le marca de paragrapho)

Shift+Cursor a leva (isto move le fin del selection un character verso leva de maniera que illo non include plus le marca del paragrapho)

Ctrl+C (isto copia le paragrapho)

Ctrl+V (isto colla le texto del paragrapho de nevo sur le paragrapho mesme)

Post scripte iste commandos, clicca Cessa le registration.

Clicca sur Macros e selige "levelformat" (o qual que sia tu ha lo nominate), pois Modifica. Le codice de tu macro essera monstrate. Pro levelformat, isto deberea esser:

___________________
Sub levelformat()
'
' levelformat macro
'
'
Selection.MoveUp Unit:=wdParagraph, Count:=1
Selection.MoveDown Unit:=wdParagraph, Count:=1, Extend:=wdExtend
Selection.MoveLeft Unit:=wdWord, Count:=1, Extend:=wdExtend
Selection.Copy
Selection.PasteAndFormat (wdPasteDefault)
End Sub
___________________

Cambia le linea:

Selection.PasteAndFormat (wdPasteDefault)

in:

Selection.PasteSpecial DataType:=wdPasteText

Salva con Ctrl+S, e claude le fenestra de modifica del macro.

Si toto esseva facite secun le plano, tu macro deberea ora functionar. Pro probar lo, adde alicun formatos a tu documento Word, per exemplo rendente un parola nigrate. Ora simplemente mitte le cursor alicubi in le paragrapho e calca Ctrl+Shift+9 (o qual que sia altere via breve de claviero tu ha seligite), e tu deberea vider le formato disparer.

Tu pote cambiar alquando le via breve de claviero. Pro facer isto, clicca le button major de "Office", pois optiones de Word (in fundo al dextera del fenestra de dialogo).

Clicca Personalisa > Selige le commandos. Opta Macros ab le lista a cadita. Selige "levelformat" (o qual que sia tu ha lo nominate).

Al base del fenestra de dialogo juxta a Vias breve de claviero, clicca sur Personalisa.

In le cassa Categorias, rola in basso a Macros e selige lo. Pois al dextra, sub Macros, selige "levelformat" (o qual que sia tu ha lo nominate). Le via breve currente essera monstrate in le cassa apposite. Tu pote deler lo: selige lo e pulsa Dele. Tu pote dunque scriber un via breve nove e assignar lo con Assigna como tu ha facite anteriormente. Claude/confirma le fenestras de dialogo.

Tu pote usar un procedura simile pro crear un button pro tu macro:

De nove, clicca le button principal de "Office", dunque Optiones de Word.

Clicca Personalisa > Selige le commandos. Opta Macros ab le lista a cadita. Selige tu macro.

Clicca sur Adde. Tu deberea vider apparer in le columna dextere le commando macro. Clicca sur Modifica.

Elige un symbolo, pois OK > OK. Le symbolo pro tu macro deberea apparer in le barra del instrumentos.

Iste macro es utile pro nivellar le formato de un integre paragrapho que non contine formato visibile. Ubi un paragrapho contine formato desiderate, tu debe restaurar le formato delite post le nivellamento del paragrapho. In le paragraphos continente multe formatos, le restauration del formatos delite pote resultar in un grande quantitate de labor. For such paragraphs, consider the following alternatives:

Copyright Marc Prior 2009-2011