Howto - Translating PDF files with Iceni Infix and OmegaT

Οδηγός: Μετάφραση αρχείων PDF με το Iceni Infix και το OmegaT

Αυτός ο οδηγός περιγράφει πώς να μεταφράσετε αρχεία PDF με το OmegaT και το Iceni Infix.

Προκαταρκτικά

Υπάρχουν δύο ειδών αρχεία PDF: γνήσια και "σαρωμένα".

Ένα "σαρωμένο" αρχείο PDF αποτελεί απλώς έναν περιέκτη για τα αντίγραφα εντύπων που έχουν δημιουργηθεί με χρήση σαρωτή (σκάνερ). Αρκετές φορές δίνονται τέτοια έγγραφα προς μετάφραση. Ένα σαρωμένο αρχείο PDF δεν μπορεί να μεταφραστεί παρά με αναδημιουργία τού κειμένου (είτε πληκτρολογώντας το από την αρχή είτε χρησιμοποιώντας οπτική αναγνώριση χαρακτήρων [Optical Character Recognition —OCR]) και αναδημιουργία τής εμφάνισης των σελίδων. Αυτός ο οδηγός δεν αφορά σε σαρωμένα αρχεία PDF.

Τα γνήσια αρχεία PDF (που συχνά καλούνται "εγγενή" ή "αποσταγμένα" αρχεία PDF —αν και η "απόσταξη" σημαίνει κάτι ειδικότερο) είναι αρχεία PDF που έχουν εξαχθεί από άλλη εφαρμογή, συνήθως επιτραπέζιας τυπογραφίας (DTP). Για να μεταφραστεί ένα γνήσιο αρχείο PDF, η σωστή διαδικασία είναι συνήθως να γίνει η μετάφραση στην τυπογραφική εφαρμογή και μετά να εξαχθεί το μετάφρασμα ως PDF με τον ίδιο τρόπο που εξάχθηκε το πρωτότυπο. Γενικά, δεν είναι καλή ιδέα να μεταφραστεί το αρχείο με κατευθείαν τροποποίηση του PDF. Αν η μετάφραση γίνεται μόνο για πληροφόρηση, οι μεταφραστές συχνά μετατρέπουν το PDF σε άλλη μορφή (π.χ. RTF) πριν την μετάφραση· αυτό, όμως, δεν είναι αρκετό αν η μετάφραση προορίζεται για επαγγελματική τυπογραφική επεξεργασία.

Iceni Infix

Το Iceni Infix προσφέρει μία ακόμη εναλλακτική. Πρόκειται για επεξεργαστή PDF, δηλαδή εφαρμογή με την οποία μπορείτε να επεξεργαστείτε κατευθείαν ένα PDF. Το αποτέλεσμα δεν είναι εξίσου καλό με την αναδημιουργία τής εμφάνισης των σελίδων από επαγγελματία τυπογράφο, μα είναι πολύ καλύτερο από την μετατροπή σε μια εντελώς διαφορετική μορφή, όπως η RTF.

Η έκδοση “Professional” τού Infix έχει άλλη μία λειτουργία που ενδιαφέρει τους μεταφραστές: εξαγωγή κειμένου ως XML. Αυτό σημαίνει ότι το κείμενο μπορεί να εξαχθεί σε αρχείο XML, το οποίο μπορεί να μεταφραστεί με εργαλείο CAT. Κατόπιν, το μεταφρασμένο κείμενο μπορεί να επανεισαχθεί στο Infix Professional. Το OmegaT είναι ένα από τα εργαλεία που μπορούν να χρησιμοποιηθούν για αυτόν τον σκοπό. Η διαδικασία περιγράφεται σε αυτόν τον οδηγό.

Πλατφόρμες

Το Infix είναι εφαρμογή για Windows, αλλά η Iceni έχει προσπαθήσει να καλύψει τις ανάγκες και των χρηστών Linux και Macintosh. Το Infix Professional μπορεί να χρησιμοποιηθεί και σε αυτές τις πλατφόρμες, χάρη στα Crossover Linux και Crossover Macintosh, αντιστοίχως. Τα Crossover Linux και Crossover Macintosh κοστίζουν γύρω στα 40 EUR. Υπάρχουν και δωρεάν εκδόσεις επίδειξης. Τα Crossover Linux και Crossover Macintosh διατίθενται από τον ιστοχώρο των Codeweavers. Επίσης, διατίθενται πληροφορίες ειδικά για την εκτέλεση του Iceni Infix σε Crossover Linux ή Crossover Macintosh.

Διαδικασία μετάφρασης ενός αρχείου PDF

Κατεβάστε το Iceni Infix από τον ιστοχώρο τής Iceni και εγκαταστήστε το. Διατίθεται και έκδοση επίδειξης, η οποία —τώρα που γράφονται αυτές οι γραμμές— κοστίζει γύρω στα 150 USD. Αν χρησιμοποιείτε Linux ή Mac, κατεβάστε και εγκαταστήστε την κατάλληλη έκδοση του Crossover πριν εγκαταστήσετε το Iceni Infix Professional. (Λέγεται ότι το Infix δουλεύει και σε περιβάλλον WINE.)

Εκκινήστε το Iceni Infix και ανοίξτε το αρχείο PDF που θέλετε να μεταφράσετε. Το στιγμιότυπο οθόνης εικονίζει το έγγραφο Νέος ορισμός των ΜΜΕ τής Ευρωπαϊκής Επιτροπής στην Ουγγρική.

infix1.png

Εξαγάγετε το κείμενο του PDF σε μορφή XML με την εντολή Document > Translate > Export XML. Αποθηκεύστε το PDF. Προσοχή: όταν εξάγει το αρχείο XML από το PDF, το Infix σημειώνει στο αρχείο πού πάει κάθε τμήμα κειμένου (κάθε "ιστορία"), οπότε πρέπει να χρησιμοποιήσετε αυτό το αρχείο κατά την επανεισαγωγή τού μεταφράσματος.

Δημιουργήστε ένα έργο τού OmegaT ως συνήθως.

Αν χρησιμοποιείτε το OmegaT 2.3 ή νεότερο, απλώς βάλτε το αρχείο XML που εξάχθηκε από το Infix στον φάκελο /source τού έργου τού OmegaT.

Αν χρησιμοποιείτε προγενέστερη έκδοση τού OmegaT, συστήνεται να την αναβαθμίσετε. Εναλλακτικά, μπορείτε να μεταφράσετε το αρχείο XML σε παλαιότερη έκδοση του OmegaT με χρήση τού φίλτρου HTML, με ικανοποιητικά αποτελέσματα. Για να χρησιμοποιήσετε αυτό το φίλτρο, απλώς αλλάξτε την επέκταση του αρχείου XML που εξάχθηκε από το Infix από .xml σε .html.

Φορτώστε ξανά το έργο τού OmegaT. Μπορείτε, τώρα, να μεταφράστε το κείμενο (βλ. εικόνα).

infix2.png

Σημείωση: Το φίλτρο τού OmegaT για το Infix αντιστοιχίζει τις ετικέτες <BR/> τού Infix σε ετικέτες <brx/>. Έτσι, μπορεί να χρησιμοποιηθεί ο κανόνας τεμαχισμού των αρχείων HTML και να επιλέξετε αν θέλετε να γίνει χωρισμός τεμαχίων όπου απαντώνται αυτές οι ετικέτες.

Αφού ολοκληρώσετε την μετάφρασή σας, παραγάγετε το μετάφρασμα ως συνήθως (Ctrl+S, Ctrl+D). Εντοπίστε το μεταφρασμένο αρχείο XML στον φάκελο /target τού έργου τού OmegaT. Αν αλλάξατε την επέκταση του αρχείου σε .html, αλλάξτε την πάλι σε .xml.

Ανοίξτε το Iceni Infix και εισαγάγετε το μεταφρασμένο αρχείο XML στο PDF από το οποίο το είχατε εξαγάγει. Αποθηκεύστε τις αλλαγές.

Αν όλα πήγαν καλά, το έγγραφό σας θα μοιάζει με το αρχικό, αλλά θα είναι στην γλώσσα αφίξεως. (Στην εικόνα έχουν μεταφραστεί μόνο τα πρώτα τρία τεμάχια.)

Σημειώστε ότι, αν χρησιμοποιήσετε την έκδοση επίδειξης του Iceni Infix, θα υπάρχει υδατογράφημα της Iceni στο αρχείο PDF. Αν η μετάφραση προορίζεται μόνο για πληροφόρηση, αυτό ίσως να μην αποτελεί πρόβλημα. Το Iceni Infix σάς επιτρέπει και να αποθηκεύετε αρχεία PDF σε μορφή RTF, αλλά σε αυτήν την περίπτωση η έκδοση επίδειξης δεν προσφέρεται, γιατί εισάγει τυχαίους χαρακτήρες στο κείμενο.

infix3.png

Όπως συχνά συμβαίνει στις τεχνικές —και μεταφραστικές— υποθέσεις, υπάρχουν ελαττώματα.

Ίσως οι ενσωματωμένες γραμματοσειρές ενός αρχείου PDF να μην περιέχουν όσους χαρακτήρες χρειάζεστε. Αυτό μπορείτε να το ξεπεράσετε αν αποκτήσετε και εγκαταστήσετε τις απαραίτητες γραμματοσειρές ή αν ορίσετε άλλη γραμματοσειρά για το μετάφρασμα —αν έχετε αυτήν την δυνατότητα.

Είναι πολύ πιθανό η μετάφρασή σας σε ορισμένα σημεία να είναι μακροσκελέστερη από το πρωτότυπο. Αυτά τα σημεία πρέπει να διορθωθούν με το Infix —με μεγέθυνση των αντίστοιχων πλαισίων κειμένου. Το Infix διαθέτει λειτουργίες για την επίλυση αυτού του προβλήματος —και άλλων, που δεν εμπίπτει στο αντικείμενο αυτού του οδηγού.

Ίσως παρουσιαστούν τεμάχια με μη αυτόματες αλλαγές γραμμής σε ακατάλληλα σημεία. Αυτό το φαινόμενο θα σας είναι γνώριμο, αν έχετε μεταφράσει αρχεία τού PowerPoint στο OmegaT ή σε άλλα εργαλεία CAT. Για να επιλυθεί το πρόβλημα, ανοίξτε το αρχικό PDF ξανά στο Infix. Επιλέξτε Tools > Text tool. Αν κάνετε κλικ στο προβληματικό κείμενο, θα εμφανιστεί πλαίσιο κείμενο και σημάδια μορφοποίησης. Το παρακάτω στιγμιότυπο οθόνης εικονίζει ένα παράδειγμα: infix4.png Αφαιρέστε το σημάδι αλλαγής γραμμής. Αποθηκεύστε τις αλλαγές, εξαγάγετε ξανά το αρχείο XML και φορτώστε ξανά το σχετικό έργο τού OmegaT. Αν το αρχείο σας περιέχει πολλά ακατάλληλα σημάδια αλλαγής γραμμής, είναι προτιμότερο να τα αφαιρέσετε όλα μεμιάς, μεταπηδώντας μεταξύ OmegaT και Infix για να τα εντοπίζετε.

Ορισμένα σημάδια αλλαγής γραμμής ίσως χρειαστεί να μείνουν ως έχουν, για την σωστή διάταξη του κειμένου. Παραταύτα, εξυπηρετεί πολύ να αφαιρέσετε και αυτά τα σημάδια πριν την εξαγωγή σε XML, για να εμφανιστούν στο εργαλείο CAT τεμάχια πλήρη σημασίας, και μετά να τα εισαγάγετε ξανά όπου πρέπει με το Infix.

Copyright Marc Prior 2011