Tue, February 2, 2010
Trados howto ,XML(Docbook等)の和文・英文から翻訳メモリを作成する方法
WinAlignを使って、直接XMLを整合させることもできるが、できあがったメモリを見ると余計な情報が含まれている気がする。
そこで、以下の手順で、ttx ファイルを整合させるとうまくいった。
ワークフロー
和文と英文を整合させる。
- 前処理として、XMLレベルで完全に要素が整合するように ja.xml, en.xml を作成しておく(クリーンアップしておく)
- ja.xml,en.xml は xml-normalizer 等を使って適切に改行・インデントおよびコメント削除しておくこと
- XMLのDTDを作成し、そこからタグ設定ファイルを作成する
- このとき外部タグ(external)・内部タグ(internal)の指定により品質が決まるので、注意すること
- TagEditorを起動し、(作成したタグ設定ファイルを使って) ja.xml → ja.xml.ttx , en.xml → en.xml.ttx ファイルをそれぞれ作成する
- ja.xml.ttx と en.xml.ttx を WinAlignを使って整合処理する
- このときWinAlignの設定 *Source Segmentation... / Target Segmentation... * がポイントになる(後述)
- WinAlign で Translator's Workbench Import Format で書き出し、その後ワークベンチを使って翻訳メモリにします
- このとき WinAlignで行った Segmentation 設定と同じ設定を翻訳メモリに対しても行う必要があります。
- スクリーンショットはこちら
コメントを削除しておかないと...すなわちXML中にコメントアウトが残ったままで処理すると、 翻訳メモリ内にコメントアウト情報ごと保存されてしまう場合があるようです。 そういったメモリをそのまま適用してしまうと、できあがったXMLが妥当性検証をパスしない壊れたXMLに なってしまうことがあるので要注意です。
Source,Target Segmentation の指定方法
原文、訳文ともに、Segmentation Rules でプリセットされているものを
End of Paragraph を除いてすべて削除すること。
スクリーンショットはこちら
つまり、パラグラフの終端をセグメントの区切りとして使うので、 WinAlignに与える TTX ファイルは 適切に改行されている(整合する位置で)必要がある点に注意。
といっても、xml-normalizer をかけていれば問題ないはずだが。
WinAlignでの Source,Target Segmentation の設定画面
設定前

設定後

Workbenchでの Setup ダイアログの Segmentation Rules タブ設定画面
設定前

設定後
