タイのDVDの字幕を和訳してみた

少し前に映画紹介のエントリを書きましたが、そのDVDが3月下旬に発売されました。まだ台湾で公開されてない(公開は4月だったらしい)というのにDVD出しちゃていいのか、という気もしないでもありませんが、タイ本国では1月中旬までにほぼすべての映画館で公開終了していましたので、まあ順当なところなのでしょう。

なんだかんだでこの映画、私タイに出かけてまで見ているのですが、まあ非常にわかりやすい。スチルと予告編を見るだけでだいたいどういう結末だかわかる。深みはありませんが、いい映画です。そんなわけで、海外通販使って取り寄せました。本国より数百円高くなりますが、まあそれでも2000円しないのでありがたい。

タイ仕様のDVDですから、リージョンは3,システムはPAL,映画ですからDVD2層のはずでしたが、届いたDVDを調べてみると、合っていたのは片面2層、PALまで。パッケージにはリージョン3と書いてあったものの実際にはリージョンフリー、ついでに何のコピーガードもかかっていませんでした。法律ですら守ってくれないなら、プロテクトをかける意味は少ないのかもしれません。まあ、ただのかけ忘れかもしれないのですが。

タイ製映画、劇場公開にはほぼ確実に英語字幕がつきます。その流れで以前までは発売されているDVDにもその品質は別にして英語字幕が入っていたのですが、今は日本語字幕はもちろん、英語字幕も入っていません。代わりに、バリアフリーというかなんというか、全セリフ+音楽に対してのタイ語字幕が入っています。

細かいところが聞き取れない私でも、文字をゆっくり読めばなんとか意味がつかめなくもない。というわけで、セリフを全訳してみることにしました。

字幕を抜き出す

コピーガードがかかっていても、字幕情報を抜き出すことはできるようですが、このDVDにはそもそもコピーガードがかかっていないので、どちらにせよそこを気にする必要はありません。subripというソフトが一括で字幕を抜いてくれます。DVDの字幕はDVDプレイヤーがフォントを持つ必要がないように、画像ファイルで構成されていますのでまずは画像形式で。

字幕をテキストに変換する

続いてテキスト化にもチャレンジしてみます。subripにはOCR機能が付いていて、かつ英語に限ればかなりの精度で認識できるようなのですが、相手はタイ文字。最初の時点ではほとんど1文字も認識しませんが、学習機能があるので一度入力した文字は次回以降は認識してくれます。


タイの文字は日本語よりは少ないものの、直接文字に付く記号が多いため英語よりは認識が難しいようで、นีนนี่น่は別の文字として認識させる必要があったりで、思ったよりも文字種類が多くなりがち。加えて例えばทาとทำは文字コードとして都合のいい認識のさせ方があったり、正体と斜体は別の文字として認識させるほうが都合が良かったり、くっついて認識された文字を新規の文字として登録する必要があったりで、せいぜい100種類くらいしかないはずのタイ文字バリエーションがOCR的には1000種類以上になりました。

それでも行認識には限界があるようで、全く認識できない字幕も1〜2%くらい。逆にいえば、2000近い字幕の入力が数十まで減ったのですから、認識させる手間はある程度は報われた感があります。さらに、その数十行を入力するだけで、タイのキーボードがほぼアンチョコ無しで打てるようになりました(マイナーな文字は除く)。キーボードの練習には最適です。

変換した字幕をチェックする

世の中、色々なテキスト字幕があるようですが、どことなくSRT形式の字幕がスタンダードっぽいので、その形式で。まあテキスト字幕ですから、だいたいどの形式でもテキストエディタで確認ができます。最初に抜き出した画像字幕と比較して、誤認識を再入力します。*1
多いのはตดคの誤認識。たぶんみなさんも普段見ているフォントサイズではどう違うのかわからないと思います。私も、いつもテキストエディタで使っているフォントサイズは10〜11ポイントですが、これを16〜18ポイントにしないと、例えばรีรืรึの区別がわかりません。もちろんOCRもよく間違えるところ。まあ、この後チェック出来る部分も多いので、目視で明らかに間違っているところの文字を修正することにします。

subripを使ったことがないところからここまで、約5日かかりました。1日数時間の作業なので、まあ20〜30時間といったところでしょうか。

訳する

正しいテキストにしてしまえば、訳する方法はいろいろあります。google翻訳にかけるもよし、一括検索ができる辞書サイトに投げるもよし。英訳でよければ、おそらくoDeskに投げれば数千円でクオリティはともかく英訳してくれそうです(後述)
実際のところ、とある有料翻訳サイトの自動見積りだとエコノミープランで1語5円,スタンダードプランで15円位でしょうか。問題は今持っているテキストが本当に正しいテキストかわからないことと、ワード数がちんぷんかんぷんなこと。少なくとも誤字だけはなくさないと、翻訳を頼むことも出来ませんし、どんな誤字も適当に解釈して適当に翻訳してしまうgoogle翻訳が全く信用できなくなってしまいます。

ここで出現するのが翻訳メモリ。プロが使っている翻訳ツールでもあります。と言っても、自動翻訳してくれるわけではなく、過去に翻訳した文章のなかから似ている文章を抜き出してくれるだけ。ただまあ、原文をいじることなく翻訳作業が出来て、一括で翻訳後のテキストを生成してくれるなど、翻訳作業に適した作業環境が構築できるのはありがたいことです。

今回使ったのはOmegaTJavaで動く翻訳メモリツールで、日本語のヘルプもあるスグレモノです。きちんと登録すれば機械翻訳も併用できるのですが、こういうところでのgoogle翻訳エンジンは使用が有料になることやらなんやらの種々の事情で、特に機械翻訳は使わず。あと、ちょっとomegaT、ファイルの取り扱いに癖があるというか、うまくじぶんでは動かせない部分がありました。拡張子がutf8じゃないとシフトJISで読み取りにいくとか、辞書に入力した単語が出てこないとか。

で、翻訳ですが、オンラインのタイ語辞典のうち、まず単語区切りを自動でやってくれて一括で意味のわかる泰英辞書、それから単語数の多い泰日辞書などを使っていきます。この辺で検索しても出てこない単語の場合、8割以上の確率で原因は誤字。検索するだけでスペルチェックできるのですから、ありがたいことです。
タイ語の場合、残りのうちほとんどが「外来語をタイ文字表記」、残りちょっとが「ちょっと辞書には載せられないスラング」でした。まず後者、スラングかどうかを調べるには、その単語をgoogle検索してみます。twitterハッシュタグ掲示板の内容がヒットするならスラング。いずれにせよ、これはヒットしたところで意味はほとんどわかりません。逆に、外来語、そしてごく少数ですが辞書に載ってない新語などは、さらにgoogle画像検索切り替えてみると、だいたいの意味がわかります。*2
google画像検索の注意点がひとつあるとすれば、タイの人たちはグロ画像がけっこう好きだということ。「車に飛び出した犬みたいなもの」というタイ語の文章を画像検索したら、ミンチになった犬画像が山ほど出てきてげんなりしました。

翻訳も、やっぱり1日数時間の作業で10日くらいかかったでしょうか。40〜50時間ってところです。

追加する

タイ語字幕を翻訳しただけでは翻訳作業は終了しません。ケータイの文字とか看板とか、クローズドキャプションでない文字がいっぱいあります。これを入力していきます。まあ、ここまで来れれば活字の判別と入力はほぼ大丈夫。問題は手書きの文字です。そばにタイ人の友人がいれば直接見せて読ませるのですが、今は近くにいません。そこで使ったのがodesk。画面キャプチャーを用意して、読んでもらってついでに英語に翻訳してもらう作業をお願いしました。問題は作業料金の設定で、どんな小さな仕事でも最低$5の報酬は用意しないといけません。読んでもらいたい文字2文、キーボードが打てるタイ人ならおそらく3分かからない作業に対して$5はあまりに高すぎますが、仕方がないかな、と思っていたら、1人、6セントで受けてくれる人が現れました。正解のわからない作業には最低2人の作業が必要になるところ、なんとか納得のできる予算になりました。正直、売るわけでもない(許可なしには無償配布もできない)作業に対して5ドル6セントがどういう値段か考えるといろいろもにょる部分はありますが、oDeskの使い方のチュートリアルも兼ねていたと思うことにします。
ここの作業は、外注した作業はまあ1日くらいで出来上がり。その他はだいたい1日作業、数時間くらいってところです。

チェックする

出来上がった字幕は、フリーのDVD再生ソフトで重畳可能です。まあこれも動作に癖があるのが常で、例えばVLC media playerは巻き戻しても字幕までは戻りません。そのたびに字幕を読み込み(追加)しなおす必要があります。
このへん、フリーウェアのsubtitle workshopを使うといい感じにできる、という話もあるのですが、mpeg2の再生に難があるようで、変換作業考えると適当なメディアプレイヤーでやっちゃうほうが楽っちゃ楽です。
また、VLC media playerには別の問題がありまして、何故かタイ語と日本語の混在する字幕を扱えません。この辺どうにかしたいなと思わないでもないのですが、まあ放置です。

このへんは手戻りがいろいろあったので純粋に数えにくいのですが、まあやはり1〜2日、ってところでしょうか。数時間です。

ここまでくれば、家のPCで再生する分には困りません。字幕もPC内臓のフォントが使えます。ただ字幕表示するならこちらのほうが融通も効きます。
でも、ここまで来たらDVDに字幕を焼きこんでみたいと思うものです。
結論から言うと、この作業、簡単なようで相当面倒くさいものでした。

字幕を削る

元の字幕が耳の聞こえない人向けのやつですから、翻訳した字幕には「びっくりする効果音」とか「ムードのある音楽」とか場面でのBGM,SEの説明まで入っています。これはたぶん要らない。翻訳メモリで、同じ原文には同じ訳文が割り当てられていますから、9割位は一括置換で検索できて、まあそれほど手間なく消せます。残りはプレビューで気がついた時に少しずつ。

字幕の調整をする

テキストから画像に変換する作業はなるたけ一括で行いたいものです。おまけにこちらは字幕の位置情報とかもよくわからないで作っているわけで。こういう時はやはりソフトの出番です。

調べたところ、srt2supというソフトと、subtitle creatorというソフトがいけそうな雰囲気がありました。日本語の情報ではsrt2supのほうが多いのですが、全般的にはsubtitle creatorというソフトのほうが出来がよさそう。だいたいメニューをすべて見たところで動作については把握出来ました。

ただまあ、この界隈のブームは10年近く前だったようで、周辺情報がそのあたりで止まっています。例えば、字幕についてはutf8の通り方が微妙です。まあ、SJIS(CP932)には対応しているようなので、テキストはこのへんでSJISに変換してやります。ここで翻訳メモリに放り込んだ原文との対応が切れますが、その前に字幕削ってますのでどうせしょうがない面はあります。

続いて、長すぎる字幕に改行をいれてやるか、短くしてやる必要がある。subtitle creator、特定の文字が含まれる文章が少し長いとエラーを出してきます。というか、エラーが出るなら問題があるとわかるのでまだいいほうで、頭の文字を切って何のエラーも出さない場合がある。DVDまで焼いてから文字抜けに気がついたことが数度あって、そのたびにDVD作りなおしを余儀なくされました。改行を含む修正はアプリ上では面倒なのでテキストエディタを使って直して読み込みし直すのですが、そのたびに装飾設定が元に戻るのにも悩まされた。早い話が最初に装飾設定はきちんと作って、デフォルトとして登録しておけ、ってことではあります。


そうそう、BGM,SEの説明はカッコ書きで書かれる場合が多いのですが、subtitle creatorには自動でカッコ書きの字幕を削る設定がありました。じゃあ前段の作業いらないじゃん、って話になりますが、実はカッコ書きの字幕でも残したいものとそうでないものがある。この設定を切ってやるか、カッコを全角になおしてやれば対応しない。baselineの関係で全角カッコのほうが綺麗に並んだので、すべていわゆる全角カッコに書きなおしました。

まだ字幕の調整は終わりません。これで作られた字幕は、プレイヤーで再生すると微妙に横長になるんです。DVDの映像は正方ピクセルじゃないから。現在の作業ではPALですので、縦方向の画素数は576。16:9の場合、これが405になりますので、字幕を予め1.42倍縦長にしてやると、プレイヤーで再生した時に正方形っぽい文字になります。まあ、中身が分かる程度でよければ、そこまでする必要もあまりありません。実際、subtitle creatorはそこまで気を使って使っている人があまりいないのか、縦方向1.42倍にすると行が収まらなくなりました。もしかしたら、横サイズを0.70倍するほうがいいのかもしれないな。ついでに、日本語の読みやすさのため、行間も少し開けてやります。

そうそう、画像にするにあたっては、作る画像が16色パレットのインデックスカラーになるため、適当なパレットを用意する必要があります。このパレットは、元のDVDからもらってくるのがいい。さいわい、subtitle creatorにはifoファイルからパレットを取り込む機能がありますので、それで調整。現在日本語で出回っているsubtitle creatorの説明にはこのへんの機能が書かれていないようです。当時はこの機能なかったのかな?

DVD動画に、字幕を重畳する


いろいろ試しましたが、もとが2層で作るDVDが1層ですし、特典映像には字幕つけてません(ついてない)ですし、そもそも特典映像は全部youtubeで公式が配信しているし、どうしても見たかったら元のDVDで見ればいい。そうなると、結局メニューも何も削って、本編映像だけを収録するのが圧縮率の面からもいいな、ということになりまして、リッピングした映像から2ch通常音声、それに字幕1つを残して残りを消した本編だけのDVDを一旦作りました。これを元にして、字幕の差し替えにチャレンジしてみようと思います。

まあ、有料の動画編集ソフトを使えば、何も難しいことはないような様子ではあるのです。今後のことを考えれば、別に買ってしまってもいいのかもしれません。そこを、今回は完全に趣味ですから、なんとか自力でやってみようと。

1音声のDVDにはifoファイルとvobファイルがあります*3。管理情報がifoファイルで、vobファイルには映像音声字幕が混ざって入っている。ただ字幕を追加するというのは出来なくて、一度混ざっているものを分離してから再構成してやらないといけない。で、ifoeditというソフトでそれができると。ここでは詳細は省略しますが、分離して、再構成して、日本語字幕である設定をして、タイミング調整。もしPAL->NTSC変換する必要があるなら、ここで変換してやればいいはずなのですが、フレーム数変更とか、チャプター情報のフレーム数変更とか、あまりにも面倒くさそうなのでやめました。実際、検索してみたら「まずそういうことはしなくていい方法を考えたほうがいいよ」とあったので。

ifoファイルには、DVDの再生時にどういう挙動をするかも書き込めるので、ついでに再生時に日本語字幕が自動ONになるようにも設定。これらほとんど単純作業ではあるのですが、あまりに単純作業ゆえ手順を一つでも間違えるとまともに再生が出来ません。作ってから字幕の間違いに気がついたり、構成を変えたくなった場合は、再構成からやり直し。地味に手間がかかって、この辺休日まるまる1日プラス数日かかりました。合わせて20時間弱ってところかも。

おまけで、なんちゃってNTSC化。

作ったDVDは、PCでは普通に見られます。もともとリージョンフリー化しなくても内部的にはリージョンフリーでしたし。ただ、PALのDVDであることには変わりがないので、PAL対応をうたっていないDVDプレイヤーでは非対応とエラーが出る。これがなんとかなるらしいとの話がありました。さっきの話とも微妙に関連します。

2003年以降のDVDプレイヤーは、デコーダーのほぼすべてがワールドワイド対応になっていて、表向きの挙動が地域によって違うだけ、というのです。画像がPALかNTSCかを宣言しているのは、管理情報であるifoファイルのほう。こちらに「この映像はPALです」を「この映像はNTSCだよ」とすべて変更してやるだけで、NTSCチェックをすり抜けると。

IFOファイルを弄るのは大した作業ではないので、実際にifoEditでいじってみました。手元の国産DVDプレイヤーにかけてみると、確かにPAL設定では通らなかったDVDが、普通に再生できてしまいました。画角情報とかに矛盾があるので、逆にPCで再生すると画角が変わったりしてしまいますが、ここは手動で調整すればなんとかなる。ここは好みが別れるところでしょうし、本当にすべてのNTSCなDVDプレイヤーでうまく動くのかはさっぱりわかりませんが、売り物じゃありませんからそこは気にしません。

おわりに

まあ実際ここまでしているうちに、映画の内容はほとんど覚えてしまいました。ああここのシーンはあのシーンの伏線なんだなとか、この行動はあの行動との対比なんだなとか、いろいろ考えて作っているんだなということもわかりましたし、わりとたくさんプロダクトプレイスメントしているのもわかりました。

なお、翻訳権の問題があるので今回のこの字幕は個人的な利用を除いては出せません*4が、そもそもこの映画いちど日本の映画祭で上映されているので、権利者承諾されている字幕が存在するはずです。制作している会社に要望とか商談すれば、翻訳の作業なしで、商売で日本語字幕付きDVDが出せるかもしれないですよ、とおまけで付け加えておきます。そのくらいの価値はありそうですよ、と誰とはなく。まあそのうちGyao!とかで配信されるのを待つのが一番可能性高いのかな。

追記

あちこちのDVDで再生を試してみると、やはりDVDを無理矢理NTSCと宣言する方法、100%とはいかないらしい。多いエラーは字幕がはみ出るというもの。PALの動画は秒間25フレームの代わりに垂直画素数が多いのだが、字幕配置の調整をしないらしい。全てでそうなるのではなく、SONY製プレイヤーやPC用DVD再生ソフトなど、きちんと字幕の移動に対応しているものもあるというのが問題を複雑にしている。位置を変えた2種類の字幕を入れるというのが当面の解決策なのだろうけど、自分、字幕の差し替えには成功してはいるものの、字幕の追加にはまだ成功していないのでそこが難しい。

もう一個追記

この後であと数枚のDVD日本語化にチャレンジしたのだけど、タイ語の字幕抜き+OCRには、DVD SubExtractorというソフトが性能良かったです。これ使うと効率が3倍くらい違う。

*1:で、この時点で使っているテキストエディタにひどいバグが追加されていることがわかり、修正してもらいました

*2:もちろん画像で示せるものに限ります

*3:bupファイルはifoファイル破損時のためのバックアップ

*4:ここで出ているのはコラみたいなものだとご理解ください