ATOKだってくだけすぎた表現には弱い。

馬食い家内が象サイズになった? 漢検協会が変換ミスコンテスト
元ネタはhttp://www.kanken.or.jp/henkan/3happyou.htmlなのだが、
ブクマコメントを見ると「ATOKなら……」みたいな話をする人がいるので、ATOKだとどうなるのか試してみた。

  1. うまくいかない画像サイズになった
  2. ○○*1さんの質問は要注意かと思います
  3. 日本の卑怯100戦
  4. 小学生問題。水の三体変化をかけ
  5. 何かとうさんくさいときがある
  6. 脅威内モンね。ごめんー!
  7. 置いて枯れた感じだ
  8. あのひと毛重役になったんだって
  9. 裸のママですけど、放送しないんですか
  10. 肋骨食ってください
  11. 俺は歯科になった
  12. 了解金曜にお願い
  13. 新宿は謎の郵便局
  14. 渡しましょう
  15. 今日中に強盗見学出来ます
  16. 舞台活動
  17. 変わるときなんだよ
  18. 食事し田植え出来てください
  19. ふんわりソフト完食が楽しめます
  20. 恋人たちの季節
  21. 講習会の出欠を確認してください
  22. あなたのこと理解したい

流石に1位のやつはうまくいっているし、確かに成績は上だけど、それでも1/2〜1/3くらいは誤変換しているような感じがある。
また、誤変換も、「裸のママですけど、放送しないんですか」は「裸のままですけど、包装紙ないんですか」よりもシチュエーションとしてそれっぽい(どうそれっぽいのかは別として)し、「俺麻疹になった」「俺は歯科になった」も助詞を省略するなよ、みたいな気分にならなくもない。

ま、くだけた表現にはATOKでもまだ弱いっていうか、口語表現優先で変換しても、変換が直ったのは「今日いないもんね。ごめんー!」の一つだけ。後は大して変わらない感じだったわけで。

ただ、実はこれはATOK17での実験。ATOK2006とかATOK2008ではどうなっているのか、というと。*2

で、ATOK2006の場合。

とりあえず結果的に誤変換だったものを、話し言葉優先で一行入れて一発変換すると、

  1. 日本の卑怯100戦
  2. 小学生問題。水野さん大変かを欠け
  3. 今日いないもんね。ごめんー!
  4. おいて枯れた感じだ
  5. あの一毛重役になったんだって
  6. ハダカのままですけど、放送しないんですか
  7. 肋骨食ってください
  8. 俺はシカになった
  9. 新宿は謎の郵便局
  10. 今日中に強盗見学できます
  11. 舞台活動
  12. 食事し田植えできてください
  13. ふんわりソフト完食が楽しめます

「ハダカのままですけど、放送しないんですか」は更に自然な感じに。その代わりに俺はシカになってしまった。「歯科になる」より「シカになる」ほうが確かに文章としては自然なような気もするが……。そして新宿の謎は深まるばかり。

最後に、ATOK2008の場合。

「今日いないもんね」はもういいことにしよう。ということで、残りのものに関して。

  1. 日本の秘境100戦
  2. 小学生問題。水野三態変化を欠け
  3. おいて枯れた感じだ
  4. あの一毛重役になったんだって
  5. ハダカのままですけど、放送しないんですか
  6. 六個作ってください
  7. 俺はシカになった
  8. 新宿は謎の郵便局
  9. 今日中に強盗見学できます
  10. 舞台活動
  11. 食事した上出来てください
  12. ふんわりソフト完食が楽しめます

とうとう「六個作って」が変換できるようになったうえに、一部の単語(「秘境」「三態変化」「食事した上」あたりはきちんと変換できている。「ひきょう」は単体で変換すると「卑怯」が一番最初に出てくる状態での変換だったので、文節の係り受けをやっている、というのは確かなんだろうな。

さらに、たくさんの人が気が付いているはずの「これ元々日本語としてダメなんじゃないの問題」に最低限対処してみる。

まあ、今回もダメな文章は正直日本語の書き方としてダメな気がしないでもない。読点を入れたり、漢数字を読みで入れたり、音便変化を戻したり、助詞を入れたりして変換すると

  1. 日本の秘境百選
  2. 小学生問題。水野三態変化を欠け。
  3. おいてイカれた感じだ。
  4. あの人、もう重役になったんだって
  5. ハダカのままですけど、包装紙はないんですか?
  6. 俺、はしかになった。
  7. 新宿は謎の郵便局
  8. 今日、十二号棟見学できます
  9. 舞台活動
  10. 食事した上で、来て下さい
  11. ふんわり、ソフト完食が楽しめます

みたいな感じで、8割くらいは正しい変換になる感じ。ま、これはATOK2008でなくても、ある程度のIMEならそうなるハズなんだけど。

さらに、変換操作が学習に反映するかを調べる。

同レベルの同音異義語や、かな、カナ、漢字の表記揺れがある以上、一発変換が行かない可能性もある。この辺はどうかな、ということで一度正しく変換して見てからもう一度入れ直してみると、

  1. 日本の秘境100戦
  2. 水の三態変化を書け
  3. 置いてかれた感じだ
  4. あの人もう重役になったんだって
  5. 裸のママですけど、放送しないんですか
  6. 新宿花園郵便局
  7. 今日中に強盗見学出来ます
  8. 部隊活動
  9. 食事した上で来てください
  10. ふんわりソフト感触が楽しめます

(これはATOK17,7勝3敗?)

  1. 日本の秘境100戦
  2. 水の三態変化を書け
  3. 置いてかれた感じだ
  4. あの人もう重役になったんだって
  5. 裸のままですけど、包装紙ないんですか
  6. 新宿花園郵便局
  7. 今日十二号棟見学できます
  8. 部隊活動
  9. 食事した上で来て下さい
  10. ふんわりソフト感触が楽しめます

(これはATOK2008,9勝1敗?)

と、どの辺を重点的に学習するのかが見えてくる。なんていうのかな、複数の熟語が重なったときにそれを繋がりとみなす、という学習をしているというか。実際単語区切りが一時的に「置いてかれた」「新宿花園」あたりで一つの単語として扱われているし。逆に「部隊活動」「ソフト感触」は2つの単語として扱われているようであって。

ただ、この"複数の熟語が重なったときにそれを繋がりとみなす"というのは善し悪しの面がありそう。というのは上記の中では一見正しく変換されている「あの人もう重役」というのは「あの/人もう/重役」という単語の組み合わせとして認識されているから。後でこれが別の誤変換を生まないことを祈るのみ、というか、ATOKだと辞書のバカさは自分の日本語能力を反映するのかもなあ、と思ったりして。

実は、MS-IMEだって捨てたもんじゃない。

MS-IMEに対する非難が最近よく聞こえてくるが、実はデフォルト状態なら意外といい、ということも見えてきた。自分は元からATOKを使っているので、Microsoft IME 2003はほとんど素の状態で残っている。それで一発変換をやった結果がこちら。

  1. うまくいかない画像サイズになった
  2. ○○さんの質問は要注意かと思います
  3. 日本の卑怯100戦
  4. 小学生問題。水野さん大変かを書け
  5. 何かと胡散臭いときがある
  6. 今日いない門ね。ごめんー!
  7. 置いて枯れた幹事だ
  8. あの日ともう重役になったんだって
  9. 裸のままですけど、放送しないんですか
  10. 六個作ってください
  11. 俺は鹿になった
  12. 了解金曜にお願い
  13. 新宿はなぞの郵便局
  14. 渡しましょう
  15. 今日中に強盗見学できます
  16. 舞台活動
  17. 変わるときなんだよ
  18. 食事した上できてください
  19. ふんわりソフト感触が楽しめます
  20. 恋人たちの季節
  21. 講習会の出欠を確認してください
  22. あなたのこと理解したい

もしかして、ATOK17どころか、学習前の他のATOKと比べても意外と遜色ない変換結果だったりするんじゃないか、と見える。
もちろん、Microsoft IMEがバカ、というのが捏造なわけでもないだろうことを考えると、IMEの問題はたぶん辞書学習にあるのかな?という可能性があるのか、もしくは単文節変換が苦手とか、そういう面があるのかもしれない。

*1:入力の際は適当な名字を入れて試した

*2:追記:ここには元々「都合により今手元にないので、後で試してみるつもり。つまり、これが3年でどれくらい変わるかは今晩以降のお楽しみ。」とあった