« HD DVD 考 | メイン | Virtual Acoustic »

2008年02月22日

ATOK 2008 考

毎年欠かさず治めている徳島税ですが,ATOK 2008 についてちょっと気付いた点があるので投稿。
ATOK2008.gif

ATOK 2008は,これまでのATOKとはずいぶん特性が変わったように思います。宣伝文句では「統計的言語処理による変換精度の向上」というあまり画期的では無さそうな表現で書かれている部分だとは思いますが,これがすごい。

長文をだだだーっと売ってしまってから一括して変換する差異の精度がこれまでよりもかなりアップしているように思います。
上の一文,あえて読点なしで書いて一括変換してみました。2箇所間違ってますが,他はOK。
もうひとつ。
これだけ大きな変化をしているんだからせっかくだからちゃんと宣伝したらいいと思うのにそれをしないでもったいないなあと思わせるのが徳島クオリティ。
個人的には「勿体ない」を漢字で書いて欲しかったくらいで,100%正答ですね。
最後にもうひとつ。日本国憲法前文を現代仮名遣い・句読点無しで一括変換。
日本国民は政党に選挙された国会における代表者を通じて行動し我らと我らの子孫のために諸国民との共和による成果と我が国全土に渡って自由のもたらす (一括変換の文字制限によりここで一旦変換)
恵沢を確保し正負の行為によって再び戦争の惨禍が起こることの内容にすることを決意し個々に主権が国民に存することを宣言しこの憲法を確定する
さすがにちょっと間違ってますが,かなりいい線まで行ってます(そもそも,日本語文法としては間違ってない)。

さて,この3例で特筆すべきは,文節区切り間違いが全く無いこと。これは素晴らしい。

逆に,2~3文節ごとに逐一変換する場合には望んでいない候補が出てくるケースが増えたようにも思いますが,これだけ大きなアルゴリズム変更があったわけですから,そこは仕方ないところ。多分,自動学習時の手順もしくは教師信号が新アルゴリズムにいまいち適していなかったのでしょう。次バージョンではその辺を改善してきてくれることを期待。

以上,信者からの報告でした。

/* 「ATOK ダイレクト」 もなかなか良いのだが,それはまた後日。ずいぶん昔に実装されてた iATOK のリベンジか。iATOK は使い物にならなかったが,今回は当たりの予感。 */

◆◆◆◆ 買っちゃいました[PC関連] | 投稿者 yos. : 2008年02月22日 00:17

コメント

なるほど。
何故か自分がATOK2008と相性がイマイチなのは、「2~3文節ごとに逐一変換」するタイプだからか。
一文ごとに変換するように癖を変えなければいけないかな・・・。

投稿者 TAK : 2008年02月22日 22:43

訂正。

試してみたところ,ATOK 2007 でも同程度の文節区切り精度はあったようです。感覚的にはだいぶ変わった気がしたのですが・・,とりあえず今回の実験結果にはあまり根拠がないということで,訂正しておきます。後日,もう少し現実的な文章で検証してみます。

投稿者 yos. : 2008年02月27日 00:24

コメントしてください (スパム対策テスト運用中)




保存しますか?