精度改善のキモはログ解析 その重要度とは?――続・「Simeji」の日本語入力システム入門“いれたてのおちゃ”で分かることって?(2/4 ページ)

» 2015年06月22日 10時00分 公開
[PR/ITmedia]
PR

「いれたてのおちゃ」で判断できない変換精度

加藤氏 辞書の強化は、実際にコーパスを使って精度を高めるチューニングをしています。ただ精度をチェックするための評価データ(例文)が少ないと、それだけに最適化されてしまいます。そこで、10万フレーズの中からランダムに1万フレーズを抜き出して、評価データとしています。次に別の10万フレーズからまた1万フレーズを抽出して評価する。これの繰り返しです。こうしないと偏った評価データのためだけに動作するかな漢字変換になってしまうんですね。

 例えばですが、新聞の文章だけを評価データとして変換精度をチューニングすると、新聞の記事向けの変換結果ばかりになってしまう。こういったことがないように、さまざまな文章を使っています。

 実際の評価はツール上で行えるものと、人力で行うものがあります。ツールで行う場合は、評価データの文章を先頭から読み込んで、形態素(意味を持つ読みの最小のまとまり)ごとに区切ることによって、どの変換候補が先頭に来るのかを評価します。

 一方で人力による評価は、人間らしい文字入力を再現します。というのは、人間は必ずしも文章を最初から入力するとは限らない。「加藤さんは」という文字入力をするときに、「さんは」を入力してから「加藤」を付け加えることもあります。文章としてはあり得ませんが、付属語から入力されても精度が保てるようにしています。

photo

小町氏 一文を全て入力してから変換する人もいれば、文節を区切って入力する人もいます。文節ごとに入力する場合でも、名詞から始めて一文節入力する人、名詞ごとに区切って入力する人がいます。「太郎が」という文節を、「たろうが」と入力して変換するか、「たろう」「が」と分けて変換を確定させるかですね。

 実際のユーザーは入力スタイルがいろいろですから、それに合わせた評価が必要にあります。文章の後ろから入力しても間違いとはいえないので、誤りをどう評価するのかが難しいですね。単語ごとに誤りを減らすのか、文節ごとなのか、一文ごとなのか。一文ごとであれば、単語がたくさんあれば変換の正解率が下がってしまうこともあります。

 精度の話であれば、予測入力に関しては単純に正解か不正解かでは言えないですね。入力に関して(予測候補を)選択するというひと手間がありますから、どれだけ入力する手間が省けたのかという評価軸も必要になってきます。

加藤氏 辞書にある変換候補がすべて表示されると、それはノイズになってしまいます。そこで、どういう候補が良いのか、あらかじめ統計を取って予測候補を絞り込みます。おおむね、2文字か3文字くらい入力されたら候補がでてくるのが今の仕組みです。

 変換精度の確認は、評価用の文章と同じ漢字が、変換候補のトップに出てきたのかどうか。また候補の中に出てきたのか、カバーできているのかをチェックします。カバーについては、同音異義語には数が多いものから少ないものまでたくさんありますが、(スマートフォンの場合)変換候補の一覧画面に収まる5つか6つに表示されれば、カバー率が高いと判断します。変換候補の一覧に出てきても、順位が低くてスクロールしないと選択できない場合はカバー率が低い。変換候補に出てこない場合はカバーしていないと評価します。

 漢字は読みと表記が一緒であれば、必ず変換候補に出てきます。ただ入力の途中だったりすると、確定されていませんので出ない場合もありますね。また辞書内の読みと表記の組み合わせが変わっていく場合もあります。

 「相殺」(そうさい)を“そうさつ”と読むようになり、「世論」は“せろん”だけでなく“よろん”という読みも使われています。こうした変化は常にありますので、常に辞書をメンテナンスして対応しています。

photo

小町氏 例えば「淹れたてのお茶(いれたてのおちゃ)」「貴社の記者が汽車で帰社する(きしゃのきしゃがきしゃできしゃする)」という例文だけで変換候補の精度をテストしていると、これを一発で変換できるようにルールを変えてしまえばよいですね。しかしこの文が変換できたからといって、全体の変換精度が高いとは言えません。

 辞書にない「未知語」を入力する場合、その未知語をユーザー辞書に登録してしまえば良い。しかし、ほかの未知語に対しての変換精度をアップすることにはなりません。特定の例文に特化された偏りのあるチューニングを「過学習」などと言いますが、これを避けるために、ランダムな文章をサンプルとする一般的な方法で変換精度を高める必要があります。

 先ほどの“貴社の記者が……”ではないですが、昔からさまざまな日本語入力システムを使っている人は、良く使う評価用の例文があったりします。でも文としては1つか2つとサンプル数が少ないですから、それだけで全体の評価は下せないですね。それなのに、この文が正しく変換できるから精度がいい、この文ができないから精度が悪い、という記事を書かれてしまったりするので、木を見て森を見ずだな、と思うことはあります。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:バイドゥ株式会社
アイティメディア営業企画/制作:ITmedia Mobile 編集部/掲載内容有効期限:2015年7月21日