連載
» 2010年09月17日 16時00分 公開

ATOKのちょっといい話 第4回:まっ まさか! きたえた じしょたちが!――そんなときは「AI辞書トレーナー」

ATOK連載の第4回では、既存の文書やWebサイトの内容から一気に辞書を鍛える「AI辞書トレーナー」を紹介しよう。

[瓜生聖,ITmedia]

 ATOKの変換精度の高さはよく知られているところだが、今まで使っていた日本語変換ソフトから乗り換える場合には、それまでの学習内容をどう引き継ぐか、という問題がある。ATOKは、インストール時にMS-IMEからの環境を取り込むかどうかを指定するオプションがあるが、それが効果的でない場合もある。

 例えば、PCを新調した場合はそもそもの日本語変換ソフトの辞書が育っていない。以前のPCから辞書データを移行すればよいものの、その作業を忘れたまま古いPCを処分してしまうこともあるかもしれない。自分が作成した文書はたくさんあるのに、その文書を作成する過程で得られたはずの日本語変換の辞書が失われている、というのも皮肉な話だ(→関連リンク:これまでの連載

AI辞書トレーナーの画面

 そういう場合はATOKが持つ便利機能の1つ、「AI辞書トレーナー」を使って一気に自動学習させてしまおう。AI辞書トレーナーは既存の文章を読み取って学習を行う辞書ユーティリティで、ATOKに標準搭載されている。

 AI辞書トレーナーは、スタートメニューあるいはATOKメニューから起動する。ダイアログには「ATOK辞書セット」と「文書の設定」の2つの項目がある。

 ATOKには標準辞書のほかにも、郵便番号辞書やフェイスマーク辞書、トレンド辞書などさまざまな辞書があるが、それらを個別に使用するのではなく、いくつかをまとめて辞書セットとして利用する。例えば、業務では標準辞書+トレンド辞書+人名辞書をセットにした標準辞書セットを使用し、趣味用には標準辞書+フェイスマーク辞書のオリジナル辞書セットを使用する、といった具合だ。

 その際、入力・変換時の学習内容は、選択されている辞書セットにひもづけられたユーザー辞書に記録される。同様に、AI辞書トレーナーの場合は「ATOK辞書セット」に設定されたユーザー辞書に登録されることになる。このユーザー辞書には通常、手動による単語登録のほか、ひらがな後変換、カタカナ後変換、英字後変換、英字複合語、複合語、未登録語、文節区切り、細切れ、AI学習の結果が登録されるが、AI辞書トレーナーではこのうちの未登録語および複合語を自動学習することができる。

 文書の設定では学習する文章が含まれている対象を指定する。ファイルやフォルダ、クリップボードのほか、メールやWebサイトといったインターネット関連データも対象にできる。なお、対象となるアプリケーションがインストールされていない場合は、メールのタブは表示されない。また、通常使用するブラウザがInternet Explorerでなかった場合にはインターネットのタブが表示されない。

辞書は複数まとめて辞書セットとして扱う。ユーザー辞書は辞書セットにひもづけられる(画面=左)。自動登録項目は8項目。このうち「複合語」「未登録語」がAI辞書トレーナーで扱う範囲だ(画面=右)

 AI辞書トレーナーは、初期状態でカタカナ未登録語、複合語を自動学習する。複合語は接頭語・接尾語と結びついた単語で、「硝子玉」や「制作料」などが含まれる。英字未登録語は初期状態では無効となっているが、詳細設定画面から有効化することができる。そのほか有用な設定としては「人名の語順を学習する」というものがあり、入力対象データ内に出てきた人名が変換候補の上位に現れるようになっている。自分のメール、クラスや社員の電子的な名簿があれば一気に登録できるのも利点だ。

 そのほか、詳細設定のAI学習にチェックがついていれば、対象文節とその前後の文節の関係をAI用例として登録する。登録には強弱の2レベルがあり、1つは複合名詞(名刺・固有人名など)のみを登録する「簡易」、もう1つは複合名詞以外のAI用例についても登録する「詳細」となっている。

 ATOK辞書セットと読み込む文書を指定し、「実行」をクリックすると読み込みが開始され、自動的に単語が辞書に登録される。その際、「単語を確認しながら学習を行う」にチェックが入っていれば、自動的に登録するのではなく、読み込み後に、単語・用例が一覧表で表示される。ここで登録してほしくない単語・用例を削除すればよい。

青空文庫に掲載されている日本三大奇書のひとつ、「ドグラ・マグラ」を学習させてみた(画面=左)。特徴的な単語が抽出されていく。AI学習(詳細)にしておくとAI用例なども同様に抽出される(画面=右)

インターネットタブは通常使うブラウザにIEをセットしていたときのみ表示される(画面=左)。辞書ユーティリティから登録内容を一覧(画面=右)

 AI辞書トレーナーはそれほど頻繁に使用する機能ではないものの、すでに入力済みのテキストがあれば一気に自動学習が行える、ユニークなツールだ。新しい環境に移行して、「どうも変換精度がいまひとつだなあ」、という不満がある場合には、過去に自分が作成した送信メールやテキストファイルを対象として一度実行させてみるといいだろう。

Copyright © ITmedia, Inc. All Rights Reserved.

この記事が気に入ったら
ITmedia PC USER に「いいね!」しよう