Special
» 2015年06月22日 10時00分 UPDATE

“いれたてのおちゃ”で分かることって?:精度改善のキモはログ解析 その重要度とは?――続・「Simeji」の日本語入力システム入門 (1/4)

PCやスマホで当たり前のように行っている文字入力。それを支えるのが日本語入力システムだ。より自然なかな漢字変換を実現するため、辞書の強化や自然言語処理技術を用いた改善が日々行われている。その重要性を説明してもらった。

[PR/ITmedia]
PR

 バイドゥの「Simeji」は、AndroidとiPhone/iPadを合わせて1500万ダウンロードを越える人気のアプリだ。スマートフォンだけでなくWindows向けも一部で展開するなど、国内の日本語入力システムとして多くのユーザーを獲得している。

 日本語入力システムは、PCやスマホといったコンピューターで日本語を利用するのに欠かせない存在。しかし、どんな役割を果たしているのか、まだどんな仕組みで動いているのかを知る機会は少ない。前回は日本語入力システムの進化の過程を、首都大学東京の小町守准教授とバイドゥの加藤昌範氏に説明してもらった。

 今回は、より自然な日本語を入力するために欠かせない変換精度向上や辞書の強化について、引き続き小町准教授と加藤氏に解説してもらった。日本語入力システムの変換精度の維持・向上において統計的手法に代表される最新の取り組みはどれだけ重要なのか、日本語を入力するデバイスがPCからスマホに移り変わっていく中で、Simejiはどう進化していくのかなど、興味深い内容となっている。

変換精度向上に欠かせない辞書の強化 流行語も専門用語?

小町氏 前回は日本語入力システムの歴史を振り返りながら、ソフトウェアエンジニアや言語学者といった専門家の知識が不可欠であった時代を経て、統計的な手法を使うようになってきた――という流れでお話しました。

photo 首都大学東京の小町守准教授

 統計的な手法で大事なのが、「かな漢字モデル」と「言語モデル」の2つです。かな漢字モデルとは“読みと漢字をどう結び付けるのか”ということ、言語モデルは“出てきた変換結果がどれだけ日本語として自然か”ということで、この2つを組み合わせます。それぞれを向上させるには辞書をいかに作るのか、また統計をベースにするので、テキスト(コーパス)の使用頻度から日本語らしさを計算する必要があります。

 以前の辞書作成は、図書館に行って頑張って手入力するというものでした。最近はインターネット上でさまざまなデータがありますし、マシンパワーも上がりましたので、ある程度自動で収集できるようになりました。また専門辞書については、あらゆる分野に詳しい人はいませんから、分野ごとの専門家に監修してもらう必要も出てきました。

 自然言語処理の研究ではウィキペディアをよく使いますが、オープンに使えるライセンスであれば使いやすいですね。ただ権利のあるものを商用利用するのは難しいと思います。

 方言や“若者ことば”などを調査している国立国語研究所が作った「現代日本語書き言葉均衡コーパス」という膨大なテキストデータがあるのですが、この作成で一番大変だったのが著作権者との交渉と聞いたことがあります。集めることは簡単だけれども、採用するには著作権者を見つけなければならない。それが誰が分からない、あるいはすでに亡くなっているということも多くて、収録を見送った文章も多いと言うことです。

加藤氏 国立国語研究所のデータは新聞や小説、教科書などいろいろなデータが入っていて、大変有用なものです。ただデータそのものは区切られていて、長いコーパスにするのにはチャンキング(ある程度の大きさにまとめる、逆に細分化すること)が必要です。

photo バイドゥの加藤昌範氏

 1点補足したいのですが、コーパスの利用については必ず著作権の問題が出てきます。辞書の場合は収録している単語・言葉そのものが成果物になりますから、記事や小説のように“引用”には当たりません。必ず著作権処理が発生し、当然ですが対価を支払います。

 例えネット上で自動収集したコーパスであっても、アプリの辞書に組み込むなど、事業資産になる場合は必ず著作権処理を行います。そのため、自社で日本語入力システムを開発して提供するには、それなりのコストが必要で、企業体力が必要になります。バイドゥもそうしたハードルをクリアしている1社です。

小町氏 専門辞書のための知識についてはいかがですか?

加藤氏 専門用語のデータについては、個別に契約して収集するようにしています。これまではバイドゥの技術者や開発者が人力で入力していましたが、限界がありますよね。今は専門的な辞書や用語のデータが販売されていますので、それを購入したり、契約したりして利用しています。

 例えば植物や動物の名前には、専門の辞書があるのでそれを購入しています。学術用語、特に医療用語なども専門家が集めているところがありますから、契約して辞書を集めています。この部分は間違いのないデータを安心して使うために、しっかり予算をかけています。変換精度が悪くなるリスクがありますから。

 辞書の変換精度を底上げするには辞書が大事ですが、スマートフォンのアプリ内に入る辞書(ローカル辞書)は容量に限りがありますから、一般的に使う言葉として15万語程度を収録しています。変換候補として常に必要じゃないけど、専門的な用語やあまり使わない言葉などで変換候補にあったほうが良いものもあります。変換の“カバー率”を全体的にアップさせるために「クラウド超変換」を用いています。

 今はローカル辞書もクラウド辞書も分野ごとには分けていません。一般的な用語も専門的な用語も区別なく変換候補に出てきます。ただこれからは分けて、ビジネス向けならIT用語だけ、経済用語だけとカテゴリーごとに辞書を取り込めるようにします。ユーザーのニーズに合わせて辞書を細分化できると、もっと少ない労力で使いたい言葉を変換できますから、より便利になります。

小町氏 専門用語というと学術用語などの堅いイメージもありますが、流行語や使う人が限られている言葉も専門性が高いと言えます。そうしたタイムリー性のある言葉、対象ユーザーが年齢などでカテゴライズされている言葉への対応はどうされていますか?

加藤氏 辞書に収録して欲しい単語をユーザーに登録してもらう「みんなの辞書」という仕組みがあります。1日に400から900件の申請があります。重複しているものを入れるともっと多いですが、こうしたデータを活用して新しい言葉を収集しています。

 もちろん申請されたものを全て収録するわけではありません。公序良俗に反していないか、著作権や商標権的に問題ないかを人力でチェックして、クリアしたものをクラウド辞書に登録します。更新はリアルタイムで反映されますので、早ければ1日待たずに辞書に収録されています。

       1|2|3|4 次のページへ

Copyright© 2016 ITmedia, Inc. All Rights Reserved.


提供:バイドゥ株式会社
アイティメディア営業企画/制作:ITmedia Mobile 編集部/掲載内容有効期限:2015年7月21日