スマホやPCはどのように“言葉”を扱っているのか?――「Simeji」の日本語入力システム入門クラウド辞書とキラキラネームの関係とは?(3/4 ページ)

» 2015年04月23日 10時00分 公開
[PR/ITmedia]
PR

統計学的なアプローチでさらに高精度に

小町氏 こうしたコストを人手でがんばって決めていたのが1970年代頃だと思っています。さすがに大変すぎるので、自動化・機械化できないかという動きが特に2000年代から出てきました。それくらいにかな漢字変換エンジンを作り始めたような会社は、社内に言語学に詳しい人もいなければ、こういうことをずっとやってきたエンジニアもいないしで、どう作ればいいのか分からない。そこで統計的な枠組みを使ってコストを決めようと。

 統計的な枠組みには2つの要素があって、1つは「言語モデル」。単語のつながりが、どれくらい日本語っぽいのか、ということを表しています。もう1つの「かな漢字モデル」というのは、ひらがなが入っているときにどういう漢字になるのかというものに相当するものですが、この2つを使ってコストを決めています。

 自然言語処理の分野で統計的な手法が使われるようになったのが1990年代以降ですが、90年代の前半から後半にかけて、どんどん統計的なものを使うようになりました。データがたくさん手に入って、コンピューターが速くなってきて、こういう手法で変換するようにすれば、統計的に言語モデルやかな漢字モデルを作ることができるという背景にあります。

 今のところ日本語入力、つまり、ひらがなが入ってきて、それを漢字かな混じりに変換するという意味では、たぶんこれ以上複雑なことは、そんなにやらないんじゃないかと思っています。逆にいうと、どんな変換エンジンでも、ほとんどこの統計的接続コスト最小法でやっているので、怪しいことはしようがない。誰が作っても、素直に作ればこうなる、というのが現状だと思います。

photo 現時点で、かな漢字変換のアルゴリズムの完成形ともいえる統計的接続コスト最小法(出典:小町准教授)

 問題は、かな漢字モデルや言語モデルに相当するところを、どういう風に作るのか? ということで、基本的にはできるだけ人手をかけないで作りたい、ということでしょう。以上が、日本語入力の歴史と現状です。

ほぼ完成しつつある変換精度 次は予測入力

小町氏 “日本語入力”と一言でいうと、PCだったら普通はひらがなを入れて変換するという方法なので、統計的な接続コスト最小法も10年くらい使われてきて、日本語入力としては古典的なやり方だと思います。今、差が現れるのは予測入力だと考えています。

 予測入力に関して言うと、最初の数文字を打っただけで、もっと長い出力を出すとか、確定した後に表示するとかいった機能ですが、確定した後に出すということは、何も入力されていないのに何かを表示しなくてはいけない状況です。普通のかな漢字変換と比べて、使える手掛かりが少ないわけです。

 そこで何を手掛かりにして表示する候補を選択するのか、といったことが問題になりますが、予測結果に好ましくないものが表示されてしまわないか、みたいなことをちゃんと評価しないといけないと思います。そこがきっと、PCのやり方と、よりパーソナルなスマートフォンやモバイル端末での日本語入力の違いかなと思います。

photo

加藤氏 今だと、スマホでSNS向けに入力することが多いので、“ちゃんとした文章”である必要はないですね。昔からある定型文みたいな文章が確定されてもユーザーさんが困ってしまうし、使えないものが出るとそれは単なるノイズなので、Simejiでは若い人が使う言葉を重点的に収録するようにしています。

 PCがどんどん小さくなるというより、スマホが大きくなる方が考え方としては正しいのかもしれません。作る人も研究する人も、機能を少なくすることはあまりやりたくない。できることを広げていこうというのが自然です。今後はSimejiの定型文入力みたいなものを充実させようという企画がバイドゥであります。今は中高生がどんな言葉使いをしているのか調査していますが、彼らにビジネスで使うようなあいさつを定型文として出していくのはあり得ない。そのためには、アプリケーションごと、統計的に変換結果を使い分けられたらと考えています。

小町氏 言葉のつなげ方、つまり日本語の使い方が(統計上の)言語モデルですが、これはユーザーの属性や使うアプリ、時と場合によってどんどん変わります。「言葉は生き物」などと言われますが、はやり廃りがありますから、言語モデルのメンテナンスは人力では限界があります。

 言葉そのもの、単語自体の読みと漢字を対応づけるのがかな漢字モデルですが、これも時と場合で動きがあります。新しい漢字や新しい読み方が出てくる可能性はありませんが、略語や造語、人名などが次々生まれています。

加藤氏 モバイル関連ですと「写メ」が代表的ですね。携帯電話の機能で、ケータイメールでよく使われました。

 それ以外でも、「全然大丈夫」みたいな言葉って、伝統的な日本語と文法的にはおかしいけれど、一般的にはビジネスでも使われている。言葉(かな漢字モデル)自体の使い方が変われば、新しいものは順次登録していかなくてはならないし、時代が変わっていくとコスト付けが次々変わっていく。そしてかな漢字モデルのコストが変わると、その使い方である言語モデルの組み合わせも変わる可能性があります。

クラウド辞書とキラキラネームの関係

加藤氏 一般的に使われるであろう文章を自動で作る、という機能はプロダクト側で実装できると思います。その先の、ユーザーがどういう文章を作って、日本語入力システムが何を学習したのかは、ユーザー個人個人で変わっていきます。ツールに合わせてユーザー側の使い方が変わることもあるでしょう。

 そこで注意する必要があるのは慣用句みたいなもので、例えば「小田急線の運行状況」と「飛行機の運航状況」という場合、「運行」と「運航」で違います。慣用的には、ユーザーがどちらを選んだに関わらず、陸を走っているものだったら運行、空や海だったら運航としなきゃいけないものがあります。今はまだちゃんとできていないですけど、そういう慣用表現をきちんと出すというのは、選ぶのとは別に間違えないようにするために必要なはずです。

小町氏 言語モデルもかな漢字モデルも両方そうなんですが、人によって使い方が違うので、それを反映させたいのが、いわゆる学習と呼ばれる機能です。あと、この言語モデルもかな漢字モデルも、両方とも統計とは一口でいっても、統計つまり頻度をカウントする元データに影響を受けるんですね。

 頻度をカウントするデータが、例えばTwitterのようなデータからカウントするとTwitter用語に強い変換エンジンになりますし、新聞記事であれば新聞記事で変換しやすいものになりますが、ユーザーがどちらを求めるのかが分かっていれば、それに合わせて作るのがいいですし、そうじゃなかったら、もっと一般的なすべての分野をカバーしたようなデータから推計する方がいい。

 学習というのは、ユーザーの言語モデルやかな漢字モデルを変換に入れる1つの方法だと思っていて、ベースのエンジンのところは、なるべく共通に作っておいて、個人個人に合わせたパーソナライゼーションとして、この人はこの単語は絶対使わないだろうとか、この人はこの入力が来たら絶対この単語に変換する、ということがあったら、ユーザーの過去の変換履歴から補正して上に出してあげるということをするのが、かな漢字モデルと言語モデルの学習になると思います。

 また、かな漢字モデルが、一度作ったらめったに変わらないんじゃないかという話が先ほどありましたが、固有名詞とかは当て字があるんですよね。

 例えば「とある科学の超電磁砲(とあるかがくのれーるがん)」というマンガがあるんですが、“超電磁砲”と書いて“レールガン”と読ませるので、読み方を知らないと変換できない。ひらがなに直せば読めるのはまだいいんですが、当て字過ぎて知らないと読めないものがあると、それは辞書的に、この単語はこの読みです、というものが入っていないと変換しようがない。なので、常に更新し続ける必要があります。

 ほかには「関ジャニ∞(かんじゃにえいと)」のエイトは無限大ですよね。これも知らないと絶対読めないですよね。

加藤氏 ただ知っている人にとっては、日本語入力システムで学習させていなくてもそれが出てくると感動してくれる。アニメ番組とか、最近はクールごとに変わっていると思いますが、アニメのタイトルって結構、不思議な読み方をしたりするので、そういうものはSimejiにも収録しています。

 エンターテインメントの世界だけでなく、Twitterなど特にインターネットで、今までとは違う言葉使いをするジャンルが出てきました。エンタメとネット、この2つの潮流を自動的にメンテナンスできようになると、もっと便利になります。

 Simejiには「みんなの辞書」という投稿型の辞書があって、ここには「クラウド超変換」に登録を申請することができます。ここには、キラキラネームとか1日に400件から700件くらい、夏休みや冬休みになると1日に1000件近く登録の依頼が来ます。

小町氏 すごいですね(笑)

加藤氏 申請を頂く場合に、それが人名であるかという分類まではされません。読みと表記だけですが、これは人名だろうと判断が付けば、クラウド辞書に登録します。取り急ぎクラウド超変換に登録して、人名として多くのユーザーが使うようになったら、言葉(言語モデル)としての優先度(コスト付け)を変えます。こうした取り組みは他社さんも何らかの形で取ってきているはずです。

 キラキラネームは漢字と読み方がかけ離れていることがよく取り沙汰されますが、その数が増えているのが今までと違います。変わった名前の方は昔から居るわけですが、その数が日々増えていて、SNSやメールで使う機会が増えているのが最近の兆候ですね。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:バイドゥ株式会社
アイティメディア営業企画/制作:ITmedia Mobile 編集部/掲載内容有効期限:2015年5月22日

関連リンク