スマホやPCはどのように“言葉”を扱っているのか?――「Simeji」の日本語入力システム入門クラウド辞書とキラキラネームの関係とは?(2/4 ページ)

» 2015年04月23日 10時00分 公開
[PR/ITmedia]
PR

アルゴリズムの違いを「けいざいはきゅうこうか」で比べると

小町氏 「けいざいはきゅうこうか」という言葉を、N文節最長一致法と接続コスト最小法の考え方で変換してみましょう。変換すると次のようになります。

  • 「けいざいはきゅうこうか」の変換結果
    • 接続コスト最小法
      • 「経済」「は」|「急降下」
    • N文節最長一致法
      • 「経済」「波及」「効果」

 接続コスト最小法の変換結果は接続コストによりますが、「経済」までは一緒で、「経済」「は」「急降下」になるのか、「経済」「波及」「効果」になるのか、という違いがあります。接続コスト最小法は名詞があって、助詞があって、動詞があるので、この連続は関係した文だなと、考えるわけです。一方のN文節最長一致法は、辞書に載っていそうな単語が選ばれやすいですね。文節の区切はN文節最長一致法だと全体で1つの文節になりますが、接続コスト最小法は2つになります。

photo

 全体の文章を見ないと、どちらが正しいのかこれだけでは決まらないんですが、考え方の違いは以上のようになります。

 N文節最長一致法は入力された読みから辞書にある単語を次々確定していく手法ですから、辞書と文法規則の網羅性がポイントになります。この手法が長く定番として使われてきたのは、古くからかな漢字変換を開発してきた企業が資産として大きな辞書と文法規則を持っていて、それを充実させて精度を高めてきた――という歴史的な経緯があると思います。また、先頭から確定させていくことで、辞書引きの回数を減らすことができるのも、プロセッサーが遅かった時代には重宝されたことでしょう。

 1つ補足すると、N文節最長一致法、接続コスト最小法以外のアルゴリズムもたくさん生まれましたが、淘汰(とうた)されました。それぞれ歴史的経緯によって生き残ったと思います。

 現在は接続コスト最小法が主流になりつつあります。こちらの方が正しい結果を出すことが多いのですが、長くPCを使っていて、文を短く入れて変換していく、いわゆるパワーユーザーの人にとっては、接続コスト最小法とN文節最長一致法でも、そんなに結果が変わらないということがあります。一部には、N文節最長一致法のエンジンもまだ生き残っていると思います。

加藤氏 現在の日本語入力システムでN文節最長一致法だけを使っているものはもうないでしょうね。

小町氏 ほとんどないでしょうが、一部のソフトは2文節最長一致法を内部で使っているかもしれません。オープンソースのソフトと違ってソースコードが公開されていないため確証はありませんが、補正用程度の使い方だと思います。

 あるソフトは2007年までは確実にN文節最長一致法を使っていて、2007年以降「ハイブリッドコア」と彼らはいっていましたが、統計的なものも合わせて使っているといわれています。2011年に論文が発表されたときには、接続コスト最小法の一種を使っていたということでした。

 ちなみに接続コスト最小法が使われ始めたのは、2000年代後半。大規模なデータからコストを推定するようにした統計的言語モデル(SLM: Statistical Language Model)という統計的なモデルを使うようになりました。このコストは昔は人手で、「これは100」「これは1000」とか決めていたんですが、今は膨大なデータから機械的に決めています。

 MS-IMEも昔は2系統あって、OSをインストールすると最初から入っているものと、Officeに付属しているものがありました。Officeの方が実験的なことをしていて、Officeの方で新しい機能を付けて様子をみて、それを何年後かにWindowsの標準的な日本語入力システムに持ってくるというようなやり方をしていました。MS Office-IMEに採用されたのが2007年くらい。Windows 標準になったのは Windows 8 からなので、2012年に入ってからですね。

 またGoogleが「Google日本語入力」を出したのも2000年代後半ですし、この頃から、ほとんどの日本語入力システムが統計ベースのものに移行しました。

 Macもかなり最近まで「ことえり」を使っていましたが、ついこの間のアップデートで、iPhoneやiPadと同じの統計ベースのモデルに書き換わっています。主要な日本語入力システムは、統計をベースにして接続コスト最小法を使っているものになったと思います。

デバイスの処理能力とコスト付けのリソースをどうするのか?

加藤氏 N文節最長一致法から接続コスト最小法に移り変わったのは、処理にかかる負荷の違いもあります。昔のPCで接続コスト最小法を処理させるには、処理能力が遅かった。特にスマートフォンは性能が良くなったので、接続コスト最小法に必要な処理能力を気にしなくてよくなりました。

小町氏 スマホはほとんどPCと同じような処理能力を持っていますからね。

加藤氏 フィーチャーフォンのときにはメモリーも高級で、容量も少なかった。学習辞書の容量も1Kバイトと限定されていて、書き換えるのにも時間が結構かかっていました。どんどん学習してデータが大きくなっていくと変換が遅くなったりしました。当時はN文節最長一致法を用いていて、今は接続コスト最小法ですね。

小町氏 ユーザーの変換履歴からの学習は、これはまだ正解の方法がないところだと思うので、いろんな変換エンジンごとに、癖というか特徴がある部分じゃないかと思っています。統計モデルにできたらいいのでしょうけど、マシンパワー的にもなかなか難しいですよね。

 処理能力的には接続コスト最小法でできるようになっていて、接続コスト最小法だと、人手によるチューニングがいらない。いらないというと言い過ぎですが、大幅に軽減できるというので、ほとんどが接続コスト最小法をベースにしているんじゃないかと思います。

加藤氏 具体的には、たくさんのデータの中から文字を区切って、どれが一番いっぱい出てくるんだろう、というのを計算しています。例えば「はし」だったら「橋」が多いのか、「端」なのか「箸」なのか、その出てくる順番が分かってきて、そのほかに「渡る」だと「橋」だ、というコスト付けができてくるんです。

小町氏 「このはしわたるべからず」の「はし」をどうするか、という話ですね。ひらがなで「はし」という言葉が入ってきたときに、それが「橋」なのか「端」なのか、というのを、この接続コスト最小法ではコストというものを使って決めます。

photo 「にわにはにわにわとりがいる」をどう変換するべきか?(出典:小町准教授)

 入力がひらがなで「に」という入力があったら、ひらがなの「に」もあれば、漢字の「ニ」や、「煮」「庭」というような単語になることもある。「にわにはにわにわとりがいる」をどう変換すればユーザーが求めていた結果になるのか、辞書を引くと作ることができます。

photo 漢字と日本語の組み合わせはいくつも考えられる(出典:小町准教授)

 この中で、文頭から文末まで、こういう風に1本線を引けます。この線を引いたときに、単語、そして単語と単語の間に付いている数字がコストになります。このコストを文頭から文末まで全部足し合わせた結果が一番低いものが正しい変換結果になるような手法が、接続コスト最小法です。見ていただくと分かるように、(漢字とつなげ方は)たくさんあります。ものすごくたくさんあるので、いろんな可能性を考えて、一番コストが低くなるものを見つけないといけません。どういう風にすれば一番コストが低いものを見つかるのかは、自然言語処理の方で研究がされていて、効率的な方法があります。今、これがデファクトスタンダードになっています。

photo 変換する漢字とその組み合わせから、一番使われる可能性が高い(数値=コストが低い)ものが選ばれる(出典:小町准教授)

 問題は単語ごとに設定されるコストです。この数字をどう決めるのかが問題になります。コストには2種類あって、1つは単語自体に関するコスト。先程の「はし」だったら「橋」になるのか「端」になるのかというところで、「橋」の方が使われやすいため、そちらに低いコストを付けます。つまり確率が高いとコスト的には低くなります。

 もう1つが単語と単語の関係に設定するコストです。これは単語の並びが日本語としてよく出てくるのか、ということを考慮するものです。例えば格助詞「太郎が」の「が」とか「ご飯を」の「を」というものは、基本的には文の頭には来ません。日本語として、あまり使わない、またはあり得ない単語の並びはコストを高く付けます。

 例えば「太郎がご飯を食べる」という文があったら、「太郎」は名詞ですが「が」は格助詞ですね。そういう「太郎が」とか「机を」とかいうように、名詞の後にはだいたい助詞が来て、その後に動詞が来ますが、助詞が3つ連続でくっつけたりということは普通しないですね。「ががが」と言わないけれど、「太郎が」という風に名詞の後に助詞が来やすいというものはコストが非常に低い。もしくは、助詞が連続するコストは高い、確率が低くて選択されにくいということになります。助詞が3つ来ないというのは、言語学、特に日本語を知らないと作れないですが、こういうものをメンテナンスするのがすごく大変でした。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:バイドゥ株式会社
アイティメディア営業企画/制作:ITmedia Mobile 編集部/掲載内容有効期限:2015年5月22日

関連リンク