Special
» 2015年09月11日 10時00分 UPDATE

ディープラーニングでIMEはさらに進化する!――続々「Simeji」の日本語入力システム入門 (1/4)

日本語入力システムの未来はどんなカタチになるのか? 話題のディープラーニングや音声認識を使った対話型エージェント(音声アシスタント)など、言語処理を軸にしたICTの可能性について、小町准教授とバイドゥ高部氏に解説してもらった。

[PR/ITmedia]
PR

 8月17日に、AndroidとiPhone/iPadを合わせて1600万ダウンロードを突破したバイドゥの日本語入力アプリ「Simeji」。スマートフォンだけでなくWindows向けも一部で展開するなど、国産の日本語入力システムとして利用者を増やしている。

 また、有料のプレミアムサービスやプロ版など、より多くの機能や、高い専門性が必要なニーズに応えるサービスも提供している。Simejiのような日本語入力システムにはどんな役割があり、どのような仕組みで動作するのか。また、これからどのように便利になっていくのか? このシリーズでは過去2回、首都大学東京の小町守准教授とバイドゥの担当者に説明していただいた。

 最終回の今回は、日本語入力システムの未来はどんなカタチになるのか? 話題のディープラーニングや音声認識を使った対話型エージェント(音声アシスタント)など、言語処理を軸にしたICTの可能性について、小町守准教授とバイドゥの高部幹人氏に解説してもらった。

文字入力、出力の進化と多様化

小町氏 前回前々回と、日本語入力システムの仕組みをお話しし、Simejiの中が実際にどうなっているのかをご紹介していただきました。今回は日本語入力の最新の取り組みから、将来、どのように発展していくのかを予想したいと思います。

photo 首都大学東京の小町守准教授

 これまでは日本語入力がどのように行われているのか、その手法に焦点を当てました。変換精度という意味ではすでに頭打ちになっていて、どんなやり方でも手法的には同じようなことをしている――ということをお話しました。では今後、各変換エンジンや日本語入力システムがどのように進化していくのか? そこからスタートしましょう。

 これまでの文字入力は、伝統的にはPCのQWERTYキーボードを使ってきました。しかし最近は、特に中高生はPCを持たず、スマートフォンを使っています。大学生でもPCを持たず、スマホでレポートを書く人がいます。QWERTYキーボードでは入力できないけれど、スマホのフリック入力はできるという人が大学に入ってくる時代です。

 スマホの前はケータイのダイヤルキーでポチポチと入力していました。私の妻はスマホを使っていますが、ポケベル世代なのでフリック入力ではなくタッチの連打で文字入力しています。慣れた方法を使い続けているということだと思いますが、このように文字入力の方法は人やデバイスによって違ってきます。

 例えばゲーム機。いろんなゲーム機がありますが、普通はキーボードがありませんから、文字を入力するときには画面の五十音表から、コントローラーでカーソルを操作して文字入力することが多いと思います。iPadなどでも五十音キーボードがありますが、入力している人はあまりいないのではないでしょうか。もっと適した入力方法があるのでは? とも思います。

 スマホはフリック入力に収束してきたと思っていますが、それ以外の場面では、どういう入力が最適なのか。みんな、まだ合意していないと感じます。特許の問題もあるかもしれませんが、特にゲーム機や銀行のATMでソフトウェアキーボードを使って入力する際、五十音表だと確実に入力はできますが、速く入力できるとは限らない。まだ改善の余地があると思っています。

 以上は自分がテキストを書きたいときに、どのように入力するかという話ですが、逆に、自分が入力したときにどういう変換結果が出てくるのか、ということも多様化してくると思っています。

 商用の日本語入力システムによくありますが、入力したときに辞書を引いて言葉の意味を出してくれるとか、同音異義語や類語を出してくれます。こういう辞書情報を出すのは、一番分かりやすい機能拡張の1つですね。今どきのPCやスマホはネットワークに常につながっているので、辞書が本体に入っていなくても自動的に検索や辞書引きをして、その情報を結果に出すことは当たり前にできます。

 通信速度がどんどん速くなり、またデバイスに保存できるデータ容量も増えていますので、テキストだけでなく画像を表示することも、インタフェースの問題を除けばできますし、いろんなメディアで音声を出すこともできます。英語の発音を確認したいときなど、音が出ると非常に便利ですよね。意識的に辞書を引かなくても、テキストを打つと自動的に辞書が引けて入力を支援するという拡張は、使い勝手の向上に役立つと思います。

 位置や時間など、いろいろな周辺情報を使って変換精度を上げる、もしくは発想の支援をするという方向も考えられると思っています。どんな文体で書くのか、どんな用途で入力したいのか、人によって入力は異なるので、その人に合った最適化、個人化(パーソナライゼーション)が大事になります。自分はこんな単語使わないよ、という言葉は候補に出なくても気が付きませんが、この専門用語は絶対変換されないと困る、というものが候補に入っていないと、すごくストレスがたまる。特に自分の名前が変換しにくいものだった場合にストレスがたまります。すごく珍しいから、なくても仕方がない、と諦められる名前だったら自分で登録するでしょうが、これが入っていないとおかしい、と思うものが候補に入っていないと、ユーザー体験の悪化につながります。ユーザーに合わせた辞書を作ることはすごく大事だと思います。

 以上のように、インタフェースがどんどん発展していくと考えられます。Simejiの機能にも、変換するときに辞書を引くものがありますよね。

高部氏 そうですね。日本語入力システムは表音文字を表意文字に変換するのがベースですが、より人間らしく推測してあげるとか、補助みたいなことができるようにしようとしています。入力した内容の意図を読み取ってWikipediaで詳しい情報を表示してあげるとか、入力するだけじゃなくて、この言葉はこういう意味ですよとか、ホットな話題にこんなものがありますとか、コミュニケーションを補助できるような情報を表示する。また、入力する際に文章力を向上させてあげるとか、アイデアをサジェストしてあげるような、本来の入力機能の周辺のサービスを巻き込んだ入力補助というのは面白いかもしれないと考えています。

photo バイドゥの高部幹人氏

 小町先生がおっしゃったような、便利に変換できる、意図通りに変換できるという要素と、類語や新しいインフォメーションリンクを発見できたり、入力以外の周辺情報を補足する要素なども入力補助する周辺情報として利便性があがる可能性は高いかもしれません。その裏にはビッグデータやAI的な部分、デジタルヒューマニズムの最先端技術なども融合していくんじゃないかと、感じました。

小町氏 ウェブ検索では、ナビゲーショナルクエリーといって、行きたいサイトがあって、それを見つけるために入力する言葉があります。例えばウェブ検索クエリーで数字の「2」と入れる人が多かったりしますが、これは巨大掲示板の「2ちゃんねる」に行きたいから入れることがあるんです。

 日本語入力も同じで、できるだけ少ない文字で入力したいから予測入力が欲しいとか、すぐ正しく変換できるように、一番上に欲しい言葉が表示されてほしいとかの要望が出てきます。またネット検索では、何かよく分からないけど調べたいことがあるということがありますね。それと同じで、入力するときも、いい表現が思いつかないけど、この単語に似たようなものが欲しいということがある。この使い方が正しいと思い込んで書いているけれど、使い方が間違っていますよと教えてくれたり、自分の気が付いていないことを教えてくれたり、モヤモヤっとしたことを支援してくれるような使い方、支援するような日本語入力システムが、今後求められていくのかなと思っています。

多言語対応の重要性が高まる

小町氏 日本語の入力は日本人が使うことが多いと思いますが、英語で書いたり英語の文章を読んだりする機会も増えているので、文字入力システム(IME)は多言語対応が、これからもっと大事になると思います。IMEは我々の頭の中にある何かを引き出すもの。そして頭の中にあるのはだいたい日本語なので、その日本語を日本語として出すことが主な役割ですが、英語を書きたいときには、日本語で考えているけれど書きたいのは英語ということもよくあります。

 一番簡単なのは、日本語を書いて全部翻訳してくれることだと思いますが、完全に英語が分からないから日本語を訳してほしい場合と、英語は読んだら分かるけれど、書けないから日本語を入れて翻訳する場合もあります。翻訳された英語の表現を見たら、意図と違うから直したりして、インタラクティブに機械翻訳を使いながら英語を書くという、翻訳支援、作文支援もありえる方向の1つです。

 翻訳と日本語入力はわりと似ていて、翻訳はある言語から全然別の言語に変換するタスクですが、日本語入力はひらがなの文字列から、かな漢字混じり列に変換するタスクで、同じ言語の中での翻訳とみなすことができます。基本的には英語で書いているけれど、ここは単語が分からないので日本語で書くという場合、日本語のIMEで書くと英語の単語にしてくれるというような、ハイブリッドなIMEも需要があると思います。入力が英語、日本語どちらの言語でも、出したいものが英語だったら英文で出るとか、入力もいろんな言語があり得るような未来が待っているんじゃないかと思います。

 一方、世界には日本語を勉強している人が約400万人います。かれらは日本語ネイティブではないので、助詞や単語を間違えます。例えば「傘を差す」ことを「傘を開く」と言ってしまう。これはコロケーション、共起の誤りといわれるもので、動作としては、傘を開くのも差すのも同じです。しかし、雨を避けるために傘を使うことは「傘を開く」とはいわず「傘を差す」といわなくてはならない。文法や意味の誤りを正すことが、日本語のIMEでも今後必要になってくるでしょう。我々が英語を書くときにも同様の問題があって、英語の動詞を間違って使ってしまうことがある。正しいと思っていても、この文脈でこの動詞は間違いということがありますので、それを教えてくれたり直してくれたりする機能は必要かなと思っています。

 英語に関しては英語ネイティブの人より、非ネイティブが圧倒的に多いので、英語向けのIMEで誤りを訂正したり、自分のボキャブラリにはない適切な言葉を提案したりすることは大切だと思います。

 こういった機械翻訳や日本語入力システムは、ここ10年くらいで統計ベースになったという話を以前しましたが、その背景には、コンピューターによる処理が速くなったのと同時に、いろんな人が書いてくれたデータが電子的に手に入るようになったことがありました。特に最近では、Twitterなどリアルタイムに書き込まれるデータがありますので、それを使えば、最近検索されている言葉、つぶやかれている単語を見ることができます。こうした統計的な情報を使って、既存の変換エンジンではなかなか対応できなかったものも変換できるようになるかなと思っています。

       1|2|3|4 次のページへ

Copyright© 2016 ITmedia, Inc. All Rights Reserved.


提供:バイドゥ株式会社
アイティメディア営業企画/制作:ITmedia Mobile 編集部/掲載内容有効期限:2015年9月30日