スマホやPCはどのように“言葉”を扱っているのか?――「Simeji」の日本語入力システム入門クラウド辞書とキラキラネームの関係とは?(4/4 ページ)

» 2015年04月23日 10時00分 公開
[PR/ITmedia]
PR
前のページへ 1|2|3|4       

ネットとスマホで日本語がみんなのものに Simejiはどう進化する?

小町氏 昔は文を書くのはプロだけでした。それこそ平安時代だったら男性貴族は公的な書類を漢文で書いていた、女性を中心とした宮廷文学はひらがなで書かれていた、ということから来ると思います。ひらがなは崩した漢字の読みですから、元を正せば日本語は当て字文化だと思います。

 戦後も世の中に出回っていた文章は新聞記者や作家が書いていたように、基本的にはプロが書いていたと思いますね。最近はインターネットがすごく使われるようになって、一般の人も誰かの目に触れる文章を書くようになりました。それで、氷山の、これまで見えていなかった水の下の部分に、多様な表現がいっぱいあったのが明らかになったと思います。

 例えば、過去には「夜露死苦」みたいな暴走族言葉があったと思いますが、これまではマイナーだったのが世の中に出てくるようになって、見えてきたのかなと思います。ゲームの必殺技の名前やアニメの人物なんかは、架空のものなので、ありえないような読み方を付けることに関する抵抗は低かった。創作の世界から垣根がどんどん低くなっていて、今ではリアルな世界でも初見では読みが分からない名前を付ける人が増えています。

加藤氏 夜露死苦とか、たぶん使う人はほんのちょっとですよね。ネタで使うかもしれない(笑)。日本語入力で出てこなきゃわざわざ登録しないけど、出てくれば使うかもしれない。

 一部のユーザーだけが使う当て字みたいなものは、ノイズと感じるユーザーも居ますから、日本語入力システムには出ないモードを用意する必要もあると思います。また単漢字変換もすべて出てきちゃうと、今度は多すぎて選べない。例えば、「こう」や「しょう」と読む単漢字は200くらいあります。それから正しい漢字を選べるかといったら、200もあったらよほどじゃない限り選ばないですよね。あまりありすぎてもよくないですが、人によって的確なものがトップに出てくるようにチューニングしていきたいですね。

 Simejiの場合、流行っている言葉とか、誰かが使っていて“ぴぴっと”くる言葉をチェックしています。もちろん、(みんなの辞書に)申請されてくるのもあります。

 言葉の使い方にも注目しています。普通の文章だと使わないのに、SNSのTwitterだと結構使う言葉もある。上司へのメールとTwitterのつぶやきでは、言葉使いが変わります。こうしたシチュエーションに合わせて、言葉(言語モデル)や文(かな漢字モデル)のコストを変化させることもできると思います。ユーザーに合った文字入力をするには学習が必要ですし、クラウドで新しい言葉をどんどん追加していく必要があります。

小町氏 新語が常にあるので、これはメンテし続けるしかありません。とくに漢字の新しい読みを知らないと、どうしようもない。これがこれからの日本語入力システムの変換をつかさどる重要な要素になると思います。

photo

加藤氏 新しいものを作るためには、ログも残しておいて解析していくというような感じですね。アプリケーションによって、どういう変換をしているのかも変わってくると思うので、そういうところはこれからも、いろんなツールでやっていくのかなと思います。

 例えばカーナビアプリでの文字入力なら、地名以外はおおむねいらないですね。それだったら、地名重視の辞書に勝手に切り替わると便利です。アプリだと、最近はオークションアプリとか、ECサイト専用のアプリがありますが、そういうものだと季節によって売れるものが変わってくる。すると売れ筋製品も変わりますから、その方が使いやすいですよね。ここでは言語モデルはあまり関係なくなるかもしれませんね。

小町氏 それぞれをどういう風に作るのかが、各社の製品の違いに反映されているのだと思います。検索エンジン作っている会社だったら、今、検索でどういう単語が検索されているのか、という情報を持っているので、それを使うこともできます。どういうデータを自分たちが持っていて、どこに自分たちのエンジニアリング、開発リソースを投入して、特徴を出していきたいのかということで、色々異なってくるところだと思います。



前のページへ 1|2|3|4       

Copyright © ITmedia, Inc. All Rights Reserved.


提供:バイドゥ株式会社
アイティメディア営業企画/制作:ITmedia Mobile 編集部/掲載内容有効期限:2015年5月22日

関連リンク