中の人に直撃! これで解決「Simeji」の疑問(1/3 ページ)

合計1200万ダウンロードを誇るスマホ向け日本語入力アプリ「Simeji」。高い人気とは別に、「情報が海外に流出しているのでは?」という疑いの声も多い。そこで今回は、中の人を直撃してその疑問に答えてもらった。

» 2014年12月22日 10時00分 公開
[佐野正弘PR/ITmedia]
PR

 バイドゥが提供する日本語入力システム「Simeji」は、2007年11月にAndroid版がリリースされ、現在1000万ダウンロードを突破。9月にリリースされたばかりのiOS版もすでに200万ダウンロードを達成し、App Storeの「BEST OF 2014」にも選出された人気アプリだ。

photo Android版Simejiの設定画面

 Simejiは、Androidに満足な日本語入力環境がなかった黎明期に登場した国産アプリであること、また辞書に登録されている顔文字や絵文字、アスキーアートの種類が豊富なことから、人気を博している。

 しかし2013年、Simejiで入力した情報がユーザーの許可なくサーバーに送信されるという不具合が見つかった。現在は修正され、クラウド変換機能は初期状態でオフになり、ユーザーが許可した場合のみデータが送信されることになっている。だが、未だSimejiに対して懸念を払拭できないユーザーが存在するのも事実だ。

 Simejiにおいて、そもそもデータはどのように送信され、活用されているのだろうか。また、バイドゥはユーザーの不安に対してどのように対応し、懸念を払拭しようとしているのか? 佐野正弘氏とITmedia mobile編集部が、Simejiの開発とマーケティングを担当しているバイドゥ プロダクト事業部でプロダクトマーケティングマネージャーを勤める高部幹人氏と、同 プロダクトデザイナーの加藤昌範氏を直撃。Simejiにまつわる疑問をぶつけてみた。

クラウド変換機能でより趣味嗜好に合った変換が可能

――(聞き手、ITmedia) まず、iOS版、Android版含め、Simejiの概要についてお聞きします。日本語入力アプリ、IME、FEP(front‐end processor)ともいわれますが、これをSimejiに変えるとどういったメリットがあるのでしょうか。

バイドゥ 高部幹人氏(以下、高部氏) モバイル向けのFEPといえば、フィーチャーフォンでは組み込みで提供されてきました。当時はユーザー辞書に変換候補を追加することはできましたが、日本語入力システム全体を変えることはできませんでした。

photo 高部氏

 その後登場したAndroid標準の日本語入力システムは、不特定大多数母体をターゲットにしているので、あまり特色がなく、教科書的な無難変換が主体だと思います。一方のSimejiは、主に若い人を対象に、SNS上で使いやすく、受けが狙えるような顔文字やアスキーアートなどが充実していて、趣味嗜好に合った体験ができる点が特徴です。おかげ様でAndroid版は1000万ダウンロードを突破し、iOSも1か月で200万以上ダウンロードされました。こういった日本語入力システムにニーズがあると認識させていただいています。

佐野正弘氏(以下、佐野氏) ユーザーから「Simeji先輩」という言葉も生まれるほどで、若い人たちに受けている印象はありますが、一方で過去の不具合などからSimejiに対する不安感を少なからず持っている人もいると思います。提供側として、ユーザーはどういったところをネガティブに感じていると認識していますか。

高部氏 実は、主要なユーザーさんから「心配だ」という声はあまりいただいていません。懸念を示されているのは、実際にはSimejiを使っていない方や、アプリのセキュリティやログの送信などに敏感な方々、という印象です。

 そうしたご意見やご指摘をみていくと、文字入力という重要な部分をつかさどるFEPという性格上、サードパーティがそれを提供できるようになったことで、厳しく見られているという印象があります。

 入力した内容が秘匿性を担保されているのか、情報が漏れていることはないのかという部分がポイントだと感じています。そういう面で懸念を持たせてしまった――という意識はあります。少しでも「安心感」をもってご利用していただけるよう、既存の技術で最大限、配慮しています。

入力したデータは暗号化されIDとの紐付けもなし

佐野氏 クラウド変換で入力した情報を使っている以上、入力した情報が不正に利用されるのではないか、個人情報を盗られるのではないかという懸念が一番強いと思います。クラウド変換の仕組みはどのように実装されているのでしょうか。

photo Simejiのクラウド超変換

高部氏 変換候補を出すには、データベースを引くのと同じで、インデックスに対して何かしらキーを引かなくてはいけません。単純にいうと、Simejiの場合は「読み」に対して表記を引っ張ってきます。実際には、読みのクエリワード(検索キーワード)みたいなものをサーバーに送信する形です。それも平文では投げずに、文字コード化して暗号化したものを問い合わせています。それに対する戻り値として、変換候補(表記候補)が返ってきます。

佐野氏 Simejiアプリが暗号化して送っているという形ですか。

高部氏 そうです。手順としては単純に読みだけ送っていて、一連の処理に対して、その都度候補が返ってくるという形です。だから入力された文章の再現性はないですし、あくまでもクエリの処理だけですから保存もしていません。なお、クラウド変換に関しては、https通信で行っています。

佐野氏 ログも取っていないのですか。

高部氏 クラウド変換を利用している際は、取得していません。

佐野氏 ログを取るのはどういった場合ですか。

高部氏 我々では、当社製品が活用する変換用辞書を作成していて、最新のホットワードを追加したりメンテナンスをしたりしています。その検証のためにログを活用しています。自然言語処理の方法としては通常のことですが、この他、実際の変換の形態素や誤りのパターンなどを統計的に分析し、変換精度の向上目的で活用しています。Simejiの設定に、ログを送信してアプリの改善に協力してくださることをOKするボタンがあります。OKしていただいた方に関しては、入力した読みと変換のセット、統計的なデータを送っていただくことになっています。でも、そこでもUIDは一切紐付けていません。この読みを入力した発生率などのデータを取っています。このデータによって、サーバー上で、辞書が一般ユーザーの内容にフィットしているか、当社で分散自然言語処理をする中で、作成するシソーラスや各種辞書構造化データ、また、形態素(意味を持つ言葉の最小単位)などが正しく構成されているか、また誤り変換などが減り、精度が期待通り向上されているかを検証します。

佐野氏 インデックスを引くときは、暗号化してUID(識別子)も付けず、ログも一切取らない。ユーザーがログの送信をOKした場合に関しては、体系的にデータを分析するのに利用するということですね。

高部氏 入力した内容を全部もらうわけではなく、入力した内容に関する回数などを送っています。当然、そこには、平文の読みも入りますが、内部処理的には、数字が入っている場合は、ローカルのログには残しません。単純にひらがなの読み、形態素レベルと関係するところだけを取っています。

佐野氏 ユーザーがログの送信をオン/オフすることで1つ担保しているんですね。

高部氏 利用規約の確認と設定画面でログの送信に協力していただける方はチェックしていただきます。元来、話言葉や口語風な書き言葉は、ある程度のスパンで変容する傾向があります。サービスの品質を維持するためには実データによるアルゴリズムチェックが必要になりますので、メンテナンスのためのデータという感じです。

佐野氏 送られたデータは自動で解析するのですか。

高部氏 基本は自動解析です。異常値がある場合は、日本で加藤のような確認担当者が入ってどこの精度が悪いかを分析し、アルゴリズムをアップデートしてバージョンアップします。

佐野氏 ユーザーから送られたデータによって、変換候補が変わったり正しくなったりした事例はあるのでしょうか。

バイドゥ 加藤昌範氏(以下、加藤氏) 「心を痛める」と「野菜を炒める」などの違いみたいなものができているはずです。あとは、ホットワードで最近出てきている言葉にいち早く対応できます。

photo 加藤氏

 たとえば、アニメやライトノベルだと、それらのヒロインや学校の名前は当て字が多く変換が難しい。その辺のクラウドのインプットと、誤り変換ですね。アルゴリズムで誤り変換の条件があるのですが、それがあった場合はログに残します。そうすると、同じ名前が出たときに、これはアニメのヒロインだと判別する。そうすると、ユーザーは自分の好きなこのヒロインの名前を打ち込むと、一発で候補に出るんですね。そういう使い方をさせていただいています。

高部氏 この例は、誤り変換と入力フェーズの発生率の取得です。たとえばアニメの放送が決まって、リリースが出た瞬間に一気にある名前がホットワードに上がってきた。そうするとクラウドのランキングスコアに関しては、コンピューティングで計算するのですが、その順位を上げるべきか検討します。上がってきたらアニメのヒロインだろうから、クラウドの上位に上げた方がユーザーの利便性が上がります。そんな事例が多いですね。

 また、もう1つ、クラウドに関しては使っているアプリの情報も送ります。たとえばLINEとメールでは、上位に上げる変換候補を若干、変えています。LINEの場合は顔文字や表記文字、若い人が好きなものが上位にあります。クラウドについてはそんなメリットがあります。この件も規約上に明記させていただいています。

 今のスマートフォンはPCとほとんど同じCPUが入っていますので、かなり処理能力が高く、日本語入力にもさまざまな機能を持たせられます。しかしアプリをダウンロードすることを考えると、そのサイズは10Mバイトくらいに抑えたい。だからクラウド処理で機能を追加しています。現在のクラウドですと、コンマ何秒で候補やスコアを出せます。クラウドには、コンピューティングパワーという要素と膨大なライブラリを使えるという要素の2つのメリットがあります。コンピューティングとライブラリを使えるので、利用するアプリによる候補変動もクラウドのコンピューティングでできるようになっています。ローカル(端末内のアプリ)にはそういう処理は実装していません。

―― クラウドを利用するとなると、送ったデータが国外に出ているんじゃないか、日本語入力以外に使われているんじゃないか、という疑問が一部にはあるようです。名簿業者に個人情報を売っているんじゃないかといったレベルの疑問もSNSなどではよく見かけます。本当のところはどうなんでしょうか。

高部氏 それは一切ないです。サーバーは国内のサーバーをSimeji専用に使っています。今は日本の企業であっても、データセンターコストの安い香港や中国の深セン、ベトナムなどのIDCでサーバーコストを下げて運用している企業も多いと聞いていますが、当社は日本のプロダクトに関しては日本支社の采配で国内のデータセンターを使っています。ですからSimejiのデータは基本的に海外には出ません。一部、音声入力や拡張パッケージを運用していますので、そこは香港などの安価なiDC(Internet Data Center)を借りて運用しています。ただ、FEPのコア部分のデータの取得、クラウドやアルゴリズムチェックのための統計データは、全部日本国内のサーバーです。中国のサーバーに情報は送られていません。名簿業者に売ることもありません。そもそもSimejiにはアカウントシステムがありませんので名簿情報は取れません。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.


提供:バイドゥ株式会社
アイティメディア営業企画/制作:ITmedia Mobile 編集部/掲載内容有効期限:2015年1月31日

関連リンク