インタビュー
» 2018年10月30日 06時00分 公開

「競合よりも高精度」の調査結果 Simejiの音声入力、その裏で行われていること

マクロミルの調査によると、3つの音声入力サービスで、Simejiが最も高精度だという結果が出た。特に若者言葉と留守番電話のメッセージの精度が優れているという。その秘密はどこにあるのか? バイドゥの矢野りん氏に聞いた。

[田中聡,ITmedia]

 バイドゥは、日本語入力アプリ「Simeji」で音声入力機能を提供している。同社の音声入力にはAIを取り入れており、文中に句読点を自動で配置したり、入力した文字に合った顔文字を予測したりできる。音声入力で重要なのは「いかに正確に入力できるか」だ。キーを打つよりは当然素早いが、話した言葉と大きく違う言葉が入力されていては意味がない。

 そんな折、バイドゥがSimejiを含む3つの音声入力の精度を、調査会社のマクロミルに依頼して調べてもらったところ、Simejiが他の2サービスよりも正確に入力できることが分かったという。調査対象は15〜59歳の、iPhoneやAndroidを利用している男女163人。調査期間は2018年6月23日〜24日。

Simeji Simejiと、他2つの競合サービスで実施した、音声入力のテスト結果。Simejiは、特に若者言葉と留守番電話のメッセージの精度が優れているという結果になった
Simeji 性別と年代別の結果。精度について男女差はあまりなく、年代では40代〜50代は「修正は不要」と判断した人が多かった

中国語の学習モデルを転用

 日本語の音声入力では、バイドゥ本社が保有する中国語の学習モデルを日本語に転用している。バイドゥ プロダクト事業部 部長の矢野りん氏は、「中国で先に音声認識サービスを始めたことで、教師データを入手できるようになりました。中国語にはたくさんの方言がありますし、さまざまな環境で意図をくみ取ってテキストに変換しています。こうして中国語によって鍛えられたモデルを転移学習によって日本語にも適用したことが、基本的な技術の成り立ちです」と説明する。

Simeji バイドゥ プロダクト事業部 部長の矢野りん氏

 Simejiでは2017年6月から音声入力が利用可能になっているが、サービスイン前は語学研究所から会話のデータを購入して、転移学習方式で適用して精度を上げていったという。サービスイン後は、ユーザーが実際に音声入力したデータをもとに改善に取り組んでいる。Simejiの日本語入力は、2017年に1回、2018年に2回にわたり精度を改善。これで「やっと他の会社とも肩を並べられる」(矢野氏)レベルになったという。

Simeji Simejiの音声入力では、句読点も、文脈に即して自動で入れてくれる

数千時間にわたって音声データを分析

 気になったのは、精度を上げるために具体的に何をしているのかということ。矢野氏は「人間が話した言葉が恐らくこう聞こえるだろうという『アノテーション』という作業を、外部の業者にお願いしています。このアノテーションが済んだデータを開発側で処理をして変換の改善に当てています」と説明する。

 アノテーションとは「注釈付け」のこと。Simejiでは、プライバシーポリシーの一つとして、音声入力の改善のために、ユーザーが入力する際に発した音声のデータを収集している。アノテーションでは、この音声データを再生し、どの言葉に変換するのがふさわしいかを類推している。

 さらに、文字入力中に起動していたアプリの情報も取得しており(これもプライバシーポリシーで定められている)、例えばゲームアプリを起動していたときに入力した言葉で、いかにもキャラクター名やアイテム名のようなものだったら、それらを正解として類推する。例えば「ひとかげ」という言葉。そのまま変換すると「人影」だが、同時に「Pokemon GO」アプリを起動していたら、ポケモンの一種である「ヒトカゲ」を変換するという具合だ。

Simeji 「Pokemon GO」のアプリ上で「ヒトカゲ」を一発で変換できた

 社内には「次にこれくらい改善するためには、これくらいのアノテーションが必要だ」というノルマがあるそうで、音声データの再生時間は数千時間にも及ぶという。何とも気の遠くなりそうな作業量だ。矢野氏もアノテーションの作業をしたことがあるそうだが、「めちゃくちゃ大変です」と漏らす。

 音声データはセンシティブな情報なので、外部に漏れないよう、作業環境やデータを厳重に管理している。「皆さん気になっているところだと思いますが」と矢野氏は前置きした上で、アノテーション後の音声データは、作業が終わった段階でサーバから消しているという。

 ちなみにSimejiの音声入力は、現状だと(音声データを提供するという)プライバシーポリシーに同意しないと使えないようになっている。同意せずとも音声入力を使うことは「技術的には可能」(矢野氏)だが、精度の改善スピードが落ちてしまうため、今はデータの提供を必須としている。

 先述の調査結果では、留守番電話でのやりとりや、若者言葉の認識精度が、他のサービスよりも特に高いという結果が出た。実際にテストした若者言葉は「アピってくる!」「勉強ガチる」「草生えるwww」など。これは、Simejiのユーザーは「10代が中心」(矢野氏)というように、そもそも若者が多く使っているということから、若者言葉を多数アノテーションしているためだと思われる。

Simeji 音声入力でテストしたフレーズ例。フォーマルなやりとりから緩い若者言葉まで幅広い

ゆくゆくは議事録が作成できるレベルにしたい

 他に、Simejiの音声入力では、小さい声で話した言葉も認識しやすくなっているという。「『ばか野郎』とかひそひそ声で言っても、他のサービスと比較しても、よく変換できていると感じました」と矢野氏は述べる。ちなみに、中国語では騒音のある場所でも音声入力の精度は高いそうだが、日本語では「まだそこまでの精度ではない」(矢野氏)とのこと。

 一方、音声入力が苦手とする分野もある。その一つが方言。Simejiの音声入力は標準語をベースに開発されており、方言に特化したチューニングは現在のところ行っていない。固有名詞の変換も苦手とする部分で、矢野氏が使った感覚として、意図した通りに変換するのはムラがあるそうだ。「機会」と「機械」などの同音異義語も、起動しているアプリから類推することはできるが、例えばチャットアプリで相手が何を話したいかを絞り込むのは難しい。このあたりは、機械学習によって、使うほどに改善されることに期待したい。

 精度改善のためには、音声入力の利用頻度を上げていくことも重要だ。中国語では音声入力の頻度は特に高く、1日3.3億以上のリクエストが来るという。対して日本ではまだ「めちゃくちゃ少ない」(矢野氏)のが現状で、Simejiユーザーの8%ほどしか音声入力を使っていないという。いかに音声入力の便利さを伝えていくかも課題といえる。

 現在、Simejiの音声入力で一度に聞き取れるのは60秒までだが、こうした上限をなくし、「議事録が勝手にとれるレベルまで進化させたい」と矢野氏は意気込む。これは話す長さだけでなく、複数の人間が話した内容を識別することも重要になる。もちろんそこまでの精度に高めるのは非常に難易度が高いが、「声紋まで認識できるようになれば、使い物になるんじゃないかと思います」と矢野氏。Simejiの音声入力がどこまで進化するのか、注目したい。

Copyright © ITmedia, Inc. All Rights Reserved.

この記事が気に入ったら
ITmedia Mobile に「いいね!」しよう