メディア

「競合よりも高精度」の調査結果　Simejiの音声入力、その裏で行われていること

» 2018年10月30日 06時00分公開

　バイドゥは、日本語入力アプリ「Simeji」で音声入力機能を提供している。同社の音声入力にはAIを取り入れており、文中に句読点を自動で配置したり、入力した文字に合った顔文字を予測したりできる。音声入力で重要なのは「いかに正確に入力できるか」だ。キーを打つよりは当然素早いが、話した言葉と大きく違う言葉が入力されていては意味がない。

　そんな折、バイドゥがSimejiを含む3つの音声入力の精度を、調査会社のマクロミルに依頼して調べてもらったところ、Simejiが他の2サービスよりも正確に入力できることが分かったという。調査対象は15～59歳の、iPhoneやAndroidを利用している男女163人。調査期間は2018年6月23日～24日。

Simejiと、他2つの競合サービスで実施した、音声入力のテスト結果。Simejiは、特に若者言葉と留守番電話のメッセージの精度が優れているという結果になった

性別と年代別の結果。精度について男女差はあまりなく、年代では40代～50代は「修正は不要」と判断した人が多かった

中国語の学習モデルを転用

　日本語の音声入力では、バイドゥ本社が保有する中国語の学習モデルを日本語に転用している。バイドゥプロダクト事業部部長の矢野りん氏は、「中国で先に音声認識サービスを始めたことで、教師データを入手できるようになりました。中国語にはたくさんの方言がありますし、さまざまな環境で意図をくみ取ってテキストに変換しています。こうして中国語によって鍛えられたモデルを転移学習によって日本語にも適用したことが、基本的な技術の成り立ちです」と説明する。

バイドゥプロダクト事業部部長の矢野りん氏

　Simejiでは2017年6月から音声入力が利用可能になっているが、サービスイン前は語学研究所から会話のデータを購入して、転移学習方式で適用して精度を上げていったという。サービスイン後は、ユーザーが実際に音声入力したデータをもとに改善に取り組んでいる。Simejiの日本語入力は、2017年に1回、2018年に2回にわたり精度を改善。これで「やっと他の会社とも肩を並べられる」（矢野氏）レベルになったという。

Simejiの音声入力では、句読点も、文脈に即して自動で入れてくれる

数千時間にわたって音声データを分析

　気になったのは、精度を上げるために具体的に何をしているのかということ。矢野氏は「人間が話した言葉が恐らくこう聞こえるだろうという『アノテーション』という作業を、外部の業者にお願いしています。このアノテーションが済んだデータを開発側で処理をして変換の改善に当てています」と説明する。

　アノテーションとは「注釈付け」のこと。Simejiでは、プライバシーポリシーの一つとして、音声入力の改善のために、ユーザーが入力する際に発した音声のデータを収集している。アノテーションでは、この音声データを再生し、どの言葉に変換するのがふさわしいかを類推している。

　さらに、文字入力中に起動していたアプリの情報も取得しており（これもプライバシーポリシーで定められている）、例えばゲームアプリを起動していたときに入力した言葉で、いかにもキャラクター名やアイテム名のようなものだったら、それらを正解として類推する。例えば「ひとかげ」という言葉。そのまま変換すると「人影」だが、同時に「Pokemon GO」アプリを起動していたら、ポケモンの一種である「ヒトカゲ」を変換するという具合だ。

「Pokemon GO」のアプリ上で「ヒトカゲ」を一発で変換できた

　社内には「次にこれくらい改善するためには、これくらいのアノテーションが必要だ」というノルマがあるそうで、音声データの再生時間は数千時間にも及ぶという。何とも気の遠くなりそうな作業量だ。矢野氏もアノテーションの作業をしたことがあるそうだが、「めちゃくちゃ大変です」と漏らす。

　音声データはセンシティブな情報なので、外部に漏れないよう、作業環境やデータを厳重に管理している。「皆さん気になっているところだと思いますが」と矢野氏は前置きした上で、アノテーション後の音声データは、作業が終わった段階でサーバから消しているという。

　ちなみにSimejiの音声入力は、現状だと（音声データを提供するという）プライバシーポリシーに同意しないと使えないようになっている。同意せずとも音声入力を使うことは「技術的には可能」（矢野氏）だが、精度の改善スピードが落ちてしまうため、今はデータの提供を必須としている。

　先述の調査結果では、留守番電話でのやりとりや、若者言葉の認識精度が、他のサービスよりも特に高いという結果が出た。実際にテストした若者言葉は「アピってくる！」「勉強ガチる」「草生えるwww」など。これは、Simejiのユーザーは「10代が中心」（矢野氏）というように、そもそも若者が多く使っているということから、若者言葉を多数アノテーションしているためだと思われる。

音声入力でテストしたフレーズ例。フォーマルなやりとりから緩い若者言葉まで幅広い

ゆくゆくは議事録が作成できるレベルにしたい

　他に、Simejiの音声入力では、小さい声で話した言葉も認識しやすくなっているという。「『ばか野郎』とかひそひそ声で言っても、他のサービスと比較しても、よく変換できていると感じました」と矢野氏は述べる。ちなみに、中国語では騒音のある場所でも音声入力の精度は高いそうだが、日本語では「まだそこまでの精度ではない」（矢野氏）とのこと。

　一方、音声入力が苦手とする分野もある。その一つが方言。Simejiの音声入力は標準語をベースに開発されており、方言に特化したチューニングは現在のところ行っていない。固有名詞の変換も苦手とする部分で、矢野氏が使った感覚として、意図した通りに変換するのはムラがあるそうだ。「機会」と「機械」などの同音異義語も、起動しているアプリから類推することはできるが、例えばチャットアプリで相手が何を話したいかを絞り込むのは難しい。このあたりは、機械学習によって、使うほどに改善されることに期待したい。

　精度改善のためには、音声入力の利用頻度を上げていくことも重要だ。中国語では音声入力の頻度は特に高く、1日3.3億以上のリクエストが来るという。対して日本ではまだ「めちゃくちゃ少ない」（矢野氏）のが現状で、Simejiユーザーの8％ほどしか音声入力を使っていないという。いかに音声入力の便利さを伝えていくかも課題といえる。

　現在、Simejiの音声入力で一度に聞き取れるのは60秒までだが、こうした上限をなくし、「議事録が勝手にとれるレベルまで進化させたい」と矢野氏は意気込む。これは話す長さだけでなく、複数の人間が話した内容を識別することも重要になる。もちろんそこまでの精度に高めるのは非常に難易度が高いが、「声紋まで認識できるようになれば、使い物になるんじゃないかと思います」と矢野氏。Simejiの音声入力がどこまで進化するのか、注目したい。

AIによる音声入力機能を「Simeji」に提供　顔文字をレコメンド、句読点も自動で
バイドゥが、日本語入力アプリ「Simeji」に音声入力機能を提供。バイドゥのAI技術を活用しており、自動で句読点を入れてくれる。顔文字の変換にも対応している。
機械と対話できる日は来るのか　アドバンスト・メディアに聞く、音声認識の課題と可能性
「音声認識」がクローズアップされることが増えた。音声認識が主な操作法であるスマートスピーカーやロボットも登場している。では、現在の音声認識技術は、どのレベルまで到達しているのか。アドバンスト・メディアに話を聞いた。
PC連携で文字検索も可能　音声入力メモアプリ「AmiVoice iVoX Personal」iOS版が登場
アドバンスト・メディアは、1月11日に音声入力メモアプリ「AmiVoice iVoX Personal」のiOS版を配信開始した。最新の音声認識エンジンにより高い認識率を誇り、スマートフォンとPCで音声・文字・写真データの連携管理が行える。
「文字検索は面倒」も「人前での音声検索は恥ずかしい」が約7割　KDDIの音声操作に対する意識調査
KDDIは「日本人の音声操作に対する意識調査2017」の結果を発表。文字入力による検索は半数近くが「面倒」と回答するも、音声でのインターネット検索を人前で行うのは「恥ずかしい」が7割を超えている。
通話音声をテキスト化する「おはなしメモ」、ドコモがトライアルで提供
NTTドコモは、通話音声の内容をテキスト化して保存できる「おはなしメモ」のトライアルサービスを提供開始。データはスマートフォン内の保存をはじめ、アプリと共有することもできる。

アクセストップ10

2026年07月06日更新

WAON POINTやAEON Payのキャンペーンまとめ【7月4日最新版】　ポイント20％還元や30倍増額など盛りだくさん（2026年07月04日）
UQ mobile「コミコミプランバリュー」にクレカ割を導入したワケ　背景にahamoとY!mobileの“板挟み”も（2026年07月04日）
エディオンら、携帯契約時に義務違反　総務省が発表　NTTドコモにも行政指導（2026年07月03日）
ソフトバンクが「今回もやる」とGalaxy S26を月額1円で販売――販売方法を早急に見直さないと撤退を迫られるメーカーも（2026年03月08日）
Suica、JRE POINTのキャンペーンまとめ【7月5日最新版】　最大1万ポイント還元や新幹線35％オフなど（2026年07月05日）
JR東日本「分かりにくい」新幹線券売機を改善へ　なぜ、スマホではなく「駅での最短1分購入」を実現？（2026年07月04日）
楽天ペイと楽天ポイントのキャンペーンまとめ【7月3日最新版】　「超トク還元祭」で高額ポイントゲット（2026年07月03日）
転売屋によるスマホ回線の「短期解約」「ホッピング」　総務省の検討する対策は十分なのか？　店員からの意見（2026年07月03日）
インフルエンサー戦争が熱い、中国スマホ4社「ミドルハイ」春秋決戦（2026年07月05日）
「iPhone 17e」と「iPhone 17」どちらが買いか？　2機種を使い込んで分かった“スペック表にない違い” （2026年04月29日）

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2026年

2025年

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。

「競合よりも高精度」の調査結果　Simejiの音声入力、その裏で行われていること

中国語の学習モデルを転用

数千時間にわたって音声データを分析

ゆくゆくは議事録が作成できるレベルにしたい

関連記事

関連リンク

アクセストップ10

過去記事カレンダー

2026年

2025年

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

「競合よりも高精度」の調査結果 Simejiの音声入力、その裏で行われていること

中国語の学習モデルを転用

数千時間にわたって音声データを分析

ゆくゆくは議事録が作成できるレベルにしたい

関連記事

関連リンク

アクセストップ10

過去記事カレンダー

2026年

2025年

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

「競合よりも高精度」の調査結果　Simejiの音声入力、その裏で行われていること