メディア

まずはiPhoneからTwitterと連携する――音声認識技術「AmiVoice」が向かう先（1/2 ページ）

» 2009年08月27日 18時55分公開

[田中聡，ITmedia]

アドバンスト・メディアソリューション事業部技術グループモバイルプロジェクトチームチームリーダー枝連俊弘氏

　キー入力から音声入力へ――。日本唯一の音声認識専門企業アドバンスト・メディアが開発した音声認識エンジン「AmiVoice」は、入力方法の常識を覆す可能性を秘めている。それは、AmiVoiceが医療、モバイル、コールセンター、英語教育などの分野において、さまざまなパターンの単語と文章を高い精度で認識できる技術をベースに開発されていることが大きい。

　さらに、同社が音声認識を優位に展開できると考える携帯電話向けでは、パケット通信を利用した分散型音声認識技術「DSR」を開発し、劣化のない音声データによる音声認識が可能になった。これらの技術は「らくらくホンプレミアム」「らくらくホンV」「らくらくホンベーシックII」「らくらくホン6」や、iPhone向けの「音声認識メール」などで活用されている。

　アドバンスト・メディアは今後、携帯向けにどのようなサービスを展開していくのか。同社ソリューション事業部技術グループモバイルプロジェクトチームチームリーダーの枝連俊弘氏に話を聞いた。

iPhoneとらくらくホンの音声認識は違う

らくらくホンシリーズ向けの「音声入力メール」

ITmedia　御社は携帯電話向けにはいつごろから音声認識技術を採用したのでしょうか。

枝連氏　ボーダフォン（現ソフトバンクモバイル）の「702NK」に搭載したのが初めてでした。同時期にはドコモの「M1000」にも採用しました。スマートフォン以外では、富士通さんに提案をしたところ、ナビアプリを採用した「らくらくホンIV」に音声入力機能を搭載することになりました。ただし当時の音声入力は難易度が高かったため、メールには使っておらず、乗換案内の駅名入力や地図の住所入力など、検索の単語入力が主な用途でした。

　その後、2008年に発売された「らくらくホンプレミアム」で「音声入力メール」を搭載したいというリクエストをドコモさんからいただき、開発することになりました。続いて発売された「らくらくホンV」「らくらくホンベーシックII」「らくらくホン6」にも音声入力メールは使われています。

ITmedia　ドコモ向けの音声入力メールはNECやシャープ製の一部機種も対応していますが、これらの機種にもAmiVoiceが使われているのでしょうか。

枝連　ドコモさんの音声入力メールで弊社の音声認識技術を使っているのは、現在はらくらくホンシリーズのみです。音声入力メールのサービスにどの技術を選択するかは、メーカーさんの判断に委ねられています。

ITmedia　そうなると、らくらくホンの音声入力メールと、NECとSH端末の音声入力メールは精度が異なるわけですね。

枝連　そうですね。あくまで弊社の調査ですが、らくらくホンの音声入力メールの方が精度が高いという結果が出ています。

iPhone向けの「音声認識メール」。Ver1.0では音声入力した文字のコピー＆ペーストが可能になった。価格は600円だが、2010年2月1日以降は月額115円となる。ダウンロードはこちらから。コピー＆ペーストのできない無料版もある

ITmedia　iPhone向けの「音声認識メール」は、らくらくホンの音声入力メールと精度は同じなのでしょうか。

枝連　音声認識メールは、言語データベースと音声データベースをiPhone向けに特化して開発しています。iPhoneには単語の学習機能を搭載していまして、間違えて認識された後に修正した単語は2回目以降は正確に入力できるほか、アドレス帳に登録した人名も簡単に入力できます。iPhoneの方が精度が高いと感じる人は多いのではないでしょうか。

「登録単語数が多い」＝「認識率が高い」ではない

ITmedia　あらためて、AmiVoiceとDSRを採用した御社の音声認識における優位性を教えてください。

枝連　DSRの技術は標準化が進んでいるので、技術自体の優位性はなくなりつつあります。「DSRのプラットフォームを使って何ができるのか」が重要になります。ではどこで差が出るのかというと、音声認識の精度だと考えています。弊社のAmiVoiceと他社さんの音声認識エンジンの数字を取っていくと、きちんと差が出ています。

　このほか、音声認識を使ったソリューションを手がける際に、これまでのノウハウや経験を生かし、完成度の高いユーザーインタフェースを提供できることも挙げられます。「音声認識はうち（アドバンスト・メディア）がフロントランナーだ」と自負しています。

ITmedia　AmiVoiceはさまざまな抑揚や方言も認識できますね。歌いながら発した言葉も認識するというのは少し驚きました。

枝連　人間なのでいろいろな言葉の“ゆらぎ”がありますが、AmiVoiceはそのゆらぎを追従できます。測定しにくい部分ではありますが、高い評価をいただいています。

ITmedia　老若男女、幅広いユーザーを網羅しているわけですね。

枝連　技術者として厳密に言うと、漏れる部分はあります。100％ではないけれど、統計的に処理したときに優位性があるということです。電子カルテの場合、北海道のお医者さんも沖縄のお医者さんも医学用語に方言が反映されることはありませんが、メールには幅広い方言が用いられるので、追従する必要があります。

　ではどこまでカバーしているのかというと、関西弁については多くの言葉を辞書に登録しています。じゃあ博多弁、青森の奥地の方言はどうなんだと言われると、すべてはカバーできていないのが実情です。今あるデータの中できちんと対応しているということです。

ITmedia　音声認識のデータベースに登録されている単語はどれくらいあるのでしょうか。

枝連　データベースの数はサービスによって異なります。ナビアプリのランドマーク名は約20万単語、駅名は日本全国の1万弱をカバーしています。メールで使われる単語はこれらの間くらいでしょうか。ただし、単語数が多いからといって必ずしも認識率が高いわけではありません。

　単語数が多いとカバーする領域が広くなるので、必要のない範囲まで探すようになり、（似たような言葉を検出するなど）かえって認識精度が落ちることがあるんです。一概に数字は出せませんが、認識精度を上げるための最適な単語数というものがあります。

　一般の成人男性がメールで使う単語は2万語ほどと言われていますが、その中で使う言葉は人によって違うわけです。その人ごとに辞書を作ってあげるのが理想的ですね。それがiPhoneの音声認識メールに搭載している学習機能です。

学習機能＋音声認識が1つの理想形

ITmedia　iPhone以外の携帯電話の音声入力メールに学習機能を搭載するのは難しいのでしょうか。

枝連　技術的には可能ですが、らくらくホンの場合はドコモさんの意向なども関係してくるため、現状では採用していません。

ITmedia　学習機能を備えた音声認識が、1つの理想形といえるのでしょうか。

枝連　そうですね。よく人間に置き換えて考えているのですが、祖父母や子どもの話し言葉は、親族にしか聞き取れないことが多いですよね。あれは子どもが話す短縮語の意味を知っている言語データベースと、子どもが話す音のクセを（親族が）知らないうちに学習しているからなんです。音声認識もそういった機能がないと、万人には使ってもらえないでしょう。人間の脳と同じように認識できることが今後の目標ですね。

ITmedia　iPhoneの音声認識メールの学習能力も、まだ精度を上げる余地はあるのでしょうか。

枝連　あります。まずベースとなる音声認識そのものと、学習機能という2点を向上できると考えています。今のところ音声認識メールが学習するのは言語のみですが、音響を学習する仕組みもいずれは入れたいですね。

ITmedia　音響の学習とはどんなものでしょうか。

枝連　「あ」「さ」などその人が発する声の特性を学習することで、イントネーションや発音の強弱も含まれます。音響の学習はほかの分野では採用していますが、携帯電話向けには「単語」と「単語のつながり」の学習にとどめています。

Twitter連携機能も提供する

　　　　　　 1|2 次のページへ

SpecialPR

アクセストップ10

2024年04月19日更新

「楽天ペイ」「楽天ポイントカード」「楽天Edy」アプリを統合　“史上最大級のキャンペーン”も実施（2024年04月18日）
「ポケモンGO」でアバターの髪形や体形を変更可能に　早速試してみた率直な感想（2024年04月18日）
「改正NTT法」が国会で成立　KDDI、ソフトバンク、楽天モバイルが「強い懸念」表明（2024年04月17日）
新たな縦折りスマホがDOOGEEから登場　タフネスの次は折りたたみだ（2024年04月18日）
最新のXperia発表か　ソニーが「Xperia SPECIAL EVENT 2024」を5月17日に開催（2024年04月17日）
通話翻訳や文字起こしの「Galaxy AI」、2年前のスマホ「Galaxy S22」「Galaxy Z Flip4／Z Fold4」にも搭載　One UI 6.1へのアップデートで（2024年04月18日）
楽天モバイル、関東地方の5Gエリアを2024年内に最大1.6倍拡大へ　衛星通信の干渉条件緩和により（2024年04月18日）
Suicaグリーン券の購入方法　切符と比べてお得？：モバイルSuica活用術（2024年04月18日）
Back Marketの「リファービッシュ製品」が中古と違うワケ　売れ筋はiPhone 13、バッテリー“100％保証”の計画も（2024年04月17日）
MVNOが成長するのに“足りていないこと”　「格安スマホ」激動の10年を振り返りながら議論（2024年04月19日）

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。