携帯電話のセンサーとGoogleのクラウドが融合――「Google音声検索」

» 2009年12月07日 19時40分 公開
[田中聡,ITmedia]
photo グーグルモバイル担当プロダクトマネージャー 井上陸氏は「Google音声検索を一言で表すと、携帯電話のマイクを、言葉を理解する耳にするもの」と説明する

 グーグルは12月7日、携帯電話から音声入力でGoogle検索ができる「Google音声検索」を発表した。対応機種はAndroid端末とiPhone(2009年12月7日現在)。Android端末は「音声検索」アプリから、iPhoneは「Google Mobile App」から利用できる。利用料金は無料(パケット通信料を除く)。

 Google音声検索では、音声入力でキーワード検索ができるのはもちろん、GPS機能とGoogleマップを利用し、入力した住所の地図表示や、現在地付近の店舗やスポット検索、ルート案内なども可能。乗換案内や画像・動画検索にも対応している。乗換案内は最寄り駅から目的の駅までの経路を調べられるほか、例えば「渋谷から池袋 終電」と入力すれば、渋谷から池袋まで運行している最終電車の時刻も分かる。「宇宙から見た日本の夜景の写真」といった細かい指定もでき、YouTubeに投稿された動画も簡単に調べられる。

 “YouTube”などアルファベットの単語は“ユーチューブ”などカタカナではなくアルファベットで認識される。アーティスト名や作品名なども同様だ。また、北海道の音威子府村(おといねっぷむら)など難読の地名も認識する。

photophotophotophoto iPhoneでは「Google Mobile App」の「設定」→「音声検索」をオンにする必要がある(写真=左端)。検索画面右上の「音声検索」をタップしてから発声する(写真=左中、右中)。言い間違えたときなどは途中でキャンセルできる(写真=右端)
photophotophotophoto 「大手町のラーメン屋」で検索(写真=左端)。固有名詞や早口言葉も検索できた(写真=左中、右中、右端)
photophotophoto 発表会では「HT-03A」を使ったデモを実施(写真=左)。「ラーメン」と検索をすると、現在地周辺のラーメン屋が表示された(写真=中)。「六本木のおいしい焼き鳥屋」を検索(写真=右)
photophoto 「●●(駅名)から○○(駅名)」で経路検索ができる(写真=左)。「●●(駅名)から○○(駅名)終電」で終電検索も可能(写真=右)
photophotophoto 「宇宙から見た日本の夜景の写真」と入力したら、画像の検索結果が表示された(写真=左)。「アイリッシュウルフハウンド子犬動画」でYouTubeの検索結果が現れた(写真=右)。読みの難しい地名の検索もできる(写真=右)
photo Google音声検索では「認識精度」「スピード」「検索」の3点に注力した

 グーグルモバイル担当プロダクトマネージャーの井上陸氏は、「Google音声検索は、携帯電話のスピーカー/カメラ/GPS/マイクなどのセンサーと、Googleのクラウド技術を組み合わせた第1弾のサービスだ」と説明する。今回の音声検索で注力したのは「認識精度」「スピード」「検索」だ。

 認識精度は、膨大な語彙をサポートしながらさまざまな使用環境にも対応する。「これまでも多くの音声認識サービスが登場したが、精度がハードルになっている。あらゆる日本語を含めると精度を高めるのが難しい。だからといって、地名だけなどに対象を狭めると、精度は上がるが利便性は落ちる。ここは難しいバランスだが、Google検索にも使われている最先端の技術を生かし、膨大な語彙をカバーしながら実用レベルの高い認識精度を実現した」と井上氏は胸を張る。なお、Google音声検索は端末ではなくサーバ側で認識する。データベースに登録されている単語数は非公表。

photo 「記者」「汽車」「貴社」などの同音異義語は、複数の候補から選べる

 Google音声検索には同社が独自開発したエンジンを採用し、日本ユーザーがGoogleで検索をした100億以上の言葉を学習させたという。「Google日本語入力」で使った技術も採り入れており、ユーザーが使うほどに学習して認識精度が上がる。音楽がかかっている部屋や雑踏など、騒音の多い場所で認識できるのも特徴だ。

 「音声をコンピューターに認識させるには多くの処理能力が必要だが、Google音声検索では通信も含めてすぐに答えが返ってくる」と井上氏が説明する通り、入力してから結果が表示されるまでのスピードにもこだわった。これは「数多くのサーバを使ってサービスを提供するというGoogleのクラウド技術により実現でききた」もの。膨大な量のリクエストが同時に来ても素早く処理できるという、同社のクラウド技術のメリットを生かした形だ。

 住所を入力すると地図のリンクが表示されるなど、ユーザーが意図した検索結果が現れる仕組みは、Googleのユニバーサル検索(動画、画像、ニュース、地図などから最適な結果を表示する技術)を組み合わせることで実現した。「キーワードの意図を推測して結果を返せるので、ユーザーの欲しい情報がすぐに得られる」と井上氏はメリットを説明する。

 年齢や性別に関係なく使ってもらうため、老若男女幅広いユーザーの声を集めて学習させ、ある程度の個人差は吸収した。方言については関西弁はカバーしているが、そのほかの地域については「どれだけサンプルを取ったかによる」(説明員)とのことで、具体的にどの地域の方言までカバーしているかは明かされなかった。新しい言葉にも順次対応させていくとのことだ。

 また、Google音声検索をWindows Mobile端末やほかの音声端末に対応させることも「検討中」だという。「Androidはオープンなプラットフォームを採用しているので開発しやすい。まずは提供しやすいところから始めた」(井上氏)


 今後の展開について井上氏は「Googleで培ってきた技術とサービスのインフラを生かし、モバイルの世界で技術革新を起こしたい」と意欲を見せる。「ケータイにはGPSやカメラ、スピーカーなど、まだ多くのセンサーがある。GPSはGoogleマップや音声検索にも組み込まれているが、今後も新しい位置情報サービスを開発していきたい。音声認識は汎用性が高いので、音声認識エンジン自体にも多くの可能性があると考えている」(井上氏)

photophotophoto グーグルは、今後も携帯電話のセンサーと同社のクラウド技術を組み合わせたサービスを開発していく

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー