メディア

携帯電話のセンサーとGoogleのクラウドが融合――「Google音声検索」

» 2009年12月07日 19時40分公開

[田中聡，ITmedia]

グーグルモバイル担当プロダクトマネージャー井上陸氏は「Google音声検索を一言で表すと、携帯電話のマイクを、言葉を理解する耳にするもの」と説明する

　グーグルは12月7日、携帯電話から音声入力でGoogle検索ができる「Google音声検索」を発表した。対応機種はAndroid端末とiPhone（2009年12月7日現在）。Android端末は「音声検索」アプリから、iPhoneは「Google Mobile App」から利用できる。利用料金は無料（パケット通信料を除く）。

　Google音声検索では、音声入力でキーワード検索ができるのはもちろん、GPS機能とGoogleマップを利用し、入力した住所の地図表示や、現在地付近の店舗やスポット検索、ルート案内なども可能。乗換案内や画像・動画検索にも対応している。乗換案内は最寄り駅から目的の駅までの経路を調べられるほか、例えば「渋谷から池袋　終電」と入力すれば、渋谷から池袋まで運行している最終電車の時刻も分かる。「宇宙から見た日本の夜景の写真」といった細かい指定もでき、YouTubeに投稿された動画も簡単に調べられる。

　“YouTube”などアルファベットの単語は“ユーチューブ”などカタカナではなくアルファベットで認識される。アーティスト名や作品名なども同様だ。また、北海道の音威子府村（おといねっぷむら）など難読の地名も認識する。

iPhoneでは「Google Mobile App」の「設定」→「音声検索」をオンにする必要がある（写真＝左端）。検索画面右上の「音声検索」をタップしてから発声する（写真＝左中、右中）。言い間違えたときなどは途中でキャンセルできる（写真＝右端）

「大手町のラーメン屋」で検索（写真＝左端）。固有名詞や早口言葉も検索できた（写真＝左中、右中、右端）

発表会では「HT-03A」を使ったデモを実施（写真＝左）。「ラーメン」と検索をすると、現在地周辺のラーメン屋が表示された（写真＝中）。「六本木のおいしい焼き鳥屋」を検索（写真＝右）

「●●（駅名）から○○（駅名）」で経路検索ができる（写真＝左）。「●●（駅名）から○○（駅名）終電」で終電検索も可能（写真＝右）

「宇宙から見た日本の夜景の写真」と入力したら、画像の検索結果が表示された（写真＝左）。「アイリッシュウルフハウンド子犬動画」でYouTubeの検索結果が現れた（写真＝右）。読みの難しい地名の検索もできる（写真＝右）

Google音声検索では「認識精度」「スピード」「検索」の3点に注力した

　グーグルモバイル担当プロダクトマネージャーの井上陸氏は、「Google音声検索は、携帯電話のスピーカー／カメラ／GPS／マイクなどのセンサーと、Googleのクラウド技術を組み合わせた第1弾のサービスだ」と説明する。今回の音声検索で注力したのは「認識精度」「スピード」「検索」だ。

　認識精度は、膨大な語彙をサポートしながらさまざまな使用環境にも対応する。「これまでも多くの音声認識サービスが登場したが、精度がハードルになっている。あらゆる日本語を含めると精度を高めるのが難しい。だからといって、地名だけなどに対象を狭めると、精度は上がるが利便性は落ちる。ここは難しいバランスだが、Google検索にも使われている最先端の技術を生かし、膨大な語彙をカバーしながら実用レベルの高い認識精度を実現した」と井上氏は胸を張る。なお、Google音声検索は端末ではなくサーバ側で認識する。データベースに登録されている単語数は非公表。

「記者」「汽車」「貴社」などの同音異義語は、複数の候補から選べる

　Google音声検索には同社が独自開発したエンジンを採用し、日本ユーザーがGoogleで検索をした100億以上の言葉を学習させたという。「Google日本語入力」で使った技術も採り入れており、ユーザーが使うほどに学習して認識精度が上がる。音楽がかかっている部屋や雑踏など、騒音の多い場所で認識できるのも特徴だ。

　「音声をコンピューターに認識させるには多くの処理能力が必要だが、Google音声検索では通信も含めてすぐに答えが返ってくる」と井上氏が説明する通り、入力してから結果が表示されるまでのスピードにもこだわった。これは「数多くのサーバを使ってサービスを提供するというGoogleのクラウド技術により実現でききた」もの。膨大な量のリクエストが同時に来ても素早く処理できるという、同社のクラウド技術のメリットを生かした形だ。

　住所を入力すると地図のリンクが表示されるなど、ユーザーが意図した検索結果が現れる仕組みは、Googleのユニバーサル検索（動画、画像、ニュース、地図などから最適な結果を表示する技術）を組み合わせることで実現した。「キーワードの意図を推測して結果を返せるので、ユーザーの欲しい情報がすぐに得られる」と井上氏はメリットを説明する。

　年齢や性別に関係なく使ってもらうため、老若男女幅広いユーザーの声を集めて学習させ、ある程度の個人差は吸収した。方言については関西弁はカバーしているが、そのほかの地域については「どれだけサンプルを取ったかによる」（説明員）とのことで、具体的にどの地域の方言までカバーしているかは明かされなかった。新しい言葉にも順次対応させていくとのことだ。

　また、Google音声検索をWindows Mobile端末やほかの音声端末に対応させることも「検討中」だという。「Androidはオープンなプラットフォームを採用しているので開発しやすい。まずは提供しやすいところから始めた」（井上氏）

　今後の展開について井上氏は「Googleで培ってきた技術とサービスのインフラを生かし、モバイルの世界で技術革新を起こしたい」と意欲を見せる。「ケータイにはGPSやカメラ、スピーカーなど、まだ多くのセンサーがある。GPSはGoogleマップや音声検索にも組み込まれているが、今後も新しい位置情報サービスを開発していきたい。音声認識は汎用性が高いので、音声認識エンジン自体にも多くの可能性があると考えている」（井上氏）