グーグルは12月7日、携帯電話から音声入力でGoogle検索ができる「Google音声検索」を発表した。対応機種はAndroid端末とiPhone(2009年12月7日現在)。Android端末は「音声検索」アプリから、iPhoneは「Google Mobile App」から利用できる。利用料金は無料(パケット通信料を除く)。
Google音声検索では、音声入力でキーワード検索ができるのはもちろん、GPS機能とGoogleマップを利用し、入力した住所の地図表示や、現在地付近の店舗やスポット検索、ルート案内なども可能。乗換案内や画像・動画検索にも対応している。乗換案内は最寄り駅から目的の駅までの経路を調べられるほか、例えば「渋谷から池袋 終電」と入力すれば、渋谷から池袋まで運行している最終電車の時刻も分かる。「宇宙から見た日本の夜景の写真」といった細かい指定もでき、YouTubeに投稿された動画も簡単に調べられる。
“YouTube”などアルファベットの単語は“ユーチューブ”などカタカナではなくアルファベットで認識される。アーティスト名や作品名なども同様だ。また、北海道の音威子府村(おといねっぷむら)など難読の地名も認識する。
グーグルモバイル担当プロダクトマネージャーの井上陸氏は、「Google音声検索は、携帯電話のスピーカー/カメラ/GPS/マイクなどのセンサーと、Googleのクラウド技術を組み合わせた第1弾のサービスだ」と説明する。今回の音声検索で注力したのは「認識精度」「スピード」「検索」だ。
認識精度は、膨大な語彙をサポートしながらさまざまな使用環境にも対応する。「これまでも多くの音声認識サービスが登場したが、精度がハードルになっている。あらゆる日本語を含めると精度を高めるのが難しい。だからといって、地名だけなどに対象を狭めると、精度は上がるが利便性は落ちる。ここは難しいバランスだが、Google検索にも使われている最先端の技術を生かし、膨大な語彙をカバーしながら実用レベルの高い認識精度を実現した」と井上氏は胸を張る。なお、Google音声検索は端末ではなくサーバ側で認識する。データベースに登録されている単語数は非公表。
Google音声検索には同社が独自開発したエンジンを採用し、日本ユーザーがGoogleで検索をした100億以上の言葉を学習させたという。「Google日本語入力」で使った技術も採り入れており、ユーザーが使うほどに学習して認識精度が上がる。音楽がかかっている部屋や雑踏など、騒音の多い場所で認識できるのも特徴だ。
「音声をコンピューターに認識させるには多くの処理能力が必要だが、Google音声検索では通信も含めてすぐに答えが返ってくる」と井上氏が説明する通り、入力してから結果が表示されるまでのスピードにもこだわった。これは「数多くのサーバを使ってサービスを提供するというGoogleのクラウド技術により実現でききた」もの。膨大な量のリクエストが同時に来ても素早く処理できるという、同社のクラウド技術のメリットを生かした形だ。
住所を入力すると地図のリンクが表示されるなど、ユーザーが意図した検索結果が現れる仕組みは、Googleのユニバーサル検索(動画、画像、ニュース、地図などから最適な結果を表示する技術)を組み合わせることで実現した。「キーワードの意図を推測して結果を返せるので、ユーザーの欲しい情報がすぐに得られる」と井上氏はメリットを説明する。
年齢や性別に関係なく使ってもらうため、老若男女幅広いユーザーの声を集めて学習させ、ある程度の個人差は吸収した。方言については関西弁はカバーしているが、そのほかの地域については「どれだけサンプルを取ったかによる」(説明員)とのことで、具体的にどの地域の方言までカバーしているかは明かされなかった。新しい言葉にも順次対応させていくとのことだ。
また、Google音声検索をWindows Mobile端末やほかの音声端末に対応させることも「検討中」だという。「Androidはオープンなプラットフォームを採用しているので開発しやすい。まずは提供しやすいところから始めた」(井上氏)
今後の展開について井上氏は「Googleで培ってきた技術とサービスのインフラを生かし、モバイルの世界で技術革新を起こしたい」と意欲を見せる。「ケータイにはGPSやカメラ、スピーカーなど、まだ多くのセンサーがある。GPSはGoogleマップや音声検索にも組み込まれているが、今後も新しい位置情報サービスを開発していきたい。音声認識は汎用性が高いので、音声認識エンジン自体にも多くの可能性があると考えている」(井上氏)
Copyright © ITmedia, Inc. All Rights Reserved.