「白戸家」「ヒウィッヒヒー」もOK? 「Google音声検索」で遊んでみた:ふぉーんなハナシ
100億以上の言葉を学習させたという「Google音声検索」。音声認識のキモとも言える認識精度がどれくらいなのか、そしてどんな単語を読み取れるのかを試した。
グーグルが12月7日に提供を開始した「Google音声検索」(日本語版)は、スピーディで高精度な音声検索ができるツールとして話題を集めている。認識する単語については「日本ユーザーがGoogle検索で使った100億以上の言葉を学習させた」(グーグルモバイル担当プロダクトマネージャー 井上陸氏)とのことだが、実際のところどこまで認識できるのだろうか。固有名詞を中心に、「iPhone 3GS」で試してみた。
「宇多田ヒカル」「スガシカオ」「Mr.Children」などのアーティスト名や、「おくりびと」「機動戦士ガンダム」「崖の上のポニョ」などの作品名のほか、「板橋区小茂根」「船橋市藤原」「千代田区大手町1-3-1」といった住所もしっかり認識できた。住所は番地を認識するのも優秀だ。
こうなると、もっと試したくなる。まずは携帯キャリアの公式キャラクター。「ドコモダケ」「ひつじのしつじくん」「auシカ」は一発で認識できたが、「白戸家(ほわいとけ)」は何度試しても「ホワイトデー」となり、懐かしいところで「しまクリ三兄妹」は「島国三兄弟」と出た(当たり前だが「お父さん」は普通に認識された)。「草食系男子」「ただしイケメンに限る」「こども店長」「マー君神の子」といった流行語もOK。カタカナとしてか、流行語としてかは分からないが、「ヒウィッヒヒー」が正しく認識されたのにも驚いた。
ケータイ関連では「セカイカメラ」「AQUOS SHOT 933SH」は成功したが、「BRAVIA Phone U1」は「ブラビアホームU1」、「Walkman Phone, Premier3」は「walkman phone premier 9区」と表示されるなど、不完全なものもあった。このほか、マンガの名ゼリフや早口言葉も忠実に認識することが多く、膨大な語彙をサポートしているというのはダテではないと感じた。
では、異なる環境下での認識精度はどうか。まず端末との距離だが、通話と同じくらいの至近距離から発声すれば、ほぼ問題なく認識された。普段端末を手にして画面を見る程度の距離(30センチほど)でも、やや大きく発声すれば成功した。早口でしゃべると、単語によっては誤認識されることが多かったが(「セカイカメラ」が「中村」になるなど)、早口でも滑舌よくしゃべれば問題なさそう。抑揚は「東京ディズニーランド」「アイティメディア」「携帯電話」などを複数のパターンで発声したが、正しく認識された。
続いて、騒音の多い環境でも試した。音楽再生中のソニー製の小型スピーカー「SRS-D25」の真横で発声をしたが、しっかり認識された。外出先では大手町の駅構内で試したところ、室内よりは一発で認識できる確率は下がるものの、はっきり発声すればおおむね認識できた。周囲に人がいたため、(恥ずかしさから)やや声が小さかったのかもしれない。
音声認識サービスは認識精度の高さが重要だが、Google音声検索は満足できるレベルだと感じた。認識できる単語も幅広く、「この言葉は正しく認識するのか?」というちょっとした遊びにも使えそう。(いろいろな意味で)新しい検索ツールとして活用してみてはいかがだろうか。
関連記事
- 携帯電話のセンサーとGoogleのクラウドが融合――「Google音声検索」
ケータイに音声入力することでGoogle検索ができる「Google音声検索」がスタートした。まずはiPhoneとAndroid端末が対応する。グーグルの井上氏は同サービスについて、「携帯電話のセンサーとGoogleのクラウド技術を組み合わせた第1弾のサービス」と説明する。 - 音声つぶやきをTwitterに投稿 「しゃべったー」を流行語で試してみた
「ただしイケメンにかぎる!」――オフィスに響き渡る記者の声。音声を自動で書き起こし、Twitterに投稿できるiPhoneアプリ「しゃべったー」を、今年の流行語で試してみた。 - 常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性
日本で唯一となる音声認識専門企業のアドバンスト・メディアは、医療、モバイル、コールセンター、英語教育などさまざまな分野で音声認識技術を提供している。“機械との自然なコミュニケーション”を目指すという同社の音声認識技術の強みとは。そして今後のロードマップは――。 - まずはiPhoneからTwitterと連携する――音声認識技術「AmiVoice」が向かう先
「携帯電話の音声入力はキー入力を補完するもの」と考える人が多いだろうが、アドバンスト・メディアが開発する音声認識技術「AmiVoice」は、音声入力が主役になる可能性を秘めている。キーワードは“対話”と“Twitter”だ。 - キーボードの代わりにiPhoneに話かけて文章入力をする「音声認識メール」
ドコモの「らくらくホン」シリーズにも採用されている音声認識エンジンが、無料のiPhoneアプリとして登場しました。認識された文字列はメールで送信できるため、iPhoneでの文字入力が苦手な人にもお勧めです。 - 検索は“キーを押して話すだけ”――Nuanceの音声認識でケータイ操作はこう変わる
多機能化が進み、1台でさまざまな使い方ができるようになった携帯電話だが、一方で“操作が難しい”“機能が多すぎて見つけられない”といったユーザビリティ上の問題も浮上している。米Nuanceのウィヤーズ氏は、音声認識アプリケーションのVSuiteと文字入力システムのXT9や検索用新アプリケーションのT9Navを組み合わせることで、こうした問題を解決できると話す。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.