Googleの「鼻歌検索」 どうやって実現した?
Googleが10月からAndroidスマホ向けに提供している「鼻歌検索(Hum to Search)」。一体どのようにして実現しているのだろうか。Googleが行った説明会の模様をお伝えする。
スマートフォン向けの「Google検索」に「鼻歌検索(Hum to Search)」という機能があるのをご存じだろうか。11月現在、日本語を含む20以上の言語に対応しており、日本語環境ではAndroid端末で利用できる。今後、日本語環境のiPhoneやiPadでも利用できるようになる予定となっている(英語環境では既に利用可能)。
Googleは11月12日、日本の報道関係者向けにこの機能の説明会を開催した。この記事では、その模様をお伝えする。
そもそも「鼻歌検索」って何?
その名の通り、鼻歌検索は鼻歌(ハミング)から楽曲を検索できる機能だ。Googleの音声検索の機能の1つとして提供されており、「Google」アプリ(Google検索ウィジェット)を介して利用できる。利用手順は以下の通り。
- Googleアプリの検索画面(または検索ウィジェット)のマイクアイコンをタップする・・音声待ち受け画面の下部にある「曲を検索」をタップする
- 10〜12秒ほど鼻歌(歌やハミング、口笛も可)を聞かせる
- そのメロディーに近い楽曲が検索される
「10〜12秒もかかるの?」と思うかもしれないが、現在の技術ではこれが限界で、時間を短縮できるように取り組んでいる所だという。
どうやって鼻歌から楽曲を特定する?
Googleのシニアプロダクトマネージャーを務めるクリシュナ・クマール氏によると、鼻歌検索は音楽に関する検索の約半数が「聞いたことがあるけど思い出せない」という旨である現状を解決すべく開発が始まったのだという。
同社では過去にも類似機能として「Now Playing(この曲何)」や「Sound Search」を提供しているが、これらは端末側でデータを処理していた(参考記事)。それに対して、鼻歌検索は全てをクラウド(オンラインのサーバ)で処理しているため、インターネット接続が必須だという。
鼻歌検索で鼻歌などを聴き取ってから、検索結果が出るまでの簡単な流れは以下の通りになる。
- 音源から得られるメロディーを機械学習モデルが数列に変換する
- 数列をデータベースと照合する
- 一致度の高い楽曲を検索結果として提示する
メロディーを数列に変換する際には、伴奏、音調、声質などの「余計な情報」を取り除いているという。周囲の雑音についても、ある程度は許容できるようにアルゴリズムも調整してあるそうだ。
機械学習モデルの作成に当たっては、ライセンスされた楽曲、スタジオで収録された音声に加えて、社内や社外のボランティアなどから収集した鼻歌や口笛などを利用したという。学習期間も長く確保する必要があったそうだ。
このシステムでは当初、歌声での検索にのみ対応していた。歌声であれば、メロディーだけではなく「歌詞」も情報として付加されるため、認識の難易度は鼻歌ほど高くはなかったからだ。
鼻歌でも検索できるようにすべく、Googleでは歌声データを「リバースエンジニアリング」したという。歌唱データから音程(ピッチ)だけを抽出し、そのデータをもとに音程データの学習を進めて、鼻歌の「音源」を作り上げ、メロディー“だけ”をより正確に抽出できるようにしたそうだ。
ここまでの説明で分かる通り、鼻歌検索は実際に歌った方が(当たり前だが)検索のマッチ率が高くなる。ただし、あくまでもメロディーに注力したマッチングをしているため、歌詞が分からなくても音程さえ分かっていれば候補曲を探すことはできる。
楽曲データベースの充実が課題か
鼻歌検索では、あくまでもメロディーにフォーカスを当てているため、理論上は言語に依存せず検索できる。しかし、現時点では提供地域が限られている。クマール氏によると、提供地域が限られるのは「楽曲データベース」の整備が大きな理由となっているという。
先述した通り、楽曲の学習データの作成には権利者からライセンスを受けた音源を使っている。つまり、楽曲のデータベースがある程度整備できた国や地域から鼻歌検索機能をリリースしているということになる。
サービスが提供されているということは、日本での楽曲データベースはある程度整備が進んでいるということになる。実際、メジャーな楽曲はおおむね鼻歌で検索できる。
しかし、童謡や唱歌などは苦手としているようだ。この記事を執筆するために、筆者は数十曲の鼻歌を聞かせてみたのだが、他のジャンルの楽曲と比べると、童謡や唱歌はほとんどヒットしなかった。ある意味で「マイナー」な曲の検索に対応することがこれからの課題といえそうだ。
関連記事
- プライバシーを守りつつAIの利点を活用――「Google Pixel 3」のオンデバイスAI技術
昨今よく話題になるAI(人工知能)。その多くはクラウド(オンラインサーバ)でデータ処理をすることで実現しているが、Googleのスマートフォン「Pixel 3」「Pixel 3 XL」では本体単体でのデータ処理にも注力しているという。そこには、Googleなりのプライバシーへの配慮がある。 - この曲名なんだっけ? Siriに試されるあなたの歌唱力
- 鼻歌を五線譜にしてアレンジまでしてくれる作曲アプリ「Hum On!」
Samsungが、SXSW 2016で作曲アプリ「Hum On!」を発表した。端末のマイクに向かってハミングすると採譜してコードまで付け、さらにアレンジも可能だ。一般公開については未定だ。 - あなたの“鼻歌”採点します――ケータイ向け鼻歌音感ゲーム「はなワザ」
Copyright © ITmedia, Inc. All Rights Reserved.