Googleの「鼻歌検索」 どうやって実現した?

» 2020年11月12日 16時00分 公開
[井上翔ITmedia]

 スマートフォン向けの「Google検索」に「鼻歌検索(Hum to Search)」という機能があるのをご存じだろうか。11月現在、日本語を含む20以上の言語に対応しており、日本語環境ではAndroid端末で利用できる。今後、日本語環境のiPhoneやiPadでも利用できるようになる予定となっている(英語環境では既に利用可能)。

 Googleは11月12日、日本の報道関係者向けにこの機能の説明会を開催した。この記事では、その模様をお伝えする。

クマール氏 説明を担当したシニアプロダクトマネージャーのクリシュナ・クマール氏

そもそも「鼻歌検索」って何?

 その名の通り、鼻歌検索は鼻歌(ハミング)から楽曲を検索できる機能だ。Googleの音声検索の機能の1つとして提供されており、「Google」アプリ(Google検索ウィジェット)を介して利用できる。利用手順は以下の通り。

  1. Googleアプリの検索画面(または検索ウィジェット)のマイクアイコンをタップする・・音声待ち受け画面の下部にある「曲を検索」をタップする
  2. 10〜12秒ほど鼻歌(歌やハミング、口笛も可)を聞かせる
  3. そのメロディーに近い楽曲が検索される

 「10〜12秒もかかるの?」と思うかもしれないが、現在の技術ではこれが限界で、時間を短縮できるように取り組んでいる所だという。

手順その1 Android端末の場合、Google検索の「マイク」アイコンをタップし、音声認識画面になったら「曲を検索」をタップして……
手順その2 鼻歌を10〜12秒聞かせると、そのメロディーに近い楽曲を提示する

どうやって鼻歌から楽曲を特定する?

 Googleのシニアプロダクトマネージャーを務めるクリシュナ・クマール氏によると、鼻歌検索は音楽に関する検索の約半数が「聞いたことがあるけど思い出せない」という旨である現状を解決すべく開発が始まったのだという。

 同社では過去にも類似機能として「Now Playing(この曲何)」や「Sound Search」を提供しているが、これらは端末側でデータを処理していた(参考記事)。それに対して、鼻歌検索は全てをクラウド(オンラインのサーバ)で処理しているため、インターネット接続が必須だという。

 鼻歌検索で鼻歌などを聴き取ってから、検索結果が出るまでの簡単な流れは以下の通りになる。

  1. 音源から得られるメロディーを機械学習モデルが数列に変換する
  2. 数列をデータベースと照合する
  3. 一致度の高い楽曲を検索結果として提示する

 メロディーを数列に変換する際には、伴奏、音調、声質などの「余計な情報」を取り除いているという。周囲の雑音についても、ある程度は許容できるようにアルゴリズムも調整してあるそうだ。

 機械学習モデルの作成に当たっては、ライセンスされた楽曲、スタジオで収録された音声に加えて、社内や社外のボランティアなどから収集した鼻歌や口笛などを利用したという。学習期間も長く確保する必要があったそうだ。

機械学習 機械学習でメロディーだけを抽出し数列変換し、データベースと照合して楽曲の提示を行う
機械学習 検索の手順をもう少し詳しくした図。ゴール(到達すべき点)は、メロディーを数列変換して、それと一致度の高い楽曲を検出することだが……

 このシステムでは当初、歌声での検索にのみ対応していた。歌声であれば、メロディーだけではなく「歌詞」も情報として付加されるため、認識の難易度は鼻歌ほど高くはなかったからだ。

 鼻歌でも検索できるようにすべく、Googleでは歌声データを「リバースエンジニアリング」したという。歌唱データから音程(ピッチ)だけを抽出し、そのデータをもとに音程データの学習を進めて、鼻歌の「音源」を作り上げ、メロディー“だけ”をより正確に抽出できるようにしたそうだ。

 ここまでの説明で分かる通り、鼻歌検索は実際に歌った方が(当たり前だが)検索のマッチ率が高くなる。ただし、あくまでもメロディーに注力したマッチングをしているため、歌詞が分からなくても音程さえ分かっていれば候補曲を探すことはできる。

リバースエンジニアリング 歌声を「リバースエンジニアリング」することで鼻歌の学習ベースとなるハミング音源を作成した
比較 実際に歌った方が検索のマッチ率が高まる。ただ、鼻歌でもしっかりとマッチングできる

楽曲データベースの充実が課題か

 鼻歌検索では、あくまでもメロディーにフォーカスを当てているため、理論上は言語に依存せず検索できる。しかし、現時点では提供地域が限られている。クマール氏によると、提供地域が限られるのは「楽曲データベース」の整備が大きな理由となっているという。

 先述した通り、楽曲の学習データの作成には権利者からライセンスを受けた音源を使っている。つまり、楽曲のデータベースがある程度整備できた国や地域から鼻歌検索機能をリリースしているということになる。

 サービスが提供されているということは、日本での楽曲データベースはある程度整備が進んでいるということになる。実際、メジャーな楽曲はおおむね鼻歌で検索できる。

 しかし、童謡や唱歌などは苦手としているようだ。この記事を執筆するために、筆者は数十曲の鼻歌を聞かせてみたのだが、他のジャンルの楽曲と比べると、童謡や唱歌はほとんどヒットしなかった。ある意味で「マイナー」な曲の検索に対応することがこれからの課題といえそうだ。

朧月夜 筆者が「朧月夜」を鼻歌で聞かせた結果。全く関係のない曲が出てきてしまった……

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2024年03月29日 更新
最新トピックスPR

過去記事カレンダー

2024年