ピアノの演奏動画から楽譜を自動作成 ディープラーニングで 京大が技術開発:Innovative Tech
YouTubeなどのピアノ演奏動画からMIDIデータを作成し、さらに譜面化する。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
京都大学の研究チームが開発した「Non-Local Musical Statistics as Guides for Audio-to-Score Piano Transcription」は、Web上のピアノ演奏動画の音声データから楽譜を作成する、深層学習(ディープラーニング)を用いた自動変換システムだ。
システムは、3段階で構成される。1段階目は、入力された動画の音の信号に対してMIDIシーケンスを深層学習ネットワークで推定(Multipitch detection)する。ピッチ解析用とベロシティ推定用のネットワークを別々で学習し、その出力を組み合わせてMIDIシーケンスを合成する。2段階目は、MIDIシーケンスのオンセット/オフセット時刻をクォンタイズし、拍単位で表現(Rhythm quantization)。3段階目は、クォンタイズされたMIDIシーケンスをMusicXMLファイルに変換する(Score typesetting)。
このままでも音符レベルでは高い再現性を達成しているものの、全体の音楽特性(テンポや拍子の誤認、小節線の位置)を誤って推定するケースが見つかった。そこで、この出力結果から、全体の音楽特性を推定するための後処理手法を新たに構築した。
これにより全体の音楽特性が改善され、精度が向上したという、Web上で公開されているピアノ演奏動画の音声データから楽譜を生成するタスクにおいて、実用レベルの出力結果を実証したとしている。
プロジェクトページでは、実際にYouTube動画から作成した楽譜のサンプルを複数公開しており、出力結果を確認できる。
関連記事
- 表と裏を独立検知できる布地タッチセンサー Google、「ZebraSense」開発
表裏のセンサーを交互に組み込むことで、表からも裏からも操作可能。 - 協調して動く球体ロボット群「FreeBOT」 くっついたり離れたり、転がったり壁を登ったり
自律システムの構築も目指す。 - レトロゲーム機でレトロゲームを自作 Microsoftが「TileCode」開発
「ツクール」など同種のものはあるが、今回はMSが構築した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.