ITmedia NEWS > ネットの話題 >

盗撮映画や“MAD”も特定 NTT、動画検出技術を実証実験

» 2008年04月22日 16時13分 公開
[岡田有花,ITmedia]

 NTT(持ち株会社)は4月22日、ネット上に投稿された動画や音声コンテンツの中に、あらかじめ登録しておいた動画や音楽が含まれているかどうかを検出できるフィンガープリント技術「ロバストメディア探索技術」の実証実験を、米国企業と共同で始めた。

 映画館で盗撮した映画の映像や、動画に文字や画像、音声を重ねて編集した「MAD」映像などからも、元となる映像や音声を高精度・高速に検出できるとしている。実験で有効性が検証されれば、コンテンツホルダーや動画投稿サイトなどに売り込む計画だ。

画像 システム構成。NTTはBayTSPから照合リクエストを受け付け、検証して結果を返却する

 同社のコミュニケーション科学基礎研究所で研究してきた技術を活用した。コンテンツホルダー向けに著作物の管理システムを提供している米BayTSPと共同で実験する。まず、BayTSPがコンテンツホルダーから動画や楽曲の情報オリジナルデータを取得。動画投稿サイトなどから、動画や音声データも取得する。

 NTT側は、両データを受け取って動画や音声の「特徴データ」を抽出。特徴を照合し、登録されている動画や楽曲が投稿されたコンテンツに含まれていないかを検証し、BayTSPに結果を返す。

 実験は日米をまたいで行う。BayTSPのサーバとNTTの特徴抽出サーバは米国に置き、特徴抽出サーバで抽出した特徴データを日本のNTTの特徴照合サーバに転送。照合した結果をBayTSPサーバに戻す――という仕組みだ。

映画の盗撮やMADもOK 技術のキモは

 一般的な映像検出技術では、映像の1コマを細かなブロックに分け、ブロックごとの特徴数値を並べた数列を作り、その数列同士を比較して類似度を測る――という手法を用いているが、この手法では処理データが膨大になる上、映画を盗撮するなどして縦横比が大きく変わった動画や、字幕を入れるなどして編集された動画を検出できない、という欠点があった。

 NTTの技術はまず、映像を粗いブロックに分け、特徴の乏しいブロックを除外。特徴的な部分だけを粗い数値で表現し、その数値の一貫性を判定することで、全く同じ動画だけでなく、特徴的な部分の配置が似ている動画を探し出すことができるという。


画像 字幕が入っている映像でも検出OK
画像 元の動画と縦横比が異なる上、人の頭の影も入っているような映像でも検出できる

 映像の画質が劣化していたり、縦横比が変わっていたり、字幕などで映像の一部が隠れていたり、映像に後でナレーションを入れるなどして楽曲と音声が重なっていたりしても正確に検出できるいい、映画館で盗撮され、観客の頭が映り込んでいる映画の映像や、元の映像に別の画像や音声を組み合わせた「MAD」と呼ばれるような映像なども探し出せるとしている。検証に必要な元データ・投稿データの長さは、最短(コンテンツがきわめて特徴的な場合)で2秒程度という。


画像
画像

 特徴データを圧縮する新技術も開発し、処理を高速化した。同日行われたデモでは、オリジナルの映像と音声を組み合わせた上で字幕などを付けた45秒の動画から約3秒ほどで、映像・音声の元データを見付け出していた。

 並列処理と負荷分散処理の仕組みを導入することで、大規模な検証も容易という。実証実験では、1日当たり数万件の動画の処理を行う計画。YouTubeなど大手動画投稿サイトに投稿される全動画を、毎日検証することが可能な規模としている。

 汎用的なプラットフォームで、BayTSPに限らず、さまざまなコンテンツ検証技術と接続できる。実験は9月末まで行い、コンテンツホルダーや投稿サイト、配信サイトなどと協議しながら商用化を検討していく。著作権侵害コンテンツの発見だけでなく、放送で利用された楽曲の特定などにも応用できるとしている。

Copyright © ITmedia, Inc. All Rights Reserved.