漫画の“コマ割り”のみから、どの作品か判別できるか? 北海道大などが100作品以上を分析、AIで検証:Innovative Tech
北海道大学、群馬大学、奈良先端科学技術大学院大学、千葉工業大学に所属する研究者らは、漫画の見開きページのコマ枠のみから、深層学習モデルで作品を分類できるか検証した研究報告を発表した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
北海道大学、群馬大学、奈良先端科学技術大学院大学、千葉工業大学に所属する研究者らが発表した論文「マンガのコマ割りのみから作品分類は可能か?」は、漫画の見開きページのコマ枠のみから、深層学習モデルで作品を分類できるか検証した研究報告である。
漫画では、物語の進行が独特のコマ割りで描かれ、読者の目線を誘導するように細かく配置されている。そのため、作者はキャラクターや吹き出し、背景などの線画に対してだけでなく、コマ割りに対しても作品の独自性を持たせることができる。
そこで、この研究では漫画のコマ割りのみから深層学習モデルを用いて作品を分類できるかを検証する。検証するに当たって、100冊以上の日本の漫画が収録されている「Manga109データセット」を利用する。
Manga109データセットを用い、漫画の見開きページのコマ枠のみを描画した画像を作成し、深層学習モデルに入力する。モデルでは、漫画の見開きページ画像を入力として、その作品名を予測する多クラス分類モデル(ResNet101)を学習する。
学習には、Manga109データセットより取得した漫画の見開きページ画像のうち、コマ情報を含む1万107枚104作品から80%程度を利用する。実験では「無加工の見開きページ画像」「マスク処理を施した画像」「コマ枠のみを描画した画像」の3タイプの入力形式を用意した。
実験の結果、テストデータを用いた精度は、無加工画像が90.4%、マスク画像が80.1%、コマ枠画像が77.5%であった。これより、コマ枠画像のように作品に関する情報が少ない画像でも分類精度約80%と高い水準を達成できることが分かった。
次に、上記の3タイプにおいて、モデルが分類を行う際に着目した特徴箇所を可視化することで定性的な分析を行った。可視化手法として、学習したモデルの特徴箇所をヒートマップとして表示できる「Grad-CAM」を用いる。
上図は、コマ枠画像をヒートマップとして可視化した画像であり、可視化することで作品に応じてどこに着目(ヒートマップの赤い部分)しているかの特徴を確認できる。
例えば、上図の漫画作品「ラブひな」では、あるコマ枠の端に小さなコマ枠を重ねたり、上下のコマ枠で左右の端を異なる長さにしたりする技法が使われているが、モデルもその箇所に着目している。このことから、各作品におけるコマの重なりやコマ間のスペースなどコマ割りの細かい特徴傾向を捉えて分類していることが分かった。
他にも、無加工画像の場合はキャラクターやその服装などの作品特有の情報や、マスク画像の場合だと吹き出し外のオノマトペなどの描き文字や効果線に着目して分類していることが分かった。
これらの分析より、キャラクターのような強い特徴要素以外にも、コマ割りが作品ごとの特徴を作り出す上で重要な役割を果たしていることが実験的に確認できた。
Source and Image Credits: 吉永 瑛哉, 林 克彦, 鷲尾 光樹, 上垣外 英剛, 新保 仁. マンガのコマ割りのみから作品分類は可能か? 情報処理学会 研究報告エンタテインメントコンピューティング(EC)2023-EC-67
関連記事
- 漫画のシーンに合わせて“刺激”発生 炎の攻撃で熱、大きな「ゴゴゴ」には振動 NHK技研が開発
日本放送協会放送技術研究所(NHK技研)の研究チームは、電子書籍ベースの漫画において、読んでいるシーンに応じて触覚(振動や温度)を提示するシステムを開発した。炎の攻撃では熱さを、オノマトペ(擬音語・擬態語)が大きなシーンでは振動などを与える。 - “けもみみ”の動きと感情の関係、電通大が調査 3Dモデルの球体に耳を生やして検証
電気通信大学野嶋研究室に所属する四條らの研究チームは、「獣の耳」(けもみみ)の動的姿勢とそれが与える感情を調査した研究報告を発表した。けもみみの動きによって、その動作を見ている者がどのように感じるかを調査した。 - 画像生成AIで漫画っぽい物語が作れるモデル「StoryDALL-E」
米UNC Chapel Hillの研究チームは、テキストから画像を生成するText-to-Imageモデルで漫画風の物語(ビジュアルストーリー)を構築できるシステムを開発した。登場人物のせりふは生成されないが、一貫して登場人物や背景の整合性がとれた一連の画像を生成する。 - メガネの反射からWeb会議中の画面を盗み見る攻撃 閲覧中のサイトを特定する精度は94%以上
米University of Michiganと中国のZhejiang Universityによる研究チームは、Web会議に参加するメガネをかけたユーザーのレンズの反射によって、画面上の機密情報を不注意に伝えてしまうことを明らかにした研究報告を発表した。 - “漫画村”創設者がプログラミングスクール開設へ 「漫画村の技術全て教える」 ネット上では賛否【訂正あり】
漫画海賊版サイト「漫画村」の創設者がプログラミングスクールの開設をTwitter上で予告した。「超初心者でも5カ月で漫画村を作れるレベルにさせる」「漫画村の技術全て教えるけど絶対に作るな」などと投稿し、ネット上では賛否両論の声が上がっている。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.