次元を超えた画像解析技術――「Deep Zoom」と「Photosynth」を体験するLookup! せんせーしょん(2/4 ページ)

» 2008年10月17日 18時00分 公開
[瓜生聖,ITmedia]

そしてブレードランナーの世界へ

 実は上で紹介した「瞳の中の男」の画像を作るのは結構大変だった。Deep Zoom Composerは「複数の写真から超拡大可能な1枚の写真を合成する」という用途のソフトウェアではないようで、Hard Rock CafeのMemorabiliaのように複数の写真をタイル状に並べ、ブラウザとしても利用できる1枚のインデックス画像を作成することがメインのようだ。

 そのため、Deep Zoom Composerでバストアップの写真に瞳のアップ写真を重ねてもそれをサポートする機能、例えばカラーバランスを調整するとか、透明度を指定して位置合わせをしやすくするといった機能はない。また、PhotoZoomにアップロードした時点で枠線が表示されてしまう(ように思える)うえ、実際に再生してみても後から重ねた映像が先に表示され、スムーズさに欠ける。結局、Deep Zoom Composerは使用せず、バストアップの写真を9000×6000ほどに拡大して、そこに瞳のアップ写真を合成するという手段を取っている。

 複数の写真を合成する場合、色合いや明るさは調整可能だが、アングルが変わったりすると不自然でないように重ね合わせるのは不可能だ(特にモデルさんを起用した場合、キュビスムな合成写真を出すわけにもいかない)。写真は2次元であるが、それは3次元を切り取った2次元だ。2次元のアプローチであるDeep Zoomではアングルが異なるという3次元特有のブレを吸収することはできない。

 ところで、前述のアニメのシーンの元になったのではないか、と言われているのがリドリー・スコット監督の名作、「ブレードランナー」に登場する情報解析機「ESPER」だ。ハリソン・フォード演じる主人公デッカードは、写真を分析し、鏡の中に写った柱の後にいるレプリカントを発見するのだが、これを見たときは「(写真に写らない)柱の陰に回り込むのは無理があるだろう」と思ったものだ。

 しかし、それをすら実現する技術をマイクロソフトは開発している。それが「Photosynth」だ。もちろん、1枚の写真ソースから柱の後に回り込んだ像を分析するわけではないものの、Photosynthでは複数の写真から特徴点を抽出し、3次元の情報を自動的に読み取り、それを元にして写真を立体的に配置した3次元空間を構築することができる。ユーザーはその中をウォークスルーしながら閲覧できる仕組みだ。

 これによってDeep Zoomの問題、つまりアングルが異なるとうまく合成できない、合成は手動で行わなければならない、という問題も解決された。もちろん、Photosynthの拡大/縮小にはDeep Zoomの技術が使われており、非常になめらかに遷移する。

Photosynth操作方法

 百聞は一見にしかず。Photosynthのサイトで実際に体験してみよう。今回は某神社をSynthで構築してみた。Synthの閲覧にはPhotosynthのインストールが必要だ。これには閲覧のためのWebブラウザプラグインと作成のためのアプリケーション(こちらもPhotosynthと呼ばれる)が含まれる。なお、現在のところ対応OSはWindows XPとWindows Vistaのみだ。

 画面は一見、直感的に操作できるように見えるが、実際に操作してみると違和感があるのではないだろうか。Photosynthはマウスを使って操作する場合は「3次元空間の中を自由に歩き回る」というよりはむしろ、「3次元空間に配置された写真をブラウズする」といったほうが近く、上下/左右にある矢印アイコンはそれぞれ、現在閲覧している写真の上下/左右にあるとなりの写真を表示する、というものだ。そのため、思ったような移動にならないことが多い。

今回作成したのは「Shrine」(神社)。神社の鳥居を見たところ。何枚もの写真が重なっているのが分かる(画面=左)。Pを押すと写真のみ、特徴点(ポイントクラウド)のみ、両方、を切り替えて表示することができる。特徴点で鳥居が構成されているのが分かる(画面=中央)。右方向にパンし、茶屋を眺める。写っている男性の足が切れているのはこれが複数画像の合成であるため(画面=右)

タイル表示に切り替えたところ。連続性が認識できた写真ごとにグルーピングされている(画面=左)。タイル表示ももちろんなめらかにズームできる。これはDeep Zoomそのもの。ここで写真を選んで3Dに切り替えることも可能だ(画面=中央)。鳥居を抜け、絵馬掛け所を連続ズームしてみた。似たような形のものが多く、かつ、数が多いため非常に複雑な形状となっており、Photosynthのガイドでは避けるべき対象物とされるものだが、意外に良好な結果となった。360°の空間が認識されており、画面中央に回転移動のためのリングが表示されている。このリングがある対象物は、回転して眺めることができる(画面=右)。

絵馬掛け所を拡大したところ。元データが動画から切り出した640×480画像のため、ややぼけ気味だ(画面=左)。さらに拡大。複数の画像が(ずれはあるものの)正しく合成されているのが分かる(画面=中央)。絵馬の文字が読めるところまで拡大してみた(画面=右)

絵馬の木目が見えるところまで拡大すると、別の意味で文字が読めなくなってしまった。遠いところからご苦労さまです(画面=左)。右上のアイコンをクリックすると次の3D空間に切り替わる。鳥居の前から左手にある駐車場に移動し、そこに止めてあった車を撮影したものだが、駐車場に入ったところで連続性がちぎれてしまったようだ(画面=中央)。車はかなり分断されてしまった。Photosynthガイドで撮るべきではないものの1つ「反射するもの」であったことが原因の1つかもしれない(画面=右)

 感覚的な3次元移動をしたいのであればキーボードを利用したほうがいいかもしれない。FPSゲーム愛好者にはおなじみだが、A/D/W/Sキーで前後左右の移動になる。そのほか、ECで上下、「[」「;」「L」「’」で上下左右回転となっている(英語キーボードでは「;」の右隣が「’」)。

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2024年04月25日 更新
  1. ワコムが有機ELペンタブレットをついに投入! 「Wacom Movink 13」は約420gの軽量モデルだ (2024年04月24日)
  2. 16.3型の折りたたみノートPC「Thinkpad X1 Fold」は“大画面タブレット”として大きな価値あり (2024年04月24日)
  3. 「IBMはテクノロジーカンパニーだ」 日本IBMが5つの「価値共創領域」にこだわるワケ (2024年04月23日)
  4. 「社長室と役員室はなくしました」 価値共創領域に挑戦する日本IBM 山口社長のこだわり (2024年04月24日)
  5. Googleが「Google for Education GIGA スクールパッケージ」を発表 GIGAスクール用Chromebookの「新規採用」と「継続」を両にらみ (2024年04月23日)
  6. バッファロー開発陣に聞く「Wi-Fi 7」にいち早く対応したメリット 決め手は異なる周波数を束ねる「MLO」【前編】 (2024年04月22日)
  7. ロジクール、“プロ仕様”をうたった60%レイアウト採用ワイヤレスゲーミングキーボード (2024年04月24日)
  8. 「Surface Go」が“タフブック”みたいになる耐衝撃ケース サンワサプライから登場 (2024年04月24日)
  9. わずか237gとスマホ並みに軽いモバイルディスプレイ! ユニークの10.5型「UQ-PM10FHDNT-GL」を試す (2024年04月25日)
  10. あなたのPCのWindows 10/11の「ライセンス」はどうなっている? 調べる方法をチェック! (2023年10月20日)
最新トピックスPR

過去記事カレンダー