Facebook、AI画像認識技術「DeepMask」などをオープンソース化

公開 2016年08月29日 07時00分

更新 2016年08月29日 06時55分

[ITmedia]

印刷する

　米Facebookは8月25日（現地時間）、同社の人工知能研究機関「Facebook AI Research（FAIR）」で開発している画像認識関連の3つの技術「DeepMask」「SharpMask」「MultiPathNet」をGitHubで公開した。

　まだ発展途上のこの技術をオープンソース化することで、外部研究者の協力を得て精度を向上させるのが目的だ。

　FacebookはFAIRの立ち上げ当初から、「コンピュータビジョン」と呼ばれる研究分野に注力し、コンピュータに人間と同じレベルの目と脳を持たせることに取り組んできた。

　今回公開した3つの技術は画像内のオブジェクトを抽出して識別するためのもので、同社が4月に発表した視覚障害者向け音声キャプションにも採用している。

　FAIRの博士研究員、ピョートル・ダラー氏は以下の画像で、コンピュータビジョンの実現の難しさを説明している。左が人間が見る写真、右は同じ画像を“コンピュータの視点”で再現したもの。コンピュータにとっては、画像はピクセル1つずつの色価（色の明度、彩度の相対値）を数値化したものの集まりでしかない。

右は“コンピュータに見える”写真（画像：FAIR）

　この色価の集まりからオブジェクトを抽出・認知するために、FAIRでは「深層畳み込みニューラルネットワーク」という技術を応用したこの3つの技術で構成するシステムを開発した。

　3つの技術の分担を大まかに言えば、DeepMaskが画像内のオブジェクトを抽出し、DeepMaskが抽出したオブジェクトの輪郭をSharpMaskが描き、輪郭がはっきりしたオブジェクトが何かをMultiPathNetが解析する。

　以下の4つの画像は、このシステムで画像を解析した結果の例だ。例えば左上の画像では、5つのオブジェクトを抽出し、それぞれに正しいラベル（キリン、シマウマ、人間、ベンチ）を貼っている。

DeepMask+SharpMask+MultiPathNetによる画像抽出・認知の例（画像：FAIR）

　「完全ではないが、数年前には存在すらしなかった技術による結果だと思えば悪くない」（ダラー氏）

　ダラー氏は、将来的にはこれらの技術を拡張現実（AR）と統合し、商業や医療分野で活用できるとしている。例えばスマートフォンのカメラで映した料理のカロリーを画面上に表示したり、通りすがりに見かけて気に入った商品をスマートフォンで映すことで商品名と価格、「今すぐ購入する」ボタンを表示するといったサービスが考えられるという。また、この技術を動画でも利用できるようにすれば、生放送に自動でコンピュータによるナレーションを付けることも可能になるとしている。