Facebook、AI画像認識技術「DeepMask」などをオープンソース化

» 2016年08月29日 06時55分公開

[佐藤由紀子，ITmedia]

　米Facebookは8月25日（現地時間）、同社の人工知能研究機関「Facebook AI Research（FAIR）」で開発している画像認識関連の3つの技術「DeepMask」「SharpMask」「MultiPathNet」をGitHubで公開した。

　まだ発展途上のこの技術をオープンソース化することで、外部研究者の協力を得て精度を向上させるのが目的だ。

　FacebookはFAIRの立ち上げ当初から、「コンピュータビジョン」と呼ばれる研究分野に注力し、コンピュータに人間と同じレベルの目と脳を持たせることに取り組んできた。

　今回公開した3つの技術は画像内のオブジェクトを抽出して識別するためのもので、同社が4月に発表した視覚障害者向け音声キャプションにも採用している。

　FAIRの博士研究員、ピョートル・ダラー氏は以下の画像で、コンピュータビジョンの実現の難しさを説明している。左が人間が見る写真、右は同じ画像を“コンピュータの視点”で再現したもの。コンピュータにとっては、画像はピクセル1つずつの色価（色の明度、彩度の相対値）を数値化したものの集まりでしかない。

右は“コンピュータに見える”写真（画像：FAIR）

　この色価の集まりからオブジェクトを抽出・認知するために、FAIRでは「深層畳み込みニューラルネットワーク」という技術を応用したこの3つの技術で構成するシステムを開発した。

　3つの技術の分担を大まかに言えば、DeepMaskが画像内のオブジェクトを抽出し、DeepMaskが抽出したオブジェクトの輪郭をSharpMaskが描き、輪郭がはっきりしたオブジェクトが何かをMultiPathNetが解析する。

　以下の4つの画像は、このシステムで画像を解析した結果の例だ。例えば左上の画像では、5つのオブジェクトを抽出し、それぞれに正しいラベル（キリン、シマウマ、人間、ベンチ）を貼っている。

DeepMask+SharpMask+MultiPathNetによる画像抽出・認知の例（画像：FAIR）

　「完全ではないが、数年前には存在すらしなかった技術による結果だと思えば悪くない」（ダラー氏）

　ダラー氏は、将来的にはこれらの技術を拡張現実（AR）と統合し、商業や医療分野で活用できるとしている。例えばスマートフォンのカメラで映した料理のカロリーを画面上に表示したり、通りすがりに見かけて気に入った商品をスマートフォンで映すことで商品名と価格、「今すぐ購入する」ボタンを表示するといったサービスが考えられるという。また、この技術を動画でも利用できるようにすれば、生放送に自動でコンピュータによるナレーションを付けることも可能になるとしている。

コンピュータビジョン＋ARで実現する未来のアプリ例（画像：FAIR）

　Facebookは2013年12月にFAIRを立ち上げ、保有する膨大なユーザーデータを使って人工知能関連技術の開発に取り組んでいる。

Facebook、「猫を飼う女性は独身が多い」などの一般論をAIで検証
Facebookが、国際猫の日（8月8日）を記念して、猫派と犬派の違いを16万人の匿名化したユーザーデータを人工知能技術で解析することで検証した。
Facebook、AI採用の画像の音声キャプションを視覚障害者向けに提供開始
人工知能研究に注力するFacebookが、自社開発の物体認識技術を採用した投稿写真の内容説明読み上げ機能「自動代替テキスト」を発表した。目の不自由なユーザーはサービスに投稿された写真をスワイプすることでその説明を再生できる。
Facebookの2016年は未来技術（VR、AI、Internet.org）元年、とザッカーバーグCEO
Facebookのマーク・ザッカーバーグCEOが、2016年はこれまで培ってきたVR（仮想現実）、AI（人工知能）、Internet.org（万人にネット接続を提供する取り組み）の研究開発の成果を適用し始める年になると語った。
Facebook、ディープラーニング向けハードウェア設計をオープンソース化
人工知能研究ラボを持つFacebookが、自社開発したディープラーニング向けハードウェア「Big Sur」の設計をデータセンター技術のオープンソース化プロジェクト「Open Compute Project（OCP）」でオープンソースで公開する。
Facebook、“ほぼ人間レベル”の顔認識技術「DeepFace」を発表
Facebookの人工知能ラボが、「ディープラーニング」技術を使った顔認識技術を発表した。その精度は人間とほぼ互角の識別率97.25％という。