1150万文書から関係性を洗い出せ――「パナマ文書」解析プロジェクトComputer Weekly

1150万個のファイル(計2.6TB)からなる「パナマ文書」はどのように解析されたのか? 世界に衝撃をもたらした同文書解析の舞台裏を紹介する。

» 2016年05月25日 10時00分 公開
[Brian McKennaComputer Weekly]
Computer Weekly

 おびただしい量の「パナマ文書」を受け取ったジャーナリストたちがその解析に成功したのは、グラフ型データベースとデータ可視化ソフトウェアがあったからだった。

Computer Weekly日本語版 5月25日号無料ダウンロード

本記事は、プレミアムコンテンツ「Computer Weekly日本語版 5月25日号」(PDF)掲載記事の抄訳版です。本記事の全文は、同プレミアムコンテンツで読むことができます。

なお、同コンテンツのEPUB版およびKindle(MOBI)版も提供しています。

ボタンボタン

 パナマの法律事務所Mossack Fonsecaからドイツの新聞社Seuddeutsche Zeitung(南ドイツ新聞)へ、1150万個のファイル、容量にして2.6TBのデータが送られた。その内容が2016年4月初旬に報道され、以来世界中で議論を巻き起こしている。米ワシントンD.C.に本部を置く「国際調査報道ジャーナリスト連合」(ICIJ)がこの、いわゆる“パナマ文書”の解析を進めており、BBCと『The Guardian』紙がその調査に加わっている。

 ICIJがこの調査で使用しているのが、グラフ型データベース「Neo4j」(Neo Technology)と、グラフ型データベースに特化したデータの発見および可視化ソフトウェア「Linkurious」(Linkurious)だ。ICIJはパナマ文書プロジェクトに最新テクノロジーを結集し、他のメディア組織からの協力を得た。その結果、世界各国の要人と、彼らが税金逃れのために国外のタックスヘイブン(租税回避地)に開設した銀行口座との関係をあぶり出すことに成功した。

 Neo TechnologyのCEOエミール・エイフレム氏は本誌Computer Weeklyのインタビューに答えて、「今回のような情報流出は、10年前でも起こり得た。だが、10年前では今回分かったような事実にたどり着くことはできなかっただろう」と語る。

 エイフレム氏によると、2006年以降、GoogleやFacebookなど、 ビッグデータを操作するテクノロジーの開発に成功する企業がわずかながら現れるようになったという。Googleは2006年にデータストア「Bigtable」に関する論文を発表し、FacebookにはThe Guardian紙やBBCなどの各報道機関が最近採用している「データジャーナリズム」の核心となる分析処理を実行する能力があった。

 2006年はまた、ビッグデータを扱うためのテクノロジーの1つである「Hadoop」をYahoo!が発明した年でもあったとエイフレム氏は指摘する。さらに米NSA(国家安全保障局)に相当する政府機関として、英国にはGCHQ(Government Communications Headquarters:政府通信本部)があるが、この組織もビッグデータの処理能力を持っていると同氏は付け加える。「当社はこのビッグデータ処理能力を民主化している。データの中から言葉を抽出するだけではなく、点と点をつなぎ合わせる機能も重要だ」

 またエイフレム氏によると、 2015年に香港上海銀行(HSBC)の10万件の顧客情報が流出した際にも、Neo4jが活用されたという。「それにしても今回の情報流出は、重要度では人類史上前例がない」

 ICIJのジャーナリストたちは、

  • 法律上の婚姻関係にはないが同居している人々の関係
  • マネーロンダリング目的が疑われる怪しい銀行口座とその所有者の具体的な結び付き
  • その他の金融犯罪や軽微な違法行為など

を、Neo4jとLinkuriousを使うことで把握することができた。

 ICIJのデータおよび調査ユニットでエディターを務めるマル・カブラ氏は次のように語る。「Neo4jは革命的な発見ツールだ。従来の調査ジャーナリズムの手法を根底から覆すものだ。少し前なら、こんな規模の調査は実行不可能だった。本当に素晴らしい」

 一連の文書から、Mossack Fonsecaの社内操作の仕組みが暴露された。この法律事務所は本国外の法人として企業の資産管理を請け負っており、その分野では世界的にも最大手だった。

 Neo4jなどのグラフ型データベースは、テーブルを使うリレーショナルデータベースとは異なり、ノード、プロパティ、エッジ(辺)を組み込んだ構造を使ってデータを定義し、保存する。今回は、グラフ型データベースで企業間のマッピングが実現された。

 カブラ氏は続けて次のように話す。「Neo4jとLinkuriousは画期的な発見ツールだ。何が違法なのか、誰がその犯罪に関わっているのかなどを示すには、関係を提示することが何よりも重要になるからだ。少なくとも1150万点の文書というのは、われわれがこれまでに携わってきたデータ流出調査とは規模が格段に違う。つまりわれわれは、極めて密接に相互関連しているデータで、これほどの分量のものを迅速、容易、かつ効率よく操作することができるテクノロジーを切実に求めていた」

 「またわれわれは、データサイエンティストやソフトウェア開発者に支援を求める必要がないほど直感的に操作できる、使いやすいソリューションも必要だと考えていた。特に技術的なスキルがなくても、世界各地のジャーナリストが自らデータを操作できるシステムを構築したかった。『Linkurious Enterprise』はデータを分析し、安全な方法で知見を共有できる、最適なプラットフォームだった」

 最後にエイフレム氏は次のように付け加えた。「相互に関連を持つテラバイトレベルのデータの解析を試みるなら、現状ではグラフ型データベースが唯一の選択肢だ。従って国際機関、政府機関、金融業界、セキュリティ企業などが真実を追求する場合、これは不可欠なツールとなる」

Computer Weekly日本語版 2014年8月6日号:RAIDはもういらない(転載フリー版)も公開中!

過去の大人気号を無償公開! 閲覧に会員登録は不要! 転載・再配布OK! の特別バージョンです。「大容量HDDでRAIDを組んではいけない理由」を解説した大ヒット企画の他、4本の記事を収録しています。

※本PDFは、TechTargetジャパン会員でなくても無料でダウンロードできます。


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ