数百億レコード規模のビッグデータ統計解析基盤にNEC Cloud IaaSを採用

京都大学 大学院情報学研究科 助教 佐藤彰洋博士に、ビッグデータ統計解析研究のクラウド基盤として「NEC Cloud IaaS」を採用した経緯とその効果について、詳しく聞きました。

» 2017年08月30日 10時00分 公開
[PR/ITmedia]
PR

ビッグデータ統計解析を研究対象に

photo 京都大学 大学院情報学研究科 助教 佐藤彰洋博士

――佐藤先生の現在の取り組みについて教えてください。

 現在、私は「グローバル・システムの持続可能性評価基盤に関する研究」に取り組んでいます。これは科学技術振興機構「さきがけ」プロジェクトにより先端研究として採択され、既に予算化されています。予定研究期間は、2015年10月から2019年3月までの3年半です。

 この研究の意義、内容は「従来は莫大な手間、費用、時間をかけて実施していた社会経済データの収集と統計の作成およびその解析を、ビッグデータ解析基盤を使って短時間かつ自動的に処理し、意思決定支援を行える基盤の構築を目指す」というものです。

 ビッグデータの収集は、インターネット上に公開されている経済、社会の一次データを、クローリングにより継続的に自動収集して行います。さらに、これに、政府統計ならびに政府統計個票データから再集計される個別統計、ならびに衛星データを独自に開発した世界メッシュコード体系を用いて統合する研究を行っています。データ規模は数十億〜数千億レコードを見込んでいます。

 一例として、航空機の席数データ解析を説明してみましょう。LCCの増加などにより民間航空機の便数(席数)は飛躍的に増えています。2016年現在、世界全体の航空機の席数は、年間で46億席です。地球の人口を70億人として、その半分以上を輸送できるキャパシティーに達しているわけです。また一日当たりの乗客数はざっと1000万人です。つまり東京都の人口に匹敵する数の人間が、一日のうちに飛行機に乗り空に浮かんで、この地球上を移動できるわけです。

 ビッグデータ統計解析基盤上に、運行席数、乗客数を含む商用タイムテーブルデータを日次ベースで蓄積しています。これにより、どの国のどの空港に何機・何席が離着陸したかを集計・解析し、図のような形で視覚化できます。

photo 2014年における、空港ごとの年間離発着便数と年間離発着座席総数(色の濃淡が便数を、円の大きさが座席数を表す)

 データを継続的に収集分析することにより「人類全体の航空機の利用トレンド」をリアルな実数で認識することが可能になります。

 最近ではインターネット上の一次データの自動収集という手法が注目されています。この手法では、インターネット上のデータを毎日、大量収集し蓄積するので、データ量は必然的に膨大になります。このビッグデータを適切かつ高速に集計・解析するにはそれに応じた高性能のシステム基盤が必要になります。その基盤にNEC Cloud IaaSを使っているわけです。

クラウド基盤に求めた要件――高い可用性と低コスト

――今回、クラウド基盤サービスはどのように選定したのでしょうか。

 まず、インターネット検索や友人からの口コミなどを通じて候補サービスをリストアップしました。最終的にNEC Cloud IaaSを含む国内外の主要6サービスを比較検討しました。このときの比較基準、要件は次の通りです。

要件1.可用性と拡張性:高い可用性を含むハイスペックな基盤が利用できること

 クラウド基盤サービスにもさまざまあり、月額500円で始められるワンコインクラウドのような簡易メニューもありますが、それとは一線を画した高機能、高可用のクラウド基盤であることを求めました。特に今回の研究は「クローラーが毎日データを自動収集、蓄積する」「その結果はWebページを通じて24時間365日公開する」という形式なので、なおさらシステム基盤には高い可用性が求められます。

 今回、NEC Cloud IaaS導入にあたり、データベース部分に「高可用性モデル」を採用したのもそうした理由からです。さらに、大容量ストレージが利用でき、かつその費用対効果が高いことも魅力の1つです。研究の進捗にあわせてストレージを段階的に増設できることが重要と今回は考えました。

要件2.価格:データ通信量やディスクアクセス数に依存しない定額課金制であること(従量課金制でないこと)によってコストを抑えたい

 クラウドサービスの中には「従量制」課金のものが多くあります。具体的には「データ通信の単位量あたりいくら」「ディスクアクセス1回当たりいくら」のように小さい費用が少しずつ積み重なっていく課金システムです。これはこれで「使っただけ課金」という意味で明朗会計かもしれません。しかし今回のビッグデータ収集分析は、クローラーが毎日のように一次データをインターネット上から収集してディスクに書き込みを行い、日々それを集計・統計分析するというものです。

 また研究が継続あるいは拡大すれば、データの収集頻度・範囲も拡大し、それに伴い通信量やディスクアクセス数も拡大します。こうした状況で、従量課金制のクラウドサービスを使うと、研究が進むにつれ月々の費用も莫大になります。想定外の課金が発生するリスクもあります。そうした不都合を避けるためにも、いくら通信しても、いくらディスクアクセスしても費用が一定である「定額制」課金であることを求めました。

要件3.明確なサービスメニュー:積算しやすく予算申請書に記述しやすい価格体系であること(コスト算出が容易で迅速に予算計画が立てられること)

 今回のクラウド基盤は、科学技術振興機構より獲得した予算に基づき大学の購買制度にのっとって調達することになります。提出する購入申請書には「年額ベースで○○円」のように概算見積もりを記述する必要があります。

 このとき従量課金制のサービスの場合、どれだけ費用がかかるか事前に読み切れません。ある程度、固定費として見なして予算計画を立てることが可能な、定額課金制の価格体系が望ましいと思われました。

 また、費用についてはある程度メニュー化されていて簡単にスピーディーに見積もれるものが望ましいと考えました。候補となったクラウドサービスの中には、詳細な規定を読み込んで精密に積み上げ算するようなものもありました。その場合、全ての規定・仕様を理解しないと積算ができません。それでは見積もりに時間がかかりすぎて、研究時間の減少につながります。

要件4.使いやすさ:インタフェースが良いこと(時間の有効活用)

 私の研究活動は「全体を構想すること」「数式を考えること」「それを実現するプログラムを組むこと」となります。システム基盤の構築・運用のようなSE的な業務はなるべく少なくしたいところです。しかし個人研究となるとそうは言っておられず、SE作業も含め全て作業を自力でこなす必要があります。SE作業の最小化のためにも、ユーザーインタフェースやマニュアルは直感的で分かりやすいものであることを求めました。要は使い方で迷って時間を無駄にするのは避けたかったということです。

 以上の要件をもとに、候補6サービスに対し、「資料請求による表面仕様(性能、経済性、機能性)の比較」「試用版の活用による実際比較」などを通じて詳細に検討したところ、NEC Cloud IaaSが私の求める理想像に最も近かったので、これを採用することに決めた次第です。NEC Cloud IaaSは特に“可用性”と“定額課金制による価格優位性”の2点で、他サービスと比べて強い優位性がありました。

NEC Cloud IaaSへの評価

――1年にわたりNEC_Cloud IaaSを使い続けた評価をお聞かせください。

 まず可用性の高さについては期待通りです。導入当初と比べ、レスポンスが速くなった印象さえあります。恐らくNEC側でシステム基盤を継続的に改善しているのでしょう。こちらが何もしなくても勝手にシステムが改善されていく。これもクラウドの良い点です。

 次にインタフェースなど操作性ですが、マニュアルにもポータルにも満足しています。知りたいことがすぐ分かるので、研究時間が無駄に奪われることがありません。数回メールサポートを依頼しましたが、迅速に回答していただけました。

 また、物理的に安全なデータセンターから提供されていることによるサービス自体の信頼性はもちろん、万が一、障害が発生した際は迅速な対応を行い、可能な限り情報開示をしていただけるという点に安心感があります。

 「グローバル・システムの持続可能性評価基盤に関する研究」のシステム基盤にNEC Cloud IaaSを導入したことは正解であったと、あらためて実感しています。

photo

――現在クラウド基盤の採用を検討している大学関係者や企業担当者に向けて、先行ユーザーとしてのアドバイスなどあればお聞かせください。

 クラウド基盤サービスの場合、月額500円など低額で簡単に始められるものもあります。研究初期の実験段階ではそうしたサービスを活用するのが手軽で良いと思いますが、「最初は低額でスモールスタートして、だんだん拡張していけば良い」と考えるとうまくいかない場合があります。というのも低額サービスには通信速度やディスク容量などに上限(天井)が設けられていることがあるからです。

 その場合は本格導入のときは低額メニューから本格メニューへ「システムを引っ越す」ことになりますが、その作業はなかなか面倒ですし、それをやっていると研究時間が減少します。将来の利用拡張が見込まれる場合は、最初からそれに適したメニュー、あるいはスムーズに拡張できるサービスを使うのが良いかもしれません。

今後の期待

――NECへの今後の期待をお聞かせください。

 まずは「グローバル・システムの持続可能性評価基盤に関する研究」を成功させることに全力を注ぎます。その後も社会経済データの統計解析という研究をより推進する所存です。NECにはその研究の取り組みを優れたサービスや技術を通じて後方支援していただくことを希望します。今後ともよろしくお願いします。

導入ソリューション

photo

NEC Cloud Iaasを使って構築したシステム構成

photo

資料ダウンロード

IaaS活用事例15選:タカラトミーが基幹システムの運用管理コストを20%削減

IaaS(クラウド基盤サービス)やデータセンターの活用で、具体的にどのような効果が得られるか。タカラトミー、セイコーエプソン、住友生命、やずや、京都大学情報学研究所、東海大学など、さまざまな業種における15種類のIaaS活用事例を紹介する。


資料ダウンロード

クラウド基盤は何を基準に選ぶ?──IaaS・PaaS選びの「5つの要件」

サーバやストレージ、ネットワークのリソースを月額や時間課金で利用できるIaaSやPaaSといったクラウド基盤を利用して、自社のIT基盤そのものをクラウド化する企業が増えてきた。さまざまなサービスがある中、何を基準にサービス選定すべきか?


Copyright © ITmedia, Inc. All Rights Reserved.


提供:日本電気株式会社
アイティメディア営業企画/制作:ITmedia エンタープライズ編集部/掲載内容有効期限:2017年10月22日

ホワイトペーパー

IaaS(クラウド基盤サービス)やデータセンターの活用で、具体的にどのような効果が得られるか。タカラトミー、セイコーエプソン、住友生命、やずや、京都大学情報学研究所、東海大学など、さまざまな業種における15種類のIaaS活用事例を紹介する。

サーバやストレージ、ネットワークのリソースを月額や時間課金で利用できるIaaSやPaaSといったクラウド基盤を利用して、自社のIT基盤そのものをクラウド化する企業が増えてきた。さまざまなサービスがある中、何を基準にサービス選定すべきか?