バイオサイエンスの進化を支える新たなビッグデータ解析技術とは

バイオサイエンスの研究開発において、数億件ともいわれる大量データを迅速かつ効率的に処理することが、新薬の開発や疾病要因の特定に大きな影響を与える。その実現のために不可欠な技術として注目を集めているのが、SAPのインメモリーコンピューティング「SAP HANA」だ。

» 2012年02月20日 10時00分 公開
[PR/ITmedia]
PR

 ペタバイトを超える大量データ、あるいは非構造化データやリアルタイム性の高いデータなどの総称を指す「ビッグデータ」。IT業界ではすでにバズワードという段階を超えて、いかにビッグデータを分析、活用し、経営効果を高めていくかという点に議論が移りつつある。

 あらゆる業界においてビッグデータの可能性が語られる中、昨年11月、三井情報(以下、MKI)とSAPジャパンが共同でユニークな取り組みを発表した。SAPジャパンのインメモリーコンピューティング「SAP HANA」を利用し、バイオサイエンス分野でのビッグデータ解析検証を始めるというものだ。まずは癌細胞のゲノム解析と、創薬開発プロセスにおける化合物データ解析に、ビッグデータソリューションを活用する実験をスタートするという。

 本稿ではMKI 取締役 執行役員 CTO R&Dセンター センター長 加藤幸久氏に、バイオサイエンス業界をめぐる現状から、ビッグデータ活用が開く新しい可能性、そしてインメモリーソリューションとしてのSAP HANAの優位性について語ってもらった。

バイオサイエンスの研究者や医師らをつなぐ架け橋に

 MKIとバイオサイエンスのかかわりについて簡単に触れたい。MKIは2007年に三井物産の子会社である旧三井情報開発と旧ネクストコムが合併して誕生した。旧三井情報開発は1967年に三井物産の情報システム部門から独立発足した企業で、バイオサイエンスの研究開発には1975年から取り組んでいる。以来、30年以上に渡って先進的なIT技術をバイオサイエンスの研究に応用するバイオインフォマティクスを学術機関とともに推進してきた。

三井情報 取締役 執行役員 CTO R&Dセンター センター長の加藤幸久氏 三井情報 取締役 執行役員 CTO R&Dセンター センター長の加藤幸久氏

 R&Dセンターでは、バイオインフォマティクスを含む多くの分野での研究開発を行っているが、「学術機関と異なり、当社は開発に主眼を置いたバイオサイエンスの応用を目指したい」と加藤氏は語る。基礎研究ではなく、ユーザ視点に立った研究開発を目指すという姿勢を一貫している。

「R&Dセンターは、バイオサイエンスに関する研究や医療の現場にとっての起爆剤の種でありたい。現場の技術は非常に大切であり重要だが、個別の技術だけではどうしても物事が解決しないことがある。そうした中で、R&Dセンターは複合的なことを仕掛けながら、現場の医師や研究者と連携し、双方向でコミュニケーションが取れるような基盤になるようまい進していく」(加藤氏)

 バイオサイエンスは国の政策にも大きくかかわってくるため、予算が大きく付くことがあるが、一方で事業支援を引き上げられて赤字に転落してしまうこともある。MKIの社内でも「バイオサイエンス事業の存続を議論したことはある」と加藤氏は振り返る。だが、長い期間に渡って培ってきた専門分野のノウハウや人材をなくしてしまうことはあまりに惜しい。また、ここ数年のIT技術の進化はバイオサイエンスにとっても新しいステージを用意してくれた。

 これまでの積み上げとITがシナジーを生み出すことが可能になってきており、バイオサイエンスはふたたびブレークスルーポイントを迎えている。人材育成を含めてバイオサイエンスを生業のひとつとしてやっていこう――。同社がそう決め、新しい体制でR&Dセンターがスタートしたのが2011年4月のことだった。

バイオサイエンスの大量データ解析に不可欠なリアルタイム性

 MKIはバイオサイエンスに関してどのような研究開発を行っているのだろうか。

 「基本的には数多くの実験データを基に、新しい遺伝子を探したり、生物学的にどういう意味付けがあるかなどを探っていく。例えば、癌の早期診断においては、血液のデータが非常に重要になる。どの物質が出てきたら癌になるのかを調べるには、まず癌になった人とならなかった人の血液データを比較し、物質同士の組み合わせの検証などさまざまな分析を行い、絞り込んでいくわけだ」(加藤氏)

 そのほか、ひところ話題になったゲノム解析もバイオサイエンスでは主流の研究分野だという。例えば、がん細胞のゲノム解析では1サンプルあたり30億もの塩基配列同士を比較し、体細胞の変異パターンの解析を行う。こうした研究を積み重ねていくことで、新薬の開発や疾病要因の特定といった医療の発展につながっていく。

 お分かりのように、バイオサイエンスを支えるのは膨大な量の臨床データである。これらのデータから抽出を行い、さまざまな組み合わせを模索し、解析していく。当然ながらITの力なくしてバイオサイエンスは成り立たない。

 実験と検証を地道に繰り返すバイオサイエンスにおいても、失敗に終わるケースは多々ある。ここ最近の経済事情もあり、製薬会社や研究機関では、研究費が年々削られ、研究期間を短縮させられるところが増えている。短い期間で成果を出すためには、失敗の確率を減らすことが不可欠だ。つまり現在のバイオサイエンスには、従来よりもはるかに高速で、高い精度でデータの解析結果を導き出すITソリューションが必要とされているのである。

 「膨大なデータを使った分析というと、スーパーコンピュータを思い浮かべる人も多いだろうが、スパコンはコスト面でどの企業や研究機関でも導入できるというものではない。もちろんスパコンでしか行えないデータ解析はあるが、自前でリソースを確保するのは非常に難しい」と加藤氏は話す。

 では、汎用的で実用的なプラットフォームを使ってスパコンに迫る結果を得るにはどうしたらいいのか。単にマシンを高速化するだけではなく、実験や検証で得た結果をフィードバックし、現場の臨床システムと連携しながら、研究開発全体のスピード感を高めていくことが重要だという。

 そうしたプラットフォームを探し求めていたときに出会ったのがSAP HANAだった。

さまざまな実績で培われたSAP HANAへの信頼性

 クラウドコンピューティングの利用が一般化し、ビッグデータが浸透する中、R&Dセンターを持つシステムインテグレーター(SIer)として、加藤氏は自社の立ち位置を今一度明確にする必要を感じたと語る。

 「クラウドビジネスはどうしても価格勝負になりやすい。だがR&D、とりわけバイオサイエンスのような特殊な分野にそういった構図を持ち込んでもうまくいかない。一方で、今までバイオサイエンスで使われていたパッケージ製品は、個々の研究内容に合わせて開発し、納めることが多かった。今後求められるパッケージはシステムとして構築していけるもっと汎用的なプラットフォームである必要があった」(加藤氏)

 ビッグデータへの関心が高まるほど、膨大な量のデータを扱い、高速で精度の高い分析結果を必要とするバイオサイエンス分野に求められるのは、データウェアハウス(DWH)やオープンソース分散システム「Hadoop」といった技術と異なるはずだと考えるようになった。

 そうした中でSAP HANAを選んだのは、最大の特徴であるリアルタイム処理における高いパフォーマンスだった。インメモリーソリューションは現在、数多くのベンダから製品がリリースされているが、いわばリアルタイムの先駆者であるSAPが「超リアルタイムビジネスを実現させる革新的製品」と自負するSAP HANAは、その高速性とシステム構築基盤としての可能性で競合他社を大きく凌駕する。

 大量のトランザクションが発生するバイオサイエンス分野においては、それらを迅速に解析し、他の臨床情報と合わせて個別診断に結び付けるような展開が求められる。これまで一人のゲノムデータ解析に数日かかっていた処理を、24時間以内に実現でき、更に医療現場までの活用までを視野に入れるとSAP HANAしかなかったと加藤氏は言う。加えてクラウドやモバイルデバイスでの活用、ERPとの連携など将来を広く見据えたSAPのビッグデータ事業の展開のあり方に、SAP HANA単品ではなく、総合的にビッグデータビジネスを見ている安心感を覚えたと加藤氏は振り返る。

 また、MKIは親会社である三井物産のプロジェクトでSAP HANAによる高速解析を検証したり、ある流通卸向け企業の需要予測にSAP HANAが活用できないかという検証を行ったりしていたという実績も、今回のバイオサイエンス分野での採用の決め手になったという。

 「SAP HANAはパートナーと一緒に進化していくというビジョンが非常に描きやすい。今後、我々のビジネスもバイオサイエンスも世の中の流れと共に大きく変わっていく。同時にテクノロジーも加速度を上げて変化していくことでイノベーションを起こすことができる。そのとき、一緒に前進できるビジネスパートナーがいるのは非常に心強い」(加藤氏)

 これまでSAPにはバイオサイエンスに精通している人材はほとんどおらず、ゲノム分野のパッケージもなかった。さまざまな業種/業界で実績を上げつつあるSAP HANAだが、MKIから癌研究におけるゲノム解析と、創薬開発プロセスにおける化合物データ解析にSAP HANAを活用したいという相談を受けたときは、かなり手強い案件になると感じたという。だが、こういった医療分野でSAP HANAが生かされることは、CSR(企業の社会的責任)の観点からもSAPとして前向きにMKIの人材とともに協力し合っていくとしている。

 具体的に、現在はSAPの上海ラボにおいて、ゲノム解析に適したアーキテクチャのデザインやアプローチの手法、SAP HANAと統計解析ソフトの組み合わせなどを両社で検証中だという。苦労しているのは、目指している目標に向け大量のトランザクションによるボトルネックをどう分散させるかというパフォーマンス向上に関する部分だ。

 トランザクションと解析を1つの筐体で完結させるのではなく、別の筐体に分けた方が効率が良いこともある。ハードウェアのローレベルまで深堀りしてSAP HANAの最適化を図っているというが、このようにほぼ製品化に近い開発は、SAP HANAの細部まで理解しているSAPの人材とのパートナーシップが不可欠だという。共同研究について、現時点ではオープンソースのゲノム解析プログラムをSAP HANAへ組み込んでいるほか、SAP HANA上での分散実行について検証を開始している。

 MKIはこの2月、東京東中野に「先端技術センター」をオープンした。クラウドの本格利用、そしてビッグデータを迎えた今、顧客の視点に立った新しいITサービスを提供していくために、お客様、ベンダー各社と共にここを共同検証の場として活用し、お客様にとっての新たな価値を創造していくことが狙いだ。その中にはSAP HANAによるゲノム解析のような、先進的な取り組みから生まれる知財が大変重要になるという。「当社だけでなく、他社とも協力しながら連合軍を結成して、日本発の先進事例を数多く発信していきたい」と加藤氏は意気込む。

 バイオサイエンスのベストプラクティスを世界に向けて作っていきたい――。SAP HANAという汎用的なコンピューティングシステムの上にMKIのノウハウを載せ、さまざまな研究結果や国の方針なども取り入れる。これまでなかったバイオサイエンスの新たなプラットフォームが提供される日もそう遠くないのかもしれない。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:SAPジャパン株式会社
アイティメディア営業企画/制作:ITmedia エンタープライズ編集部/掲載内容有効期限:2012年3月19日


ホワイトペーパー

データ量の急激な増加を受け、企業はその膨大なデータ管理と活用に悩みを抱えている。今後一層、業務システムに対して、経営層から現場の管理職、ユーザーまでの全員が、Google検索のようなレスポンスの速さを求めるようになる。その処理速度を実現するのが、インメモリーコンピューティングテクノロジーである。

本調査は、オックスフォード・エコノミスク社が2011年3月に、世界13カ国の525名のビジネスリーダーを対象に実施したものである。

インメモリーコンピューティング「SAP HANA」の技術的な特徴と明確な導入メリットを解説する。