ITmedia NEWS > 企業・業界動向 >

使いたいときにHPCが使えない──研究者の悩み、クラウドで解決できたワケ ゲノム解析の現場を救ったAWS活用(1/2 ページ)

» 2022年12月12日 10時27分 公開
[吉村哲樹ITmedia]

 近年、生物学の分野で急速な発展を遂げている「ゲノム研究」。生物の遺伝情報(ゲノム)を解読して、その種の基本性質や進化の過程、さらには未来までも予見できるとされる分野の研究だ。コンピュータを使って大量のゲノム情報を高速解析する「バイオインフォマティクス」の発展により急速に進歩し、2022年にはヒト(ホモ・サピエンス)のゲノムが完全に解読されるまでに至った。

 このゲノム研究とバイオインフォマティクスの国内における先駆者の一人が、自然科学研究機構基礎生物学研究所で教授を務める重信秀治氏だ。同氏の研究室では現在、国内のさまざまな大学や学術機関と共同で、多種多様な生物のゲノム解析を進めている。年間約50もの共同研究プロジェクトが進行しており、その過程では膨大な量のゲノム情報を解析する必要がある。そのためには、大量・高速のデータ処理を可能にするHPC(High Performance Computing)の環境が欠かせない。

photo 基礎生物学研究所(同研究所の公式サイトから引用)

 多くの大学や研究機関では、ゲノム解析のように大量の演算・データ処理が必要な研究用に、独自のHPC環境を構築・運用している。ただしHPCの導入には高額な費用が掛かるので、通常は複数のユーザーでコンピューティングリソースを共同利用している。こうした利用形態によってHPC環境の利用効率を高めるとともに、費用対効果の最適化を図っているわけだ。

 一方で、他のユーザーと環境をシェアしなくてはならず、時には利便性を犠牲にしなければならない場面も生じる。重信氏の研究室でも独自にオンプレミスのHPC環境を導入していたが、共同研究に関わっている数多くの研究者の間で共用しており、必ずしも使いたい時に使えるとは限らなかったという。

 そこで、基礎生物学研究所では米Amazon Web Servicesが提供するHPC向けクラウドサービスを採用することで課題を解決。これまで発生していた“作業待ち”の時間を減らすことに成功したという。基礎生物学研究所によるクラウド活用はどのように実現したか。取り組みを支援したクラスメソッドのオンラインイベント「Classmethod Showcase 2022」(10月25〜28日開催)で、重信氏が語った。

HPC環境の「ジョブ待ち」に悩み 一方で海外ではクラウド活用の機運

 「一般的なHPC環境では、各ユーザーが投入した計算処理の『ジョブ』をジョブスケジューラ(ジョブをいつ実施するか制御する仕組み)がまとめて管理し、それぞれに適切な計算リソースを割り当てて処理を実行する。しかし多くのジョブが投入されると、どうしても『ジョブ待ち』の時間が発生してしまう。またオンプレミスのHPC環境を構築するためには多額の予算を調達する必要があり、その手続きに長期間を要する他、導入後も運用やメンテナンスのためにかなりの人手を要する」

 従来のHPC環境を抱える研究機関の課題について、重信氏はこう話す。基礎生物学研究所も例外ではなく、同様の課題を抱えていたという。

 一方で、近年では海外の研究機関を中心にクラウドサービスを使ってHPC環境を構築することで制約を克服しようという動きも出てきている。クラウドならこれまでオンプレミスのHPC環境の導入や運用、メンテナンスなどにかかっていた手間や時間がほぼ不要になる。必要なときに必要な分だけのコンピューティングリソースを動的に調達できることでコストも最適化できる。

 2020年12月には、アメリカ国立生物工学情報センターが、自ら運営するゲノム情報データベースを、Amazon Web Services(AWS)のクラウドサービスを通じて世界中の研究者に公開した。こうした海外の動向を踏まえて、重信氏らも自分たちがゲノム解析を行うためのHPC環境をクラウド上に構築し、実用性を検証してみることにした。

AWS選定の理由は先行事例 「効率的にスキルを習得できると考えた」

 複数のベンダーのクラウドサービスを比較検討した結果、最終的にはAWSのクラスタ管理ツール「AWS ParallelCluster」を採用することにした。同サービスは、AWSのクラウド環境上に複数のコンピューティングノードによって構成されるクラスタ環境を構築・管理できるツールだ。

 ジョブスケジューラ、コンピューティングノード、共用ストレージで構成されるHPC環境の構成を設定ファイルに記述すれば、後はコマンドを実行するだけで、指定した構成のHPC環境を自動的に構築する。

 ジョブスケジューラのソフトウェアとしては、現在多くのHPC環境において広く使われているオープンソースソフトウェア「Slurm Workload Manager」が利用できる。そのため、これまでオンプレミスで運用してきたHPC環境からの移行も容易という。

AWS ParallelClusterの説明映像

 AWSを選定した理由については「AWSはユーザーが最も多く、技術情報が豊富に出回っているため、最も効率的にスキルを習得できると考えた。AWSの構築・運用を支援してくれるSIパートナーが数多く存在することも、AWSを選定した大きな理由の1つだった」(重信氏)

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.