Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表

Twitterが、自社で運営している大規模なHadoopクラスタをGoogle Cloud Platformへ移行すると発表。その理由は、Twitterのシステム構成を見てみると推測できるかもしれません。

» 2018年05月18日 08時00分 公開
[新野淳一Publickey]

 この記事は、新野淳一氏のブログ「Publickey」の記事「Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表」を許可を得た上で転載、編集しています。


 Twitterは、自社で運営している大規模なHadoopクラスタをGoogle Cloud Platformへ移行すると発表しました。

 Twitterは基本的に自社でデータセンターを保有して運用してきました。2017年1月にTwitterのブログに投稿された記事「The Infrastructure Behind Twitter: Scale」によると、Twitterのデータセンターは5つの大陸にあり、合わせて数十万台のサーバが運用されています。

 同社が運用しているHadoopクラスタは世界最大級の規模として、以下のように説明されています。

Hadoop: We have multiple clusters storing over 500 PB divided in four groups (real time, processing, data warehouse and cold storage). Our biggest cluster is over 10k nodes. We run 150k applications and launch 130M containers per day.

Hadoopについて:私たちは500PB以上のデータを保存する複数のクラスタを4つのグループに分けています(リアルタイム、プロセッシング、データウェアハウス、そしてコールドストレージ)。最大のクラスタは1万台を超えるノードから構成されており、15万ものアプリケーションを実行し、1日当たり1億3000万ものコンテナを起動しています。

 今回の発表によると、Google Cloud Platformへ移行するのは、そのHadoopクラスタ群とコールドストレージです。前述の説明とは異なり300PBのデータと説明されているため、前述の500PBのうちコールドストレージが300PBとなるのかもしれません。

 この移行によってHadoopのコンピュートとストレージを分離し、より柔軟な構成と運用が可能になるとのこと。

This migration, when complete, will enable faster capacity provisioning; increased flexibility; access to a broader ecosystem of tools and services; improvements to security; and enhanced disaster recovery capabilities. Architecturally, we will also be able to separate compute and storage for this class of Hadoop workloads, which has a number of long-term scaling and operational benefits.

このマイグレーションが完了すると、迅速なキャパシティーのプロビジョニング、柔軟性の向上、多様なツールやサービスからなるエコシステムの利用、セキュリティの向上、ディザスタリカバリの拡大といったことが実現されるでしょう。アーキテクチャ的には、この規模においてHadoopワークロードのコンピュートとストレージを分離できるため、長期的なスケールと運用のメリットにつながるでしょう。

 前述の記事、「The Infrastructure Behind Twitter: Scale」によると、ストレージの種類別に見たHadoopの割合は、同社のインフラの40%にも及ぶ大きな割合であることが分かります。

photo ストレージ種類別に見たTwitterのシステム構成(出典:Twitter)

 しかし、ハードウェアの内訳で見ると、Hadoopは全体の2割程度であることが分かります。

photo ハードウェアの用途別に見たTwitterのシステム構成(出典:Twitter)

 つまり、ハードウェアの面からすると最大で2割、データ量では最大4割がGoogle Cloud Platformへ移行されると推測されます。Twitterは何を優先してGoogle Cloud Platformへの移行を判断したのか、ここからその理由が推測できるのではないでしょうか。

 この記事は、新野淳一氏のブログ「Publickey」の記事「Twitter、数万台のHadoopクラスタとコールドストレージをGoogle Cloud Platformへ移行すると発表」を許可を得た上で転載、編集しています。


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ