Snowflakeへの期待は前回解説した通りだが、実際にどんな場面でどう使えるのか、Snowflakeだけでは解決できない問題にはどんなものがあるかを整理してみていきます。自社プロジェクトのどこに適用できそうかをイメージしながら読んでみてください。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Snowflake特集連載の第2回は、データ活用においてSnowflakeが実際にどのような課題を解決できるのかについて解説します。データを活用したDXを推進、または進めようとしている企業が抱えるさまざまな悩みや課題に焦点を当て、そのような企業にとってSnowflakeはどんな解決を課題できるかを、ユースケースごとに説明していきます。
2011年にNTTデータに入社。データベースやApache Hadoopなどのインフラレイヤーの構築・運用から、データマネジメントやデータモデリングのコンサルティングまで、入社以来一貫して「データ」のスペシャリストとして多くのプロジェクトに従事。2019年、技術者としてSnowflakeのアーキテクチャにほれ込み、それ以来Snowflake事業の推進担当として主に技術面の検証や導入プロジェクト支援を実施。また社内外のコミュニティーでSnowflakeの魅力を発信している(YouTube:SnowVillage LIVE 002講演動画、twitter:@ryotas_data)。
DXによる企業変革を進める上で、データに基づく意思決定を基本とする「データドリブン」な経営は必要不可欠です。近年は、経営企画職やデータサイエンティストなどの限られた人員だけでなく、組織の全ての人員が組織内外のデータを活用して事業運営に役立てることを「データの民主化」と呼び、これを目指そうとする動きが目立つようになってきました。
データ活用を進めるにはさまざまな課題があり、思うようにデータドリブン経営やデータの民主化を進められている企業は限られます。その要因はビジネスそのものや人・組織の課題など多岐にわたるため、これらに全方位的に対応する必要があります。
いずれにしてもそれらの企業は共通してデータをうまく管理できていない、データ基盤が硬直的でサイロ化している、という点が課題の一つとなっていることは多く、データ活用、ひいてはDXに向けた変革の重要なパーツとして、新しいデータ基盤が求められていると筆者は考えています。
より俊敏で柔軟なデータ基盤が求められる中、これまでのデータウェアハウス(DWH)製品は、性能や機能が優秀であればあるほど、構成が複雑で運用がコスト高になりやすいものでした。その結果、予算の制約から利用者の数を制限するなどの制約の中で使わざるを得ないこともありました。筆者らの経験や実績からも、これまでのデータ基盤は、技術的な制約から個別要件に合わせて複数のデータストアを組み合わせて構築することが多かったのです。このような状況では、運用負荷が高くデータも散在することから、どうしても硬直的なデータ基盤運用にならざるを得ず、結果的にデータ活用を大きく阻害してしまっていることも少なくありませんでした。
いま、データ基盤に求められるのは、以下のような要件だと筆者は考えています。
既存のDWH製品やそれを使ったデータ基盤には、以下のような課題がありました。
一つは、データ量の問題です。企業が取り扱うデータ量は爆発的に増え続けています。「扱いたいデータが既存のDWHに入り切らない」「新規に導入または拡張しようと試算してみるとノード数やそれに伴うライセンス料が莫大になる」という問題はよく起こります。その結果、多くの場合は安価なファイルストレージを使ったデータレイクを採用することになります。
ここで新たな問題が生まれます。DWHとデータレイクのそれぞれの特性に応じたデータ配置を考え、サイロ化させずに平行運用するのは非常に困難です。
データ量が増えるに従い、性能面の問題も大きくなります。日々のバッチ処理で遅延が目立つようになってデータの取り込みが遅れたり、レポーティング画面の描写が遅くて利用者からの不満が出たりして、限られたリソースをやりくりするためにチューニングやリソース管理に苦労して何とかシステムを運用しているケースもあるでしょう。
何よりも、DWHを管理するIT部門にとって、増え続けるデータや性能チューニング、リソース管理、そして積み上がっていくユーザーからの要望に応え続けるだけの人的リソースが圧倒的に不足する中では基本的なメンテナンスに忙殺されて新しいチャレンジをする余力がなく、データ活用によるDXに全く踏み出せないという現実があります。
Copyright © ITmedia, Inc. All Rights Reserved.