データウェアハウスの処理性能向上と大幅なコスト削減、そしてBI+AIのポテンシャルを最大化する次世代データ基盤アーキテクチャ「レイクハウス」の実力情シス責任者やデータ基盤責任者の方必見

データ経営の重要性の高まりを受け、AI活用を含めてデータの潜在能力を最大限に引き出す必要性が生まれている。だが従来のデータウェアハウスではパフォーマンスが足りないだけでなく、複雑かつ非常に高価で投資に見合った価値を発揮し切れていない。

» 2022年04月05日 10時00分 公開
[PR/ITmedia]
PR

 ビジネスを展開する上で最重要の取り組みの一つがデータ活用だ。ビジネスのデジタル化が進む中で、データは価値の源泉となっていてデジタルトランスフォーメーション(DX)推進に欠かせない。

 今までもデータを取り扱う基盤は取り沙汰されてきた。複数の実績データを基に状況を分析する際に活躍するデータウェアハウスや、ログや映像などの非構造化データから洞察を得るビッグデータ基盤としてのデータレイクだ。両者は扱うデータの種類も活用に必要な技術も異なる。データウェアハウスを持つ企業が、データ活用をうたって新たにデータレイクを構築することもある。

 だが、データ活用が「既存業務の効率化」レベルにとどまり、新たな価値を生み出すまでに至らないことがある。実績系データを分析するビジネスインテリジェンス(BI)のためのデータ基盤と非構造化データから将来を予測するAI活用のためのデータ基盤が分断されたままだからだ。今、求められるのは「BI+AI」のポテンシャルを引き出す新たなデータ基盤アーキテクチャだ。

「レイクハウス」とは何か? 次世代データ基盤アーキテクチャを読み解く

 レイクハウスは、従来型データウェアハウスとデータレイクの長所を組み合わせた新しいアーキテクチャだ。世界的にデータウェアハウスの父とされるビル・インモン(Bill Inmon)氏は、レイクハウスを次のように評価する

 「オープンな環境で多種多様なデータをブレンドし、データエンジニアリング、データサイエンス、そしてデータアナリティクスを有機的に結び付け、組織に信じられないほどの価値を提供できる」

 伝統的に、データウェアハウスはERPやCRMなどの構造データを扱い、データレイクはテキスト、画像、音声、動画などの非構造化データやリアルタイム性の高いストリーミングデータを扱ってきた。

 企業に眠る全データを活用することの必要性が高まる一方、異なるタイプのデータを処理するためにはデータウェアハウスやデータレイク、ストリーミング基盤をバラバラに構築せざるを得なかった。これを1つのデータ基盤に統合可能なのがレイクハウスだ。

レイクハウスの特徴 レイクハウスの特徴(出典:データブリックス・ジャパン提供資料)

 データウェアハウスは構造化データを対象にしてデータ加工やレポート、非定型クエリなどのBIの仕組みを使って『過去に何が起きたか』を分析することを得意とする。一方、データレイクは主に非構造化データを対象にして機械学習や深層学習などのAIの予測モデルを使って「将来、何が起きそうか」「何を対処すべきか」を分析する。

 従来、この2つは扱うデータの種類が異なることから別々のシステムを使い、異なるスキルセットで扱う必要があった。複雑かつ硬直化したデータウェアハウスをレイクハウスに移行することで、処理性能の向上とコストの大幅な削減が期待でき、BI+AIのポテンシャルを引き出すことが可能となる。

データウェアハウスを次世代化する「Databricks Lakehouse Platform」

 「Databricks Lakehouse Platform」は、マルチクラウドに対応したシンプルでオープンなデータとAIのための基盤だ。データウェアハウスの観点から3つの特徴が挙げられる。

 1つ目は「Databricks SQL」だ。Databricks SQLは、クラウドストレージのファイルに対してSQL検索やダッシュボードによる可視化をするもので、第三者機関であるTPCの性能評価で、他のクラウド型データウェアハウスよりも処理時間が63%早いことを証明した

 2つ目は「Unity Catalog」だ。Unity Catalogは、利用するデータの辞書化、アクセス権限管理、データ来歴管理をするもので、データのガバナンスとセキュリティを確保する。

 3つ目がデータとAIの民主化を推進する機能群だ。具体的にはGUIベースで機械学習モデルを作成できる「AutoML」、データパイプラインの実行や品質チェックをする「Delta Live Table」、ノーコードでのデータプレパレーションを実現する「bamboo libs」が挙げられる。

機能とユースケース Databricks Lakehouse Platformの機能とユースケース(出典:データブリックス・ジャパン提供資料)

データウェアハウスの次世代化事例

 Databricksは、グローバルでさまざまな業種におけるデータウェアハウス次世代化の導入実績を持つ。

データウェアハウス次世代化事例 Databricks Lakehouse Platformによるデータウェアハウス次世代化事例(出典:データブリックス・ジャパン提供資料)

 2021年には、ソリューションを中立的に評価する米国調査会社Gartnerのマジック・クアドラント「クラウドデータベース管理システム(DBMS)」および「データサイエンス・機械学習プラットフォーム(DSML)」の両部門でリーダー企業に位置付けられている。

 データ活用基盤を意味あるものにするには、ユースケースシナリオの精査が重要だ。同社は業界ごとに詳細なシナリオを用意し「ソリューション・アクセラレーター」として整備する。どのシステムと何のデータをつなぎ、どうフィードバックを送るか、そしてそのために各システムからどのようにデータを収集するべきかを、業界や要件ごとに詳細に落とし込んだシナリオだ。

 これは7000社を超える同社のユーザー企業が取り組んだ成功事例やベストプラクティスがベースになっている。業種横断的に共通するものもあれば、業界に特化したものもある。以下に一例を挙げる。

業界横断的なユースケース:

  • 需要予測、在庫&ロジスティクスの最適化
  • 顧客生涯価値の最大化、解約回避
  • レコメンデーション、パーソナライゼーション
  • サイバーセキュリティ対策

業界に特化したユースケース:

  • 製造業におけるIoT故障検知や品質管理
  • 金融サービスにおける株価予測、不正検知や保険・格付会社でのESBスコアリング
  • 医療分野でのゲノム分析、論文検索、疾病予測

 Databricksは、ビッグデータに対する高速分散処理技術として広く知られる「Apache Spark」の開発者らが集まって創業した。2019年の「Delta Lake」「MLflow」の開発とLinux Foundationへの寄贈を皮切りに、2020年にはセルフサービスデータ分析ツール「Redash」の買収、高速クエリエンジン「Photon」の開発と「データとAIの民主化」を目指す機能拡充を進めてきた。同製品が単一のプラットフォームでBI+AIを実現しているのはこれらの包括的な機能強化の成果でもある。

 Databricksを語る上で外せないのが、これらの高度なデータ活用基盤を「数クリックで環境を構築できる」という点だ。自社でインフラを整備しなくともサービスとして利用を開始できる。

竹下 俊一郎氏 データブリックス・ジャパン 竹下 俊一郎氏

 Databricksの日本法人データブリックス・ジャパンのシニアパートナーソリューションアーキテクトである竹下 俊一郎氏は次のように語る。

 「NetflixやUberなどの名だたるData+AIの巨人企業が巨大な投資をして実現したデータ基盤と同等の仕組みを、数クリックかつサブスクリプション費用のみでスモールスタートが可能なのがDatabricksの強みです。データ活用はTechジャイアントと呼ばれる大手企業だけのものではありません」(竹下氏)

 データブリックスは、Lakehouse Platformによるデータウェアハウスの次世代化に向けて幾つかの支援プログラムを用意する。具体的にはログ情報などを基にした最適な移行プランの提案だ。また、顧客企業別にワークショップを実施している。詳細は文末のウェビナーに参加いただきたい。

 ここまでで見てきたように、Databricksはエンタープライズレベルで利用できるBIとAIのためのデータ基盤だ。国内外でさまざまな業界の採用実績があり、そのユースケースシナリオも多岐にわたる。

 データブリックス・ジャパンでは実践例を、ユーザーコミュニティー「JEDAI」(ジェダイ)の活動を通じて広く公開している。定期的に開催されるイベントでは導入企業の実践例を実務担当者の生の声で聞くことができる。「テーマ別セッション」として最新の技術動向をデータ+AIのプロが解説する企画も開催する予定だ。

 コミュニティーイベントにはユーザー企業でなくても参加できるので、Databricks利用の実際や、データ+AIの実践例に触れてみてはいかがだろうか。

ウェビナー「DWHのモダナイズ化でコスト削減とパフォーマンス向上を実現」

日時: 2022年4月19日(火)16:00 - 17:00

データブリックスが提供するレイクハウス・プラットフォームが、どのようにレガシーなDWHの課題を解決しコスト削減を実現するのか、技術詳細や実際の移行事例とともにご紹介します。

申し込みはこちらから

ホワイトペーパー

データレイクハウスの構築 ビル・インモン - データウェアハウス提唱者

本書は、データレイクハウスの構築を成功させるための5つの重要な要素について詳しく解説しています。
1. エンタープライズにおけるデータの大半が既に格納されているデータレイクをまず活用
2. データレイクのデータ品質の向上とガバナンスの強化
3. データの最適化によるクエリの高速化
4. 機械学習のネイティブなサポート
5. オープンなデータフォーマットと API で、ロックインを回避

Copyright © ITmedia, Inc. All Rights Reserved.


提供:Databricks Japan株式会社
アイティメディア営業企画/制作:ITmedia エンタープライズ編集部/掲載内容有効期限:2022年4月21日