米大企業の7割が導入する「Databricks」とは何者か? 評価額20兆円の「AI向けデータ基盤」

 生成AIの隆盛で頭角を現しているのは、米OpenAIや米AnthropicなどのAIプラットフォーマーだけではない。AIを効果的に活用するにはコンテキストとなるデータが不可欠であり、それを管理するデータベースやデータレイク、データウェアハウスなどを提供するベンダーの存在感も増している。その一つが米Databricksだ。

 同社が提供するデータプラットフォーム「Databricks」は米国の代表的な企業群「Fortune 500」の約7割で利用され、未公開企業ながら評価額は約1340億ドル(約20兆円)に達する。5月15~18日に開催した年次イベント「Data + AI Summit 2026」(米国サンフランシスコ)の現地来場者数は3万人に達する見込みで、日本からも500人以上が参加する。これは、米Google Cloudが4月に開催した「Google Cloud Next '26」の参加者数3万2000人に迫る勢いだ。

Data + AI Summit 2026会場の様子(撮影:筆者)

 Databricksの源流は、米カリフォルニア大学バークレー校の研究者らが生んだオープンソースソフトウェア(OSS)にある。業界を代表するビッグデータ分散処理エンジンの「Apache Spark」(以下、Spark)を開発したチームが2013年に創業。その一人、アリ・ゴディシ氏がCEOを務める。それから十数年で、同社は「データとAI」を掲げる巨大企業へと駆け上がった。

アリ・ゴディシ氏(撮影:筆者)

「20兆円企業」が提供するデータ基盤

 Databricksの中核は、データの管理・分析からAI開発まで可能にする統合基盤だ。データレイクとデータウェアハウスの利点を統合する「レイクハウスアーキテクチャ」を提唱する。

 同社によれば、世界2万社以上がこの基盤を利用しており、Fortune 500の7割が顧客だという。日本でもトヨタ自動車や三菱UFJ銀行など名だたる企業が導入を進める。

 その仕組みを支えるのは、同社発のOSSであるSparkやオープンテーブルフォーマットおよびストレージレイヤーの「Delta Lake」、メタデータカタログの「Unity Catalog」、機械学習エンジニアリングプラットフォームの「MLflow」などだ。基盤技術をOSSとして広く普及させ、それらを活用したマネージドサービスでマネタイズする戦略を取る。

 業績の伸びも著しい。2月の発表によると、年間換算の売上高(ランレート)は54億ドル(約8600億円)を突破し、直近四半期は前年同期比65%超で成長した。年間換算100万ドル(約1.6億円)以上を支払う顧客は800社超、1000万ドル(約16億円)以上も70社を超える。

年間換算売上高54億ドル突破、70億ドルの資金調達を発表(出典:プレスリリース)

 こうした成長を背景に、同社は2月、総額70億ドル超(約1.1兆円超)の資金調達を発表した。米JPMorganChaseや米Goldman Sachs、米Morgan Stanley、米Microsoftなどが参加したこの調達によって、評価額は1340億ドル(約20兆円)に達する。

AI時代に注目される「レイクハウス」

 Databricksは、同社が最初に提唱したレイクハウスアーキテクチャに基づいて構築された製品群を提供する。

 レイクハウスは、構造化データ(表形式のデータ)の処理を得意とするが非構造化データ(画像、音声、PDFなどのデータ)を扱いにくいデータウェアハウスと、形式を問わないさまざまなデータの保存には優れているがトランザクション処理やデータ品質に課題があるデータレイクの“いいとこどり”を目指したアーキテクチャだ。

データ処理技術の進化(出典:公式ブログ)

 構造化データも非構造化データも「Amazon S3」など単一の安価なオブジェクトストレージに保存し、各ファイルに管理用のメタデータを付与。非構造化データは必要に応じて解析し、構造化データやメタデータと併せて「Delta Lake」や「Apache Iceberg」といったオープンなテーブルフォーマットとして扱う。これによって、データの実体を安価に保存しつつ、構造化データからも非構造化データからもインサイトを引き出せるようになる。

 特に最近は、非構造化データに画像認識や文書解析などの処理を掛けた上でAIのコンテキストとして利用するユーザーが増えており、そういった処理と、SQL文による構造化データの処理を一つのアーキテクチャの中で同時に実現できる点が魅力だ。

Databricksの製品群。データエンジニア、機械学習エンジニア、データサイエンティスト、アプリケーション開発者などに向けた機能を単一のプラットフォームで実現(出典:公式Webサイト)

AIエージェント時代の課題は「コンテキスト不足」

 さらに近年はAIエージェント時代を見据えた製品を拡充している。非エンジニアでも自然言語でデータを分析できるAIアシスタント「Genie」、AIエージェント向けに設計したサーバレスのPostgresデータベース「Lakebase」などだ。

 3月には機器やシステムのログを収集・分析するSIEM(セキュリティ情報とイベント管理)の「Lakewatch」を発表したり、Data + AI Summit 2026では顧客データプラットフォーム(CDP)の「CustomerLake」を発表したりするなど、データ基盤製品を軸に、さまざまな分野の企業向けソフトウェアを提供し始めている。企業のあらゆる業務プロセスに関するデータをオープンフォーマットで扱い、処理することで、AIエージェントによる効率化を加速できるという見立てだ。

 また、同イベントでは新しいデータ処理アーキテクチャ「LTAP」(レイクトランザクション/分析処理)も発表。過去40年間、別々のシステムで実行されることの多かったトランザクション処理と分析処理を統合し、両システム間で発生していた変換処理を不要にすることを目指す。

 同じ目的に基づいて提唱されてきた「HTAP」(ハイブリッドトランザクション/分析処理)は単一のエンジンでこれを実現しようとしたことで、それぞれの処理のパフォーマンスが低下するデメリットがあったとDatabricksは指摘。LTAPはトランザクション処理と分析処理を別々のエンジンで実行しつつ、ストレージ層でデータを統合することで、パフォーマンスを落とさずに変換処理を省略できると説明する。

 ゴディシCEOは「AIは十分賢い。抱えているのはコンテキストの問題だ」と基調講演の中で指摘する。AI向けのデータ処理に優位性を持つレイクハウスアーキテクチャや、その土台となるオープンテーブルフォーマットは、Databricksが他社に先がけて推進してきたが、今やさまざまなベンダーがそれらを採用した製品を発表した。AIを巡るテック企業の競争も、「賢いモデルを提供できるか」から「コンテキスト供給・管理までを統合したサービスを提供できるか」に焦点が移ろうとしている。

課題は「AGI(賢いAIモデル)が無いこと」ではなく、「AIが業務に適合していないこと」だというメッセージ(撮影:筆者)
印刷する
SNSでシェア

この記事の著者

村田知己

村田知己

ITmedia AI+ 編集記者。市場調査会社でのエンジニア職を経て、2022年アイティメディア入社。キーマンズネット編集部、社内のデータ分析基盤構築担当、ITmedia エンタープライズ編集部を経て現職。

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR