米大企業の7割が導入する「Databricks」とは何者か? 評価額20兆円の「AI向けデータ基盤」
生成AIの隆盛で頭角を現しているのは、米OpenAIや米AnthropicなどのAIプラットフォーマーだけではない。AIを効果的に活用するにはコンテキストとなるデータが不可欠であり、それを管理するデータベースやデータレイク、データウェアハウスなどを提供するベンダーの存在感も増している。その一つが米Databricksだ。
同社が提供するデータプラットフォーム「Databricks」は米国の代表的な企業群「Fortune 500」の約7割で利用され、未公開企業ながら評価額は約1340億ドル(約20兆円)に達する。5月15~18日に開催した年次イベント「Data + AI Summit 2026」(米国サンフランシスコ)の現地来場者数は3万人に達する見込みで、日本からも500人以上が参加する。これは、米Google Cloudが4月に開催した「Google Cloud Next '26」の参加者数3万2000人に迫る勢いだ。
Databricksの源流は、米カリフォルニア大学バークレー校の研究者らが生んだオープンソースソフトウェア(OSS)にある。業界を代表するビッグデータ分散処理エンジンの「Apache Spark」(以下、Spark)を開発したチームが2013年に創業。その一人、アリ・ゴディシ氏がCEOを務める。それから十数年で、同社は「データとAI」を掲げる巨大企業へと駆け上がった。
「20兆円企業」が提供するデータ基盤
Databricksの中核は、データの管理・分析からAI開発まで可能にする統合基盤だ。データレイクとデータウェアハウスの利点を統合する「レイクハウスアーキテクチャ」を提唱する。
同社によれば、世界2万社以上がこの基盤を利用しており、Fortune 500の7割が顧客だという。日本でもトヨタ自動車や三菱UFJ銀行など名だたる企業が導入を進める。
その仕組みを支えるのは、同社発のOSSであるSparkやオープンテーブルフォーマットおよびストレージレイヤーの「Delta Lake」、メタデータカタログの「Unity Catalog」、機械学習エンジニアリングプラットフォームの「MLflow」などだ。基盤技術をOSSとして広く普及させ、それらを活用したマネージドサービスでマネタイズする戦略を取る。
業績の伸びも著しい。2月の発表によると、年間換算の売上高(ランレート)は54億ドル(約8600億円)を突破し、直近四半期は前年同期比65%超で成長した。年間換算100万ドル(約1.6億円)以上を支払う顧客は800社超、1000万ドル(約16億円)以上も70社を超える。
こうした成長を背景に、同社は2月、総額70億ドル超(約1.1兆円超)の資金調達を発表した。米JPMorganChaseや米Goldman Sachs、米Morgan Stanley、米Microsoftなどが参加したこの調達によって、評価額は1340億ドル(約20兆円)に達する。
AI時代に注目される「レイクハウス」
Databricksは、同社が最初に提唱したレイクハウスアーキテクチャに基づいて構築された製品群を提供する。
レイクハウスは、構造化データ(表形式のデータ)の処理を得意とするが非構造化データ(画像、音声、PDFなどのデータ)を扱いにくいデータウェアハウスと、形式を問わないさまざまなデータの保存には優れているがトランザクション処理やデータ品質に課題があるデータレイクの“いいとこどり”を目指したアーキテクチャだ。
構造化データも非構造化データも「Amazon S3」など単一の安価なオブジェクトストレージに保存し、各ファイルに管理用のメタデータを付与。非構造化データは必要に応じて解析し、構造化データやメタデータと併せて「Delta Lake」や「Apache Iceberg」といったオープンなテーブルフォーマットとして扱う。これによって、データの実体を安価に保存しつつ、構造化データからも非構造化データからもインサイトを引き出せるようになる。
特に最近は、非構造化データに画像認識や文書解析などの処理を掛けた上でAIのコンテキストとして利用するユーザーが増えており、そういった処理と、SQL文による構造化データの処理を一つのアーキテクチャの中で同時に実現できる点が魅力だ。
AIエージェント時代の課題は「コンテキスト不足」
さらに近年はAIエージェント時代を見据えた製品を拡充している。非エンジニアでも自然言語でデータを分析できるAIアシスタント「Genie」、AIエージェント向けに設計したサーバレスのPostgresデータベース「Lakebase」などだ。
3月には機器やシステムのログを収集・分析するSIEM(セキュリティ情報とイベント管理)の「Lakewatch」を発表したり、Data + AI Summit 2026では顧客データプラットフォーム(CDP)の「CustomerLake」を発表したりするなど、データ基盤製品を軸に、さまざまな分野の企業向けソフトウェアを提供し始めている。企業のあらゆる業務プロセスに関するデータをオープンフォーマットで扱い、処理することで、AIエージェントによる効率化を加速できるという見立てだ。
また、同イベントでは新しいデータ処理アーキテクチャ「LTAP」(レイクトランザクション/分析処理)も発表。過去40年間、別々のシステムで実行されることの多かったトランザクション処理と分析処理を統合し、両システム間で発生していた変換処理を不要にすることを目指す。
同じ目的に基づいて提唱されてきた「HTAP」(ハイブリッドトランザクション/分析処理)は単一のエンジンでこれを実現しようとしたことで、それぞれの処理のパフォーマンスが低下するデメリットがあったとDatabricksは指摘。LTAPはトランザクション処理と分析処理を別々のエンジンで実行しつつ、ストレージ層でデータを統合することで、パフォーマンスを落とさずに変換処理を省略できると説明する。
ゴディシCEOは「AIは十分賢い。抱えているのはコンテキストの問題だ」と基調講演の中で指摘する。AI向けのデータ処理に優位性を持つレイクハウスアーキテクチャや、その土台となるオープンテーブルフォーマットは、Databricksが他社に先がけて推進してきたが、今やさまざまなベンダーがそれらを採用した製品を発表した。AIを巡るテック企業の競争も、「賢いモデルを提供できるか」から「コンテキスト供給・管理までを統合したサービスを提供できるか」に焦点が移ろうとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
チームみらい安野氏「牧歌的なAI開発の時代が終わった」 “ミュトス停止騒動”受け
-
2
「AIを使う学生」vs.「使わない学生」、エッセイが創造的なのはどっち? 米大学が2025年に実証実験
-
3
なぜ姫路市の救急病院AIチャットは、2週間で正答率最高90%を出せたのか?
-
4
月間売上1億円超、“推しAI”アプリ「Zeta」がオタク女子わしづかみ ただし危うさも
-
5
「AIコーディング」がたった5年で急進化したワケ NTT「tsuzumi 2」開発者が分析
-
6
Anthropic、デザインツール「Claude Design」を強化 Codeとの双方向連携やCanvaなどへの出力をサポート
-
7
ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究
-
8
Cursor、Gitホスティング「Origin」発表 SpaceXによる買収発表直後に
-
9
【Pythonで学ぶデータ分析】母平均と母標準偏差をベイズ推定する ~ シュークリームの重さは100gと異なるか?
-
10
かんぽ生命、AIで営業支援 “郵便局での一言”拾って保険提案へ 寸劇で分かる活用例
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR