ビッグデータ基盤から「ビジネスデータのAI分析基盤」に進化したDatabricks――笹 俊文氏に聞く

Databricks日本法人トップに、ビジネスアプリケーションデータを深く理解する人物が就任した。日本企業におけるデータ活用やAI活用のこれからについて話を聞いた。

» 2023年05月24日 08時00分 公開
[谷川耕一ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 Databricksは、「Apache Spark」をベースとしたビッグデータ処理基盤をクラウドで提供する企業として2013年に誕生した。従来、OSSを組み合わせたシステム構築が必要だったApache Sparkの実行環境をクラウドで提供することで、ビッグデータ分析のプロセスを簡素化し、拡張性が高く効率的な分析プラットフォームを提供して注目を集めた。

 非構造化データを蓄積するデータレイクとしての機能だけでなく、構造化データや半構造化データも同一基盤で取り扱うことができ、データウェアハウスのようにSQLやACIDなトランザクションに対応しており、スキーマ定義も可能だ。同社はこれを「データレイクハウス」アーキテクチャと呼ぶ。データレイクハウスは汎用(はんよう)でどのような業界でも利用できるものだが、最近は「データブリックス製造業向けレイクハウス」のように業界や業務に特化したソリューション展開も進める。

従来のデータウェアハウス(左)、データレイク(中央)とDatabricksのデータレイクハウスアーキテクチャ(右)(出典:DatabricksのWebサイト)

 Databricksプラットフォームとしては機械学習プロセスの自動化やモデル構築支援機能も強化する。直近では機械学習モデルの運用管理機能をサーバレスで提供する「Databricks Model Serving」や、OSSをベースに独自に商用利用向けにチューニングされたの独自の言語生成AI(人工知能)モデル「Dolly 2.0」も発表したばかりだ(Databricksのブログ記事参照)。

 同社プロダクトは日本国内でも既に日本経済新聞、オムロン ヘルスケア、カルビーなどの企業に採用されており、国内需要の拡大に伴い、2020年9月からは日本法人データブリックス・ジャパンも始動している。

 大企業だけでなく中小規模の事業者の中でもマーケティングや顧客接点改革などでデータを使ったサービス開発が注目を集める中、同社は日本国内のニーズをどう読み、どんな価値を提供する考えだろうか。2023年1月、同社の社長に就任したばかりの笹 俊文氏に、国内におけるビッグデータ活用の動向や同社ビジネスの見通しを取材した。

データブリックス・ジャパン 社長の笹 俊文氏

エンタープライズレベルでAIを活用するにはDatabricksが必要だった

 データブリックス・ジャパン入社以前も笹氏はデータ活用を軸としたビジネス支援に携わってきた。セールスフォース・ジャパンではデジタルマーケティングビジネスユニットの専務執行役員兼ゼネラルマネジャーという要職を務め、インフォアジャパンやJD Edwards(現・日本オラクル)では各産業向けERPを、日本アリバ(現・SAP Ariba)では調達や購買を支援するビジネスアプリケーション領域に携わってきた。企業の課題をアプリケーション側から解決してきた笹氏が、データ基盤のビジネスをリードしようと考えた背景には、現在、日本企業が直面する課題はビジネスアプリケーション層だけでは解決できないとの考えがある。

 「ERPやCRM、HRなどのデータはそれぞれのシステムにサイロ化して格納されてきましたが、今ではそれらをBIツールで透過的に分析して事業に生かす企業が増えています。各データを一元的に可視化できる環境が整ったことで、企業におけるデータ活用は一段と上のステージに進み、今はAI(人工知能)や機械学習技術を活用して未来の売り上げや顧客の購買行動などを予測したいとのニーズが増えています」と笹氏は、企業におけるデータ活用のトレンドを説明する。

 機械学習を使った予測分析を実装するスキルを持った人材が増えたこと、クラウドサービスの充実により、大量データを集めて分析するプラットフォームが比較的安価で容易に手に入るようになった。

 とはいえ、いざ高度な予測分析モデルを開発しようとすると、SFAやCRM以外のデータも生かして精度を高める工夫も必要だ。笹氏がDatabricksに可能性を感じたのは「顧客の課題を解決するソリューションを持つ」という点だ。SFAやCRMの「中」で、あるいはBIツールの中でデータを可視化したり予測分析したりする機能を持つ製品はさまざまなものがあるが、多様なデータを受け入れられ、かつAIモデル開発と運用も一貫して実行できる基盤となると選択肢は狭まる。これらの機能を併せ持ち、かつデータレイクハウスというリアルタイムに近いデータを扱えるアーキテクチャを持つDatabricksプラットフォームは、自身の過去の顧客企業が抱えた課題を解決するポテンシャルがあると考えた。

リアルタイムでのデータ統合とAIを生かした将来予測が必要な理由

 コロナ禍を境に、購買行動を始めとするさまざまな社会活動が急速にオンライン化した。生活のあり方やビジネスの進め方も大きく変化している。

 小売業を見れば、商品販売の軸は実店舗からEコマースへのシフトや、オンラインで注文して実店舗で受け取るといったリアルとバーチャルの融合の動きもある。このような変化に対応するには、単にEコマースのサイトを充実させるだけでなく、「実店舗や倉庫の在庫管理を含め、裏側のデータの仕組みを変える必要がある」と笹氏は指摘する。

 ECサイトで顧客の購買履歴などに応じて「お勧め商品」を提示するのは、今では当たり前になった。また、企業側も商品の切り替えサイクルが早まる中では、ECと実店舗や倉庫の在庫を別々に持つようでは無駄がかさみ、競争力を落とすことになりかねない。ECでカートに入れた商品が遠方の店頭在庫にしかない場合は、すぐにその在庫を確保して配送の手配もしなければならない。

 このような事態を回避するには、日次バッチなどで遅れて反映していた情報をリアルタイムなものに切り替えていく必要がある。それには、在庫や顧客の購買履歴などのデータをリアルタイムで統合して把握しなければならない。将来の在庫の余剰を最小化するには、さらにそれらの統合されたデータとSNSのトレンドや気象条件といった外部データを加味した需要予測も必要だ。

 過去の結果データに基づく実績の分析のみでは「過去に商品Aを買ったから次も類似商品A’を買うだろう」程度の予測しかできない。実際には高頻度で何度も同じジャンルの商品を購入することは考えにくいが、実績データのみではそれ以上の判断が難しい。

 一方、多様なソースに基づく特徴量を分析して多様な軸で関連性を発見できれば「過去に商品Aと商品Bを買っているならば、それらと組み合わせた使い方をしている可能性が高い。この場合、さらなるオプションとしてSNSでも話題になっている商品Cを次に購入する可能性が高い」といった商品を提示できオファリングの「打率」「精度」を効率的に高められる。笹氏はこれを「パラダイムシフトだ」と表現する。

 さまざまなデータを使って高度な分析を行い、そこから得た知見をビジネスの変革に結び付ける――。この動きは欧米が先行している。日本の場合、既存データがサイロ化していることなどが障壁となり、すぐに実現できない点が課題だ。

 SaaSが普及したことで、個々のアプリケーションの中で新しいAIの技術を活用する動きは加速している。しかしそれだけではビジネスプロセスを大きく変革するような動きにはならない。「エンタープライズレベルで機械学習をどう活用できるかを考える必要があるでしょう。これはDatabricksにとっても大きなテーマです」(笹氏)

DatabricksにおけるAIモデル運用フローのイメージ。モデル構築からデプロイメントの管理、モニタリング、チューニングによる最適化といったAIモデルライフサイクル全体をカバーする(出典:DatabricksのWebサイト)

 AI関連でいえばここ数カ月は「ChatGPT」などの大規模な言語生成モデルが注目を集める。従来の特定の課題解決をするものと異なり、幅広い課題の解決に利用できる汎用AIであるため、これを企業がどう活用していけるかはビジネスデータを扱うDatabricksとしても関心を持っているという。「経営層の方々と対話をしながらDatabricksのプラットフォームでの対応を進めたい」(笹氏)

データサイエンティスト不足の各業界のデータ利活用をパートナーとともに推進する

 大量なデータを集め、機械学習を使って高度な予測を実現したいと考える企業は日本でも確実に増えている。とはいえ近年は大学などの教育機関がデータサイエンティスト育成に力を入れているが、日本にはまだデータサイエンティストのような高度なスキルを持つ人材が少ない状況だ。

 業務ごとに分散したデータを統合する仕組みは従来からある「データウェアハウス+ETL」の組み合わせがあるが、リアルタイムでデータを見る俊敏性は求めにくい。メガスケーラーと呼ばれる主要パブリッククラウドにもデータを統合して活用するためのサービスも多数用意されているが、「それらをつないで、それぞれの企業のビジネスシナリオに沿ってデータの価値をモデル化するようなコンサルテーションが日本では足りていません」と笹氏は指摘する。

 小売業におけるサプライチェーン最適化のモデルを精緻化する体制はあっても、そのためにどのようなサードパーティーデータが市場にあり、どれを選んでどう組み合わせれば良いかを判断するのが難しい。これらを全て内製で進めることは現実的に困難なため、各分野のプロフェッショナル、ビジネスエキスパートがサポートすることも多い。そのためDatabricksでは各分野の専門スキルを持ったパートナー企業と積極的に協業する考えだ。

 「大手企業が次のビジネス成長に向けたIT戦略を考える時、もはやデータ統合がテーマとなることはないでしょう。すでにそのフェーズは終わりつつあり、今後はビジネスの中でのデータ利活用をどう実現するかという『高度なビジネス課題の解決』がテーマとなっていくはずです。私たちはその道筋を示さなければなりません」と笹氏はパートナー戦略の意義を説明する。データ統合を前提に、ビジネスシナリオに沿ったデータ利活用を提案するために、大量データの扱いに慣れており、かつビジネスシナリオに沿った提案おできるパートナーと組む考えだ。同氏は「今後、日本国内ではその機会が増えると考えています」と自信をのぞかせた。

即座に事故を防ぐShellのAIモデル運用に見るリアルタイムでのAIモデルチューニングの必要性

 海外には既にDatabricksプラットフォームを活用して『高度なビジネス課題』を解決した事例も多数ある。例えば石油会社のShellは、ガソリンスタンドでの顧客の映像をAIを使ってリアルタイムに分析することで重大事故の発生を未然に防いでいる。ガソリンスタンドに設置されたカメラでデータを取得するとなれば、「いつ何台のクルマが来て何人がクルマの外に出たか」の計測を思い付くかもしれない。そのようなデータも稼働状況の把握に役立つだろうが、そこから何か新しい価値を創出するアイデアを思いつくのは難しいかもしれない。しかし、集まるデータへの見方を変えられれば数量以外の新しい情報を生かせる可能性もある。

 ここで挙げたShellの事例では、リアルタイムのストリーミング画像から、「顧客がたばこを取り出す動き」を瞬時に検知している。検知結果をスタンドのマネジャーにアラートで発信し、マネジャーはポンプをすぐに無効にして事故を回避する。汎用のビデオ解析エンジンに対して、大量の教師データを適用して「たばこを取り出す行為」を高い精度で検知できるようにチューニングした成果だ。クルマの台数を数えるくらいであれば汎用のモデルのままで問題はない。しかし「たばこを取り出す行為を瞬時に検知するには、DatabricksのAIモデル構築支援機能が必要でした。汎用のモデルがあるだけではこのようなアイデアの実装まではなかなか思い浮かばないところでしょう」と笹氏は指摘する。

 「今まで手が出なかった難しい領域にまで踏み込まないと、本当の意味での省力化や価値の創出は実現できない時代に入ったと考えています。需要予測パッケージのような既成の商品は世の中にたくさんあります。しかしコロナ禍以降は人の動きが大きく変わり、今までのロジックに頼った予測では現実に対応しきれなくなっています。トレンドの変化が激しい市場では1日に何回も予測モデルをチューニングする必要がある場合もあり得るでしょう。リアルタイムで得られるデータから継続的に今あるAIモデルを評価し続けられるDatabricksのようなデータ基盤はこれから本格的に求められるようになると考えています」(笹氏)

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ