リアルタイムデータ活用が日本でも本格化か Databricksが国内SIパートナー拡大を計画

Databricksが日本法人の体制を倍増させる計画を発表した。国内でもデータ統合やデータ基盤刷新の機運が高まるとして、各事業ドメインでSIパートナーを募る計画だ。

» 2023年05月30日 08時00分 公開
[荒 民雄ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 2023年5月25日、Databricksは日本のデータレイクハウス市場拡大を背景に、日本法人の体制を拡大することを発表した。2023年内に従業員規模を現在の2倍に相当する100人以上に増員。日本国内での「Databricks」の認知拡大、各業界の事業ドメインを理解したSIパートナーとの連携も強化する。

 当面のターゲットは金融などのラージエンタープライズから中堅規模までを想定しており、これらに加えて同社ソリューションの基盤技術であるオープンソースソフトウェア(OSS)の『Spark』ユーザーを含むTech系の企業にもアプローチする。

 データブリックス・ジャパン 社長の笹 俊文氏は、「日本企業への認知拡大を図る。日本ではデータ収集・蓄積基盤とAI(人工知能)モデル開発が分断されている企業が多く、Databricksの特徴であるデータレイクハウスの価値や意義を伝える取り組みが必要だ。パートナーエコシステムの強化施策としては、クラウドパートナーに加えてSI、GSIパートナー、産業別、AIパートナーの拡大を強化する。各ビジネスドメインの理解が深いパートナーと一緒に産業別の課題解決を強化する。同時にパートナー企業各社に対する技術支援を含むサポートや情報提供を強化する。ユーザコミュニティ活動も強化する」と今後の方針を説明した。

データブリックス・ジャパン 社長の笹 俊文氏 データブリックス・ジャパン 笹 俊文氏

リアルタイムデータ、AIガバナンスへのニーズを取り込む

 「データは全てのビジネスの源泉ともいえるもの。ところが、企業によってはまだデータがサイロ化して十分に生かされていない状況だ。可視化はできてもビジネスをドライブするところには行き着いていない」(笹氏)

 変化が激しい昨今の市場状況からすると、サプライチェーンをリアルタイムで把握することの意義は大きい。需要予測を短期的に繰り返してチューニングするにはデータウェアハウスも必要だが、多角的な情報から判断するには画像などの非構造化データを扱うデータレイクが必要だ。さらにはデータ加工するETLも必要だ。ガバナンスに配慮しつつ、AIモデルの運用管理をどうするかも検討しなければならない。そもそも、リアルタイムで情報を把握するには日次バッチなどでデータを収集するデータウェアハウスの処理では間に合わない状況も想定される。

 「これらの複雑な環境をメンテナンスするにはここのツールを導入する形では非常に効果で煩雑になってしまう。コピーをせずに鮮度を保ったままデータを扱えるデータレイクハウスの必要性はますます高まるだろう。Databricksのレイクハウフプラットフォームはクラウドデータストレージにあるデータをそのまま利用できるアーキテクチャだ。データのコピーをする必要がない。コンピュートに利用するコストが少なくて済む点も利点となるだろう」(笹氏)

OSSベースのデータ基盤Databricksの特徴

 Databricksは「Amazon Web Services」(AWS)や「Microsoft Azure」(Azure)、「Google Cloud」などの主要なクラウド基盤で動作するクラウド型のデータ基盤だ。AWS、Azure、Google Cloudの日本リージョンからサービスを提供する。PythonやR、Scala、SQLもネイティブで利用できるため、データ変換を経ずにさまざまなアプリケーションから直接問い合わせることが可能だ。OSSのビッグデータ処理エンジンであるSparkをベースに、データの依存関係(リネージュ)をテーブル、カラムレベルでトラッキングして表示できる「ダッシュボード」や、データを利用する際の推奨ロジックなどを共有する「ノートブック」、ユーザーのロールとアクセス制御ひも付けを担うデータカタログ「Unity Catalog」、AIモデルのデプロイやライフサイクル管理を担う「MLflow」などの機能を併せ持つ。

 ライブデータを外部と共有することを目的としたデータ連携プロトコル「Delta Sharing」を公開しており、Unitiy Catalogと組み合わせて社外とのセキュアなデータ共有も実現している。加えて買収したOKERAの技術を基に、機密情報などをAIベースで判定して情報漏えいリスクを管理する機能も持っており、今後データから自動で機密情報を検出する機能も提供する計画だ。

 生成AIについても企業ニーズをくむ。独自の生成AI開発を支援する目的で開発された「Dolly」はバージョン2.0がリリースされたばかりだ。完全OSSで提供しており、Databricksはその開発と商用サポートを担う。

 「日本でも有志によるドキュメント翻訳や整備なども活発。小規模かつ安価に導入できる点が強み」(データブリックス・ジャパン シニアソリューションアーキテクトの弥生貴明氏)

データブリックス・ジャパン シニアソリューションアーキテクトの弥生貴明氏 データブリックス・ジャパン 弥生貴明氏

データエンジニアとサイエンティストの共同作業を効率化、データクリーンルーム構築を目指す

 当日はDatabricksを活用するユーザ企業2社の事例も紹介された。

 カケハシは保険会社や薬局、医薬品卸と物流、病院、患者をつなぐエコシステム構築を目指す企業だ。2022年に全社横断のデータ基盤チームを立ち上げ、2022年7月にDatabricksを導入した。

 「個人情報保護に注意を払う中で十分なデータ利活用ができていなかったことが課題だった。この問題を解決するためにDatabricksの導入を決断。決め手はUnity Catalogを使ったデータの運用管理とデータガバナンス機能だ。DatabricksでAIモデル開発においてデータエンジニアとサイエンティストが一緒に動ける体制ができたことも利点。今後は『Dellta Sharing』を使ったデータクリーンルーム構築を目指している。要配慮個人情報を取り扱うに当たっては中央集権的なデータ管理をしているが、データメッシュ的なデータ管理を実現する『分散オーナーシップ』も確立したい」(カケハシ データ基盤チームマネージャー 松田健司氏)

カケハシ 松田健司氏 カケハシ 松田健司氏

データサイエンティスト拡大を支えるデータエンジニアリング基盤として活用

 1970年代から計算工学の専門組織を持ち、マテリアルズインフォマティクスにも2014年頃から取り組むAGCは、現在、2025年までに100人の「上級データサイエンティスト」育成を目標にデータサイエンティストの人材育成に注力する。

 同社の場合、データサイエンティスト拡大の一方で、AIモデルの運用管理やデータ基盤を扱うエンジニア不足をどう補うかを検討する中でDatabricksの採用を決定した。AGC デジタル・イノベーション推進部 デジタルソリューショングループ部長 等々力 宏氏はDatabricksを次のように評価する。

 「データサイエンティストは多数いるが、一方でデータエンジニアは限られる。データエンジニアに求められるスキルを賄える点がDatabricksの利点。現在、2桁のプロジェクトがDatabricks基盤で動いており、既存システムの置き換えも検討中だ。スモールスタートで利用できるDatabricksのメリットも生かして新たな施策を素早く実行する体制も整えたい。外部と連携してセキュアに社外との連携においても活用できると期待している」

AGC 等々力 宏氏 AGC 等々力 宏氏

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ