データブリックス・ジャパンが大規模言語モデル(LLM)を構築するツール「Mosaic AI Training」の日本での提供を始めた。GPUの効率的な割り当てやエラー発生時の自動対応機能などで時間やコストの圧縮ができるとしている。
この記事は会員限定です。会員登録すると全てご覧いただけます。
データブリックス・ジャパンが2024年6月、同社の「データ・インテリジェンス・プラットフォーム」(DIP)で、独自の大規模言語モデル(LLM)を構築できるツール「Mosaic AI Training」の提供を始めた。GPUのスケーリング機能やエラー発生時のリカバリー機能などを備える。Databricksの基盤でデータ管理と整形をやり、Mosaic AI Trainingでモデルを構築するといった使い方ができる。
Databricksといえばデータウェアハウス(DWH)をはじめとするビッグデータ分析基盤を提供する企業だ。2023年にはそこから発展してAI分析基盤として、データの収集・蓄積基盤とAIの統合を進めた。
データブリックス・ジャパンの笹 俊文社長は5月の記者発表会で「一昔前なら、データはDWHで使うのがメインでした。AIは要素技術であり、ユーザーがAIを教育するイメージはなかったと思います」と振り返った。
今では、Metaの「Llama 3」やDatabricksの「DBRX」といったオープンソースのLLMが公開され、各社が用途に応じて自社データを組み合わせて活用するという考え方が認知され始めている。
Mosaic AI Trainingでは短期間に大量のGPUを割り当てて学習を並列化することで効率化を図る。
一定数のGPUを長期的に予約するのではなく、本学習時には大量のGPUを使い、テストやファインチューニングのフェーズでは少量に抑えるなど、必要に応じて割り当てるGPUを調整することでコストを圧縮できるとしている。
LLM構築の効率を下げる要因にはハードウェアエラーによる手戻りもある。Mosaic AI TrainingはGPUの障害を検知して学習時のハードウェアエラーから自動で復旧する機能でこれに対応する。
笹社長はデータとAIを活用するに当たっての課題として、データとAIのサイロ化、ガバナンス、属人化を挙げた。
「データとAIがサイロ化されてしまって、データが集まってもAIに活用できない、自分たちのデータをうまく使えないこともあります。AIをユーザーに提供するパーソナライゼーション機能などに使おうとすると、顧客データを扱うのでプライバシーを管理しなければなりません。高度な技術を持つ従業員に依存する問題も生まれます」
そこでDatabricksが提案してきたのがデータレイクハウスだ。これはDWHに似たデータ構造や管理機能をデータレイクで使われるストレージに実装することで統合したもので、非構造化データも含めて迅速に処理できるとしている。
ここに生成AI関連の機能を追加したものがDIPだ。DIPには自然言語による指示を生成AIでSQLコマンドに変換する機能や、必要な情報を検索などで外部から取得する「RAG」、ガバナンス管理機能などがある。
「これまで、直にデータを引っ張ってきて見る場合にはSQLコマンドが必要でした。顧客からはSQLコマンドが分からないユーザーでもデータを取得できる簡単な機能を作ってくれないかという希望が多かったです」(笹社長)
ユーザーが自然言語で伝えた要望は自動的にSQLコマンドに変換され、データの取得や図表の作成ができる。データブリックス・ジャパンは今後、このDIPの展開を強化するとしている。
Copyright © ITmedia, Inc. All Rights Reserved.