AI活用を見据えたデータ基盤、データ管理は今までと何が変わるかデータを原動力としたAI活用の可能性と課題(1)

近年、企業IT戦略は「クラウドファースト」が注目されてきましたが、生成AIの本格導入が進む中、そのトレンドに変化が見られます。生成AIをはじめとしたAIの効果的な活用が企業競争力を左右するとされる中、その基礎となるデータ基盤、データ管理をどう捉えていくべきでしょうか。ベストプラクティスを学びます。

» 2024年09月19日 08時00分 公開
[大澤毅ITmedia]

この連載について

データを正しく収集、管理、分析することで、企業は業務効率化やDX(デジタルトランスフォーメーション)、競争力強化につなげることができます。最近では、ML(機械学習)や生成AI、LLM(大規模言語モデル)の活用によって成果を上げている企業が増えている。本連載では、データ利活用によって生まれるビジネスの機会や、それを実現するための課題や要点を、具体的な事例を交えて業界別に紹介します。

 企業のITシステムやデータ環境の現況を見てみると、データはオンプレミス環境だけでなく、クラウドやSaaS(Software as a Service)などに点在しており、統合的な管理が課題となっています。また、従来型のITシステムに加えて、生成AIなどの新しい技術の登場によって、これらを効果的に活用するためのインフラ整備が求められています。

次の成長は「ハイブリッドなマルチクラウドデータ機能」へのアクセスがカギになる

 変化を続ける市場において、企業がデータの価値を最大限に引き出すためには、クラウドとオンプレミスの両方に対応したハイブリッド環境の構築が重要です。

 これを裏付けるように、ガートナージャパンは2023年末に、「ハイブリッドクラウド」を2024年に日本企業が押さえておくべきクラウドコンピューティングのトレンドとして紹介しています。また、Clouderaが2024年4月に発表したグローバル調査結果レポート「Data Architecture and Strategy in the AI Era」(AI 時代のデータアーキテクチャと戦略)では、回答者の93%が「企業が変化に適応する上で、データおよびアナリティクスの環境がマルチクラウドやハイブリッドであることが重要だ」と答えています。

 適切なハイブリッドクラウド環境を構築することで、データの収集や管理、分析を効率的かつ効果的に行えるようになります。これからはそれに加えて、新たに導入する生成AIなどを既存のITシステムとシームレスに統合できるソリューションの導入も必要不可欠になります。

 信頼性が高く、安全で適切に統治されたAI環境を構築するための基盤整備は、企業にとって急務の課題と言えるでしょう。「ハイブリッドなマルチクラウドデータ機能」へのアクセスが可能になれば、企業はデータライフサイクル全体をコントロールし、AIの潜在能力を最大限に引き出せるようになります。

コスト削減、顧客体験向上、イノベーション投資のカギを握る「生成AIのための自社データ基盤」には何が必要か

 ここで、近年話題の中心となっているテクノロジーの一つ、生成AIのメリットを考えてみましょう。生成AIは、それ自体でも有用ですが、企業独自のデータ環境を整備することで、その真価を発揮します。例えば、チャットbotや自動レポート生成といった革新的なアプリケーションを導入することで、ビジネスオペレーションに大きな変革をもたらす可能性を秘めています。チャットbotは、特に外部向けの展開には高度なノウハウが必要です。伝統的なルールベースのAIと生成AIを組み合わせて運用することが肝要でしょう。本連載では、東南アジアでの先進事例をご紹介する予定です。自動レポート作成については「Sakana AI」のように、内部向けに博士レベルの方々の知見を論文としてまとめることも可能です。

 生成AIを活用したチャットbotは、顧客サービスの向上に大きく貢献します。スマートなチャットbotは、24時間365日、顧客からの問い合わせに即座に対応できます。ほぼ違和感を覚えることのないコミュニケーションを自動で実行できるようになれば、人件費の抑制にもつながるでしょう。

 生成AIを搭載したチャットbotは、顧客一人ひとりの好みや行動パターンを分析し、パーソナライズされた提案にも有効です。膨大なデータの中から重要な情報を素早く見つけ出し、状況に応じた最適な対応を提供することで、顧客満足度の向上が期待できるでしょう。

 加えて、生成AIは単なる顧客対応だけでなく、業務の効率化にも大きく貢献します。ミスの少ない処理や自動化された報告書の作成が可能なため、従業員の負担を大幅に軽減できます。これにより生み出された時間的余裕は、イノベーションにつながる新たな活動への投資に割り当てられます。

 このように、生成AIは企業の競争力強化に寄与するもの言えます。データ環境の整備と生成AIの導入は、これからのビジネス成功の鍵を握っているといっても過言ではありません。

生成AI利用におけるデータ管理の課題「データガバナンス」に必要な要素

 生成AIをはじめとする先端テクノロジーにより、画像や動画などの非構造化データからも価値を引き出せるようになり、あらゆるデータを活用できる可能性が高まっています。しかし、便利な生成AIにもネガティブな側面があります。他のAI/MLのシステムと同様に、データのプライバシーや整合性、バイアスのリスクなど、倫理とセキュリティに関する懸念があるためです。AI/MLモデルの質は、学習に使用したデータの質に大きく依存するため、データ管理の重要性は一層高まっています。

 企業が生成AIなどの先端テクノロジーを競争力の向上に活用するには、自社のオリジナルデータソースにアクセスできる環境が不可欠です。しかし、これらのデータにはプライバシーに関するものや機密情報も含まれるため、適切なデータの管理、ガバナンス、統制が求められます。出力される結果についても、虚偽や事実と違う内容、著作権違反、差別的な表現などがあってはなりません。しかしながら、多くの組織はデータ規制や管理のノウハウを十分に持ち合わせておらず、保守的なアプローチを選択してしまいがちです。これでは技術を効果的に活用できない状況に陥りかねません。

 せっかくの先端技術をうまく活用するには、適切なデータガバナンスの導入が欠かせません。データガバナンスには「責任あるデータ取り扱いのための明確なポリシーの確立」「定期的な従業員トレーニング」「リスク評価と機密性に基づくデータ分類によるセキュリティ対策の優先順位付け」などの要素が含まれます。また、利害関係者との信頼構築のためには「データ処理慣行の透明性」を確保し、必要な場合は同意を取得し、定期的な監査を実施することが重要になります。

 このような適切なデータ基盤を整備するには、プライバシーの専門家を交えてプライバシーとデータの安全性を考慮した新しいプロセスを設計する必要があります。企業は、生成AIの恩恵を享受するために、基盤となるデータ管理の課題にも真摯に取り組む必要があるのです。

企業固有のAIにはハイブリッドでクラウドネイティブなデータ基盤が不可欠

 AIやLLMモデルの正しい学習には企業内の知識ベースや専有データソースへのアクセスが不可欠です。外部サービスと共有することなく、適切なコンテキストで専有データ上にインタラクティブな体験を構築することで、誤情報やコンテキスト外れの回答を大幅に減らせます。

 大規模で貴重なデータを管理している場合、相互運用性と柔軟性を確保するために、異なる分析エンジンやベンダーを選択できるオープン性が必要になります。

 自社で開発し、ホスティングする独自のLLMやクローズドソースのLLMを導入することで、データプライバシーや誤情報、コンテキストの制限の問題には対処できますが、これには高い開発・運用コストが伴います。しかし、外部サービスを使用すると、誤情報のリスクを払しょくできず、守るべき情報が漏えいしてしまったりする可能性があります。この問題の解決策の一つとして、オープンソースのLLMを使用する方法があります。

 この方法であれば企業はシステムの開発・維持コストを抑えながら、オープンな相互運用性とビジネス上の柔軟性、安全性を確保できます。

 以前は「クラウドファースト」とされ、パブリッククラウド環境へのシフトが盛んでしたが、ここ最近はより慎重にクラウド戦略を実行したいと考える企業が見られるようになっています。その背景には、多くの予測可能な分析ワークロードに対する経済性、データ管理規制、組織の財政方針など、幾つかの要因があるようです。クラウド事業者の提供するサービスへの依存をリスクと考える組織も増えています。

 これらの企業は、パブリッククラウドとオンプレミス(プライベートクラウド)の両方にまたがるクラウドネイティブアーキテクチャを採用しています。クラウドネイティブのアーキテクチャは非常に複雑ですが、柔軟性や拡張性が高まることに加え、適切な運用によってコスト削減というメリットももたらします。

 こうした背景から、パブリッククラウドとプライベートクラウドを横断して、インテリジェントで自動化された、ポリシー主導のデータ管理が可能なデータ基盤が求められるようになっているのです。このようなデータ基盤はクラウドネイティブ技術への対応に加え、柔軟性や拡張性、経済性、そして安全性の改善にも貢献するでしょう。

AI時代に求められるデータ基盤整備・活用のベストプラクティス

 今回は、DXを促進する生成AIとデータ基盤の役割、そして多くの企業が直面する課題と、それらの対処の結果として得られるオポチュニティがどのようなものかについて説明しました。生成AIは、チャットbotや自動レポート生成などを通じて、顧客サービスの向上や業務効率化に大きく貢献します。しかし、データのプライバシーや整合性、バイアスのリスクなど、倫理とセキュリティに配慮した適切なデータガバナンスと新しいプロセスの設計が不可欠であることも強調しました。また、データ活用における柔軟性や拡張性、経済性、安全性の向上を目指し、パブリッククラウドとオンプレミスを組み合わせたハイブリッドなクラウドネイティブアーキテクチャを採用する企業が増加していることにも触れました。

 次回以降は、具体的な事例を交え、各業界におけるデータ活用の取り組みを紹介していきます。第2、3回は、データの安全性とコンプライアンス強化、およびリアルタイムデータ活用に成功している製造業の事例を取り上げます。第4、5回は、東南アジア最大の金融サービスグループのAI活用事例を、第6回では公共セクターにおける特有のAI利用の課題とその対処法を紹介します。第7回は、医療セクターにおいてデータのサイロ化を克服し、研究開発の効率化を実現した製薬企業の取り組みをクローズアップする予定です。

 これらの事例は各業界に特化したものですが、データ活用におけるベストプラクティスや課題解決のヒントは、業界を問わず広く応用できるものと考えています。本連載が、皆様のビジネスにおけるデータ活用の一助となれば幸いです。

著者紹介

大澤 毅(おおさわ たけし) 《Cloudera株式会社 社長執行役員》

IT業界を中心に大手独立系メーカー、大手SIer、外資系 IT企業のマネジメントや数々の新規事業の立ち上げに携わり、20年以上の豊富な経験と実績を持つ。Cloudera入社以前は、SAPジャパン株式会社 SAP Fieldglass事業本部長として、製品のローカル化、事業開発、マーケティング、営業、パートナー戦略、コンサルティング、サポートなど数多くのマネジメントを担当。2020年10月にCloudera株式会社の社長執行役員に就任。

Cloudera:https://jp.cloudera.com/


Copyright © ITmedia, Inc. All Rights Reserved.

あなたにおすすめの記事PR