検索
Special

DeNAはインフラ運用にも「AIオールイン」 2週間かかる難題を2日で解決した“切り札”レガシーなシステムにもモダンなシステムにも

DeNAの「AIオールイン」戦略がITインフラの運用チームの業務にも大きな影響を与えている。同社はいかにして属人的なシステム監視体制を脱して、運用の民主化への一歩を踏み出したのか。その基盤として「Dynatrace」を選定した理由とは。

PC用表示
Share
Tweet
LINE
Hatena
PR

 スマートフォン向けゲームを中心にインターネットでさまざまな事業を展開するディー・エヌ・エー(以下、DeNA)。約300のサービスを運営しており、1日当たり約150億のリクエストを処理している。同社は2025年に「AIオールイン」戦略を打ち出して、「AIによる生産性向上」「AIによる既存事業の競争力強化」「AIに関する新規事業の創出」という方針の下でAIを積極的に活用している。

 システム基盤の運用管理を担うIT基盤部も例外ではなく、全社方針を踏まえた新たな取り組みを求められている。しかし、ITインフラの運用にはシステム開発ほど気軽にAIを導入できない事情がある。

インフラエンジニアにとっての“真のAI活用”を模索

 「インフラの運用管理業務にAIは適用しにくい」と同社の天野知樹氏は語る。

alt
DeNAの天野知樹氏(IT本部 IT基盤部 副部長)

 「アプリケーション開発の領域で生成AIの利用が急速に進んでおり、DeNAも大幅な生産性向上の手応えを感じています。インフラ管理も、IaC(Infrastructure as Code)の整備によってAIによるコード生成の恩恵を受けています。ただし、インフラ管理は操作対象が本番環境であることが多く、システム開発のようにサンドボックス環境で試せない場面もあるため、AIを気軽に適用しにくい領域です」

 そこで同部は、担当者が最も工数を割いているインフラの監視や調査へのAI活用を模索し始めた。障害発生時の原因調査はもちろん、インフラのキャパシティー管理やシステム構成変更時の現状確認など、インフラエンジニアの業務の中心はシステムの監視や調査だ。天野氏は「インフラエンジニアは、現状を正しく理解して関係各所と調整し、最終的にIaCとして実装します。その中で最も時間がかかり、熟練のスキルも要する調査フェーズをいかに効率良く実施できるか。これが『インフラエンジニアにとっての真のAI活用である』と定義しました」と語る。

運用効率化を目指す2つのシステム

 同部は、2つのシステムをAIによる運用効率化の対象にした。一つは、1000以上のサーバで構成された長期間運用しているレガシーかつ大規模なゲーム関連システムだ。これまでに経験したトラブルの対策や再発防止策が内製の監視ツールやスクリプトとして実装されており、複雑に組み合わさっている。天野氏は「一つ一つは正しい対策ですが、長い年月を経て地層のように積み重なり、結果として非常に複雑な監視となっていました」と明かす。内製の監視ツールは開発当時の古いUI/UXのままであり、今となっては使いにくい。若手エンジニアがその運用を任されて働く意欲をそがれる懸念もあった。

 もう一つは、モダンなアーキテクチャを基盤とした医療系サービスのシステムだ。DeNAの安藤瑞希氏はシステムの課題について次のように語る。

 「使用する技術がOSのレベルから異なる約10のコンポーネントで構成されており、監視の仕組みもバラバラです。最大の問題点は、各コンポーネントの仕組みを全て理解している人がいないことです。障害が発生するたびに各コンポーネントの担当エンジニアが全員で対応しないと解決できませんでした」

 これらの課題を解決するために選んだ製品が、AIを活用したオブザーバビリティープラットフォーム「Dynatrace」だ。単一のエージェントがシステム環境全体を監視する「OneAgent」機能を中心に、さまざまなAI機能を使って日々の運用を効率化している。

alt
DeNAの安藤瑞希氏(IT本部 IT基盤部 第三グループ グループマネジャー)

DeNAはなぜDynatraceを選んだのか 導入してすぐに「飛躍的な効果」

 多くのサービスのシステムを運用する同社は、Dynatrace以外のシステム監視ツールも利用している。それらの中でDynatraceをゲーム関連の大規模システムの運用に採用した理由について天野氏は、「AI活用に向けたデータの一元管理が可能な点」「過去に内製で作り込んだ監視機能をサポートできる柔軟性」を挙げた。Dynatraceは、既存システムのさまざまな情報を集約してメタデータを付与し、AIが参照するコンテキストデータを自動生成する。内製の監視ツールの情報も、DynatraceのAPIを呼び出すコードを書けば連携可能だ。過去のトラブルの経験から生まれた再発防止策を無駄にすることなく、AIを活用した新しいオブザーバビリティー環境に組み込める点が選定の大きなポイントになった。

alt
DeNAが利用しているDynatraceのダッシュボード画面(提供:DeNA)クリックで拡大

 課金体系が同社のニーズに合っていた点も選定理由として挙げられた。インフラエンジニアと開発者を含む約150人が利用するため、ユーザー単位の課金サービスはコストが膨れ上がってしまう。ユーザー数が無制限で、監視対象システムの数を基準とした課金体系である点を評価したという。Dynatraceに集約するシステムログを保管するコストが安価な水準に設定されている点も好印象だった。天野氏は「大規模なシステムほど大量のログを保管する必要があり、そのコストは削れません。Dynatraceは『この部分は安価だとありがたい』と思う部分を低コストに抑えてくれる課金体系になっています」と評価する。

 安藤氏は医療系サービスにDynatraceを採用した理由について、患者の情報など機微な医療情報を取り扱う同サービスならではのメリットを挙げた。同社の医療系サービスは厳格なセキュリティ基準が定められており、ログやアプリケーションのトランザクションデータをSaaSに転送するには厳しい制約がある。Dynatraceはマスキングツールで送信データを任意に秘匿できるため、セキュリティ要件を満たす構成が可能になった。

 OneAgentも同サービスのセキュリティ水準の維持に有効だった。安藤氏は「ソフトウェアの脆弱(ぜいじゃく)性情報が公開された際に、各コンポーネントで該当するソフトウェアが利用されているのかどうかの確認にかなりの時間がかかっていたのですが、今ではOneAgentが全てのコンポーネントに関する情報をくまなく収集します。DynatraceのApplication Security機能を活用すれば、そのコンポーネントが社外に公開されているかどうか(セキュリティリスクが高いか)などを踏まえてリスクを評価できるため、対応の優先度を的確に判断できるようになりました」と話す。

 各コンポーネントの担当者総出で2週間を費やしても原因を特定できなかった処理速度低下の問題においても、OneAgent を導入したところ、たった1人のエンジニアがわずか2日で原因を特定した。「複雑なチューニングを必要とせず、導入してすぐに飛躍的な成果が生まれたので驚きました」(安藤氏)

全社への展開も検討 「AIオールイン」で変わるインフラ運用

 こうした成果も踏まえ、DeNAは将来的なシステム監視基盤の刷新において、Dynatraceを有力な選択肢の一つとして評価している。「レガシーなシステムもクラウドネイティブでモダンなシステムも問題なく扱えるため、当社が運営する多様なシステムの監視に使えるポテンシャルを感じています」(天野氏)

 DeNAは「AIオールイン」戦略の下、AIをインフラ運用の中心に据えることで属人化や複雑化といった長年の課題を解消しつつある。今回のDynatrace導入事例は単なるツールの刷新にとどまらず、ベテランの知見をAIが参照可能なデータに昇華させ、若手でも高度な調査を可能にする「運用の民主化」への第一歩となった。同社が実証した、システムの現状を正しく把握して課題解決に迅速につなげる新たなサイクルは、AIによってインフラエンジニアがより創造的な業務に注力できる未来を提示していると言える。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:Dynatrace合同会社
アイティメディア営業企画/制作:ITmedia エンタープライズ編集部/掲載内容有効期限:2026年3月24日

関連リンク

ページトップに戻る