デジタルサービスに不可欠な「オブザーバビリティ」を高める方法とは?Splunkが目指す「安全でレジリエントな世界」

システムの安定稼働は快適なサービスの提供に欠かせないが、複雑さを増した企業のITシステムがそれを難しくしている。解決策の一つである「オブザーバビリティの向上」の効果と具体策を解説する。

PR/ITmedia
» 2025年04月03日 10時00分 公開
PR

 デジタル化した現代社会において、ITシステムがさまざまなサービスの提供を支えている。快適にサービスを利用してもらうには、ユーザー視点でシステムの稼働状況を監視して安定性を保つことが必要だ。しかし、企業のシステムの複雑化が実践を困難にしている。

 多くの企業のシステムがハイブリッドクラウドやマルチクラウドで構成されるようになった。以前から利用されてきたシステムが健在である一方、クラウド移行も進みつつある。コンテナやKubernetesなどのクラウドネイティブ技術を基盤とした大量のマイクロサービスが動作し、分散アーキテクチャの採用によってより複雑になった。

 それぞれの環境に特化した運用管理ツールを使い分けて監視するのは負荷が高い。IT人材不足は深刻で、システムを属人的な手法で監視するのは限界に達している。限られたIT予算をサービス向上のためのアプリケーション開発に集中させるには、運用コストの削減が必要だ。

 これらの課題を解決するために重要性が高まっているのが、システムのデータを収集、可視化、分析して稼働状況を正確に把握する「オブザーバビリティ」(可観測性)だ。本記事では、複雑さが増したシステムのオブザーバビリティ確保に向けた有効策を解説する。

オブザーバビリティの向上がトラブルを防ぐ

 サービスに不具合が発生した際、企業は原因を迅速に突き止めて復旧させる必要がある。しかし、システムが複雑化した今、これを実行することは容易ではないと、Splunkのオブザーバビリティソリューションスペシャリスト中上 健太朗氏(パートナー&ソリューション技術本部 Observability Solutions Architect)は述べている。

 「多くの企業がオンプレミスやクラウドごとに異なるツールを導入して稼働を監視しています。『システムの状態を正確に把握できず、予期せぬトラブルが発生した』『トラブルが起きた際、迅速に原因を突き止めて対処するのが難しい』といった悩みを頻繁に耳にします」

ALT Splunkの中上 健太朗氏

 稼働状況はハードウェアやソフトウェアなどが生成する多様で膨大なデータを基に判断する。この中から注視すべきメトリクスを特定し、それぞれの相関関係からシステムの状態を把握するには高いスキルが要求される。トラブルの予兆を知るのはベテランエンジニアでも難しく、障害発生時は長い時間をかけて大量のログを解析している。ユーザー視点の監視までは手が回らず、外部からの指摘でシステムトラブルに気付くこともある。

 このような状況から脱却するには、従来の手法からの転換が必要だ。複雑なシステムに対するオブザーバビリティを高めてトラブルを未然に防ぎ、障害発生時は原因を迅速に特定してサービスを復旧する手段を確立することが求められる。

Splunkがセキュリティとオブザーバビリティに注力する理由

 Splunkはオブザーバビリティを高めるソリューション「Splunk Observability Cloud」に力を入れている。サイバーセキュリティで知られる同社がオブザーバビリティソリューションの提供に努める理由を、同社の内田大樹氏(エンタープライズ技術本部 Senior Solutions Engineer)はこう説明する。

 「Splunkが目指すのは、より安全でレジリエント(直訳すると『回復力・弾性』)なデジタル世界の創造です。言い換えると、システム運用の観点では障害の状況から通常の状態に戻ること、セキュリティの観点ではインシデント発生から通常の状態に戻ることです。レジリエンスを実現するにはセキュリティ脅威からシステムを守り、侵害を取り除く仕組みと、システムのオブザーバビリティを高めてトラブルを防ぎ、障害からスピーディーに復旧する仕組みが必要です。両方を実現するのが当社のセキュリティソリューションとオブザーバビリティソリューションです」

ALT Splunkの内田大樹氏

 Splunk Observability Cloudは、インフラからアプリケーション、エンドユーザーの体感まで、多様なデータを業界標準のオブザーバビリティフレームワーク「OpenTelemetry」に基づいて生成・集約・管理する。Splunk Observability Cloudで相関付けられたメトリクスやトレース、ログといったデータからシステムの問題を明らかにし、障害発生時は迅速なトラブルシューティングで解決を支援する。

 アプリケーションのパフォーマンス監視機能「Splunk® Application Performance Monitoring」(以下、Splunk APM)を使用することで、パフォーマンス低下やエラー率の上昇など、問題を引き起こしているサービスを素早く特定できる。

 「グラフィカルなサービスマップで、アプリケーションにおける処理がどのように連携しており、どのサービスで問題が起きているのか、複数カ所で起きている場合はどれに問題があるのかを把握できます。問題が生じたサービスや処理についてドリルダウンしてパフォーマンス低下やエラーの原因を特定し、関連するログやインフラのメトリクスを表示させることも可能です」(中上氏)

ALT Splunk APMのサービスマップ(出典:Splunk提供資料)

ユーザー視点のシステム監視でスムーズな体験を実現

 インフラ監視機能「Splunk Infrastructure Monitoring」は300以上のクラウドサービスに対応しており、オンプレミスやクラウドを統合して可視化し、リアルタイムに監視可能だ。

 「最小1秒間隔で取得する高解像度なデータに基づいてモニタリングできます。各サービスやインフラから収集されたメトリクスは、監視やダッシュボード・チャートの描写にリアルタイムに利用されているか、問題発生時のみ参照できればよいものか、あるいは全く参照しないものか、といった利用状況に応じて、データをティアリングしたり破棄したりすることも可能です。これにより、運用監視に必要なデータにかかるコストをコントロールできます」(中上氏)

 ユーザー視点での監視を実現する「Splunk Synthetic Monitoring」は、ユーザーによるWebサイト上での操作が正常に機能するかを定期的なテスト実行によってチェックすることで、ユーザーが気付く前に問題を修正できる。定期テスト実行時には画面表示や遷移の様子が録画機能によって収録されるため、問題が起きたときにも事象の再現を待つことなく、エラーが発生したときの状況を理解できる。画面に表示される画像などの要素はもちろん、バックエンドアプリケーションに対するリクエストが発生している場合には、そのバックエンドでの処理状況をSplunk APMと連携することで調査・分析することも可能だ。

 Webブラウザやモバイルアプリでのユーザーエクスペリエンス(UX)をモニタリングする「Splunk Real User Monitoring」では、UX評価指標である「Core Web Vitals」によってユーザーの体感を評価し、改善ポイントを洗い出せる。画面録画機能によってエンドユーザーのマウス操作やクリックなどを確認することも可能で、実際のエンドユーザーのUXをリプレイによって知ることができる。バックエンドアプリケーションでの処理状況をSplunk APMと連携し、フロントエンドからバックエンドまでをEnd to Endで調査・分析することも可能だ。

AIアシスタントがトラブル対応を支援 経営幹部向けダッシュボードも統合

 Splunk Observability CloudにはAIアシスタント機能「AI Assistant in Splunk Observability Cloud」もある。生成AIがトラブルシューティングをサポートすることで、ツールに慣れていないエンジニアであっても問題が特定できるように支援する。

 「AI Assistantはチャットによる対話形式で問題を調査してくれます。チャット欄に日本語で質問すると、エラーの発生頻度や傾向、想定される原因、エラー元と推定されるサービスの名前、その他アプリケーションのバージョン情報のようなエラーに関連するさまざまな追加のコンテキスト情報などを生成AIが回答します。エラーを特定するためのログ解析なども指示できます」(中上氏)

ALT Splunk Observability CloudのAIアシスタント機能(出典:Splunk提供資料)

 Splunkが提供するオブザーバビリティソリューションでは、「経営層向けダッシュボード」「ビジネス・システム統合ダッシュボード」のような、システムだけではないビジネスデータまでも相関させた可視化を行うことができる。経営層は、売り上げに対するサービスの貢献度や各サービスに関わるアプリケーションおよびインフラの稼働状況、パフォーマンス、障害発生状況、健全性などを確認でき、客観的な情報に基づいてシステムの投資判断につなげられる。

ALT Splunk Observability Cloudと統合された経営層向けダッシュボード(出典:Splunk提供資料)

Sansan、JPXらがオブザーバビリティ向上で大きな成果

 国内でも多くの企業がSplunk Observability Cloudを使用してオブザーバビリティを高めている。

 Sansanは、インボイス管理サービス「Bill One」の本番環境でレスポンスの低下などが発生した際、システム全体を素早く調査して原因を特定する手段がなく、事業やシステムに明るい人物に問題解決を依存してしまうことを課題としていた。同社はSplunk Observability Cloudを導入してインフラとアプリケーションから収集したデータを可視化し、Bill Oneの稼働状況や障害の発生状況などをリアルタイムに監視。サービスマップやダッシュボードによって誰でも問題を追跡できるようにすることでオブザーバビリティを高め、ユーザーが気付く前にシステムの問題と原因を特定してプロアクティブに対応することが可能となった。障害アラート発生のわずか30分後に修正対応が完了することもあるという。Splunk Observability CloudはOpenTelemetryに準拠しているため、特定のITベンダーにロックインされることのない監視体制を作れる点もSansanは高く評価した。

 日本取引所グループ(JPX)も、Splunkによってオブザーバビリティを向上させている一社だ。同社は現物商品の売買システム「arrowhead」や、上場企業などの適時開示情報を配信する「TDNet」、取引参加者らの間で各種提出書類の授受や上場企業の情報配信などを行う「Target」でSplunkのオブザーバビリティソリューションを活用している。arrowheadではサーバリソースの監視に加えて、1日5000万件の注文電文に関する処理の滞留状況や注文受付のレスポンス、レイテンシなどを可視化、解析している。TDNetやTargetをはじめとした社外向けのシステムでは、Synthetic Monitoringによるフロントエンド監視を通じて、エンドユーザーに影響が発生する前に障害を検知・対応できるようにしている。

 「ビジネスを支えるシステムが複雑化するほど、監視や障害対応のハードルが高くなります。十分なオブザーバビリティを確保できなければ、システムのレジリエンスが低下し、ビジネスに深刻な影響を及ぼします。システムで起きている全てをリアルタイムに把握して安定したサービスを提供するためにもSplunk Observability Cloudをご活用いただきたいと思います」(内田氏)

ALT

Copyright © ITmedia, Inc. All Rights Reserved.


提供:Splunk Services Japan合同会社
アイティメディア営業企画/制作:ITmedia エンタープライズ編集部/掲載内容有効期限:2025年6月17日

関連リンク