全銀システムの障害はなぜ起きた? 全銀ネットらが課題と再発防止策を公開セキュリティニュースアラート

全銀ネットとNTTデータは2023年10月に発生した全銀システムの障害について、インシデント発生の経緯や原因、課題、再発防止策、今後のシステム改修などを報告した。

» 2023年12月05日 08時00分 公開
[後藤大地有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 全国銀行資金決済ネットワーク(以下、全銀ネット)とNTTデータは2023年12月1日、同年10月10日に発生した「全国銀行データ通信システム」(全銀システム)の障害について、インシデント発生の経緯や原因説明、課題、再発防止策、今後のシステム改修などを報告した。

全銀ネットとNTTデータは、全銀システムで発生した障害について詳細を発表した(出典:全銀ネットのWebサイト)

全銀システムで発生した障害 直接的な原因と課題をNTTデータらが発表

 インシデント発生の経緯は以下の通りだ。

 同社らは2023年10月7〜9日にかけて、各金融機関とのシステムをつなぐ中継コンピュータ「RC17シリーズ」を後継機種である「RC23シリーズ」に移行する作業を実施した。

 移行後初日となる2023年10月10日の8時35分に中継コンピュータの「内国為替制度運営費付加・チェック処理」機能を利用している9加盟金融機関で中継コンピュータ本体装置がシステムダウンし、9時43分頃にさらに1加盟金融機関で中継コンピュータ本体装置がシステムダウンした。

 NTTデータは障害発生直後に原因特定と解析を実施し、一時的に問題を回避するための「暫定対処i」に取り組んだが、プログラム修正が間に合わないとしてリリースを中断した。

 2023年10月11日には「暫定対処ii」の実施を決定し、2023年10月12日に暫定対処iiが起動していることが確認されている。報告によると、同年10月10日には問題が発生した10加盟金融機関に代替対応について依頼したが、全取引を処理すること困難だったという。

 全銀ネットらは報告書の中で、インシデントにおける直接の原因は一時的に作業するメモリ領域の不足にあると説明している。RC23シリーズではOSのバージョンアップに伴って4つのテーブルのうち1つのテーブルのサイズを拡張しており、これが引き金となってメモリ領域不足が発生した。

 同システムのプログラムは一時的に確保する領域にまとめて4つのテーブルを展開しているが、NTTデータは各テーブルが個別に展開されるものと理解していた。このため一時的に確保するメモリ領域が拡張されず、インシデントが発生した。

全銀ネットらの課題と再発防止策

 全銀ネットとNTTデータは今回の障害について、それぞれの課題と再発防止策を挙げた。

NTTデータの課題と再発防止策は以下の通りだ。

  • 設計や製造工程プロセスの課題: プログラム修正方針を、詳細設計関係者含めて判断するようプロセスを変更する
  • 試験工程プロセスの課題: 新たな基盤環境でテーブルの正当性を確認するため、変更対象外のテーブルについても、新旧テーブルのコンペアを実施する。より本番環境に近い効率的な試験実施方法として、商用で流れている実取引相当のデータを使った疎通試験を実施する
  • 復旧対応プロセスの課題: 「復旧させる業務の優先順位」と「バックアッププランへの切替時限」を全銀ネットと合意した上で、障害発生時の復旧ガイドラインを策定する。策定したガイドラインの有効性評価の訓練や最大リスクである東阪同時障害を踏まえた訓練シナリオの検討とブラインド訓練を実施する

 なお、NTTデータは再発防止策をより実効的なものとするため、以下の取り組みを実施する。

  • 基盤更改などに対する品質保証の観点から基盤人材の関与を高める。OS非互換の対応計画や試験計画の段階においても非機能観点の知識を持つ基盤人材を参画させる
  • NTTデータやグループ会社が重要な開発プロセスを分担することで、当該プロセスの実態を把握してトラブル時の復旧対応におけるフィージビリティの感度を高める

全銀ネットの課題と再発防止策は以下の通りだ。

  • 委託者としてのマネジメント不十分: ベンダーにおける設計のレビュー体制および試験内容の十分性を確認し、各工程におけるベンダーマネジメントを向上させる。東阪同時障害発生などのリスクや加盟金融機関影響を踏まえた適切な移行方法や時期の検討、プロジェクトリスクの洗い出し方法のマニュアル化を実施する。障害復旧対応における優先順位の整理や復旧策決定に当たっての複数プランの比較検討、適切なタイムマネジメントのマニュアル化を実施する
  • 加盟金融機関も含めたBCPの実効性不足: 移行計画において、移行や稼働後の障害対策としての切戻しを含めた必要なコンティンジェンシープランの策定、移行時における必要十分な人員体制の整備代替手段(センター代行発信依頼、受信代行)にかかる障害の影響を受けた金融機関向けの留意事項の整理を通じ、プロジェクト特性を踏まえた固有のBCPを整備する。センター代行発信・受信代行運用訓練のシナリオの見直し、欠送・二重発信確認対応訓練を新規実施し、実践的な訓練を通じた実効的なBCPを確立するなど
  • 大規模障害を想定した危機管理体制の脆弱(ぜいじゃく)性: 大規模障害発生時における原因調査や復旧対応にかかる情報連携・優先度の整理、事業継続対策本部の役割の明確化、加盟金融機関とそのお客さまを意識した対外公表内容の事前整理・マニュアル化を通じ大規模障害時の対応事項を明確化する。大規模障害時の全銀ネットにおける対応体制や役割分担を明確化する。障害の影響を受けた金融機関との情報連携方法の整理・マニュアル化を実施する。内部研修へのシステム障害対応の追加や東阪両系障害対応にかかる内部訓練を新設し、実践的な訓練を実施する
  • システム人材の不足と組織の脆弱性: 全銀協などとの人事ローテーションを通じた人材の強化(育成、採用)、加盟金融機関からの出向受入や外部採用などによってシステム人材を確保する。CIO(最高情報責任者)設置による事務局体制を強化する。ITシステム関連の委員会の新設検討などによる所管を明確化する。第三者評価におけるプロジェクトや全銀ネット特性を踏まえた実効性あるチェックを重視する

 なお同社らは、RC23シリーズにおいて同様の不具合が混入していないことを確認するとともに、改修プログラムを開発して内部試験を実施している。試験結果を確認後、2023年12月以降に順次リリースする予定だ。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ