今回の障害は、MME装置のソフトウェア不具合が原因。そのため、ソフトバンクの運用ルールに従い、装置のソフトウェアを旧バージョンに戻す(ロールバックする)ことで解決を図った。
「今まで動いていた」ということで簡単に旧バージョンに戻せるようにも思えるが、ソフトウェアのインストールに時間を要したため、ロールバック開始から完了(完全復旧)までに1時間42分かかっている。
新バージョンのソフトウェアには主にIoT機器を想定した新機能が盛り込まれている。今回は障害回復のためにソフトウェアのロールバックを実施したが、このままにしておくと今後の新サービスの展開にも影響が出てしまう。
そこで、ソフトバンクは障害の再発防止策として、MME装置を含む重要なネットワーク装置について「暫定対策」「恒久対策」を行う。
迅速に行える「暫定対策」としては、以下の3つを実施済み、あるいは年内に実施する。
ある程度時間を要する「恒久対策」としては、以下の3つを実施する。
証明書関連の改修は、全18台のMME装置のうち5台に適用済みで、現在のところ異常は見られないという。予定通り、2019年1月31日までに全装置に適用できる見込みだ。
システムアーキテクチャの見直しは、簡単にいうと「異常が発生したらとにかく再起動」から、「サービスの安定的提供が困難な異常時のみ再起動・そうでないときはアラートを出しつつ運用を継続」に方針転換するということ。すでに開発ベンダーと仕様の検討と開発を開始している。
MME装置のマルチベンダー化については、既存のエリクソン製装置18台に、東日本・西日本で合わせて10台以上の他社製装置を追加する。すでに欧米の2社と交渉に入っており、いずれか1社の装置を導入する予定だ。
先述の通り、ソフトバンクは従来、MME装置を実質シングルベンダーとすることでコストと管理の手間を抑制していた。マルチベンダー化はある意味で「過剰投資」ともなるが、システムの信頼性を向上するため、経営判断で実施を決めたという。
Copyright © ITmedia, Inc. All Rights Reserved.