ITmedia NEWS > 企業・業界動向 >

12時間に及ぶ通信障害はなぜ起きたのか、ドコモの“輻輳”が長引いたワケ

» 2021年10月15日 21時32分 公開
[松浦立樹ITmedia]

 10月14日に発生したNTTドコモ通信障害。同社は10月15日に記者会見を開き、加入者や位置情報データを管理する新「加入者/位置情報サーバ」への移行作業が原因であったと謝罪した。影響を受けたユーザー数は、現在算出中であるというが、規模は全国に及び、5G/LTEサービスの復旧には、12時間以上の時間を要した。

会見に参加した、小林宏ネットワーク本部長(左)、田村穂積副社長(中央)、引馬章裕サービス運営部長(右)

 障害が起きたのは、14日午後5時ごろ。ドコモの通信回線を使う全国のユーザーから、「データ通信が使えず圏外になる」や「音声通話が使えない」などの報告が上がり、音声通話とパケット通信サービスに障害が生じた。

 同社は午後7時57分に、障害の一部回復を発表したが、一部のユーザーの通信状況は改善されなかった。その後、15日午前5時5分に4G/5G回線の復旧を発表し、ネットワーク工事の切り戻しが原因と説明。新サーバへの移行作業で不具合が発生し、旧サーバへ戻す際にIoT機器からのアクセスが集中。ネットワークの輻輳(ふくそう)が原因であると説明していた。

 輻輳とは、通信回線にアクセスが集中し、混雑することを指す。輻輳が生じると通信速度が低下したり、通信システム自体がダウンしたりする恐れがある。

 サーバの新設備の移行作業でどのようなトラブルがあったのか。そして、なぜ全国のドコモユーザーへと波及し、12時間にも及ぶ通信障害を起こしたのか。それには2つの輻輳が重なってしまったことに要因がある。会見に出席した同社の田村穂積副社長らの説明から、時系列順に今回の事案を整理する。

障害の根本原因は旧サーバに集結したIoT機器の位置情報

 同社では14日午前0時より、今回の事象の原因となった、IoTサービスが使う加入者/位置情報サーバを旧設備から新設備に切り替えする工事を始めた。対象となった旧設備は、バックアップを含めて4カ所で、サーバに接続し、端末の位置情報の更新や取得に使う「信号交換機」と呼ばれる装置を順次切り替えた。

ドコモが発表した資料から引用

 工事を続けていた同日午前7時26分、サーバの切り替え後に海外で稼働しているIoT端末と通信できない不具合を確認。そのため、新設備から旧設備へとサーバを戻す、切り戻しを午後4時36分に実施した。

 その際に、旧設備からIoT端末へ位置登録を促す措置を実行。通常、IoT端末は位置情報が変わった際に、加入者/位置情報サーバに、場所を移動したという信号を発するが、この工事では意図的に旧設備でサーバを稼働させる必要があり、稼働していないIoT端末でも、旧設備のサーバに位置情報を送ってもらう必要があった。

 同社の引馬章裕サービス運営部長は「この措置は、工事では正しい手順」という。「工事を行う際には手順書をつくり、万が一切り戻しが必要な際に備えてシミュレーションも重ねている。しかし、結果としてわれわれの予想を超えたトラフィックがこの措置で発生してしまった」と説明。IoT機器からの位置情報は分割して送信しており、約20万台のIoT端末から位置情報信号を発したという。

 IoT端末から発したトラフィックは、ユーザーのトラフィックと個別にコントロールできないため、旧設備のサーバ上で音声通話とパケット通話サービスで生じるトラフィックと輻輳。旧設備のサーバの処理能力を上回ってしまい、通信障害を起こすことになった。

ドコモが発表した資料から引用

 これを受けて同社では午後5時37分から、全国で位置登録信号を制御するためにネットワークコントロールを実施。通信を最大で100%制限するコントロールを約2時間30分にかけて行い、IoT端末のトラフィックを一部処理。その後、午後7時57分に制限を解除した。同社では、この措置とともに通信障害の順次復旧を発表した。

IoT機器の輻輳は改善されたものの、ユーザーの通信で輻輳が発生

 しかし、順次復旧発表後も、一部のユーザーでは依然として通信がつながりにくい状況が続いた。

 この理由について、引馬部長は「緩和後も、IoT端末の位置情報トラフィックが高いままであったため、ある程度通信が混むことも想定し順次復旧を発表していた」と述べ、「ユーザーの通信を長い間妨げるわけにはいかないと判断し、一部回復と表現した」と語る。つまり、制限解除後も位置情報のトラフィックは高いままであったが、状況を見ながらユーザーの通信を回復させたことになる。

 「しかし、通信がつながりにくいと感じたユーザーが何度も接続を試みた結果、トラフィックが通常よりも3倍近く増えてしまい、順次復旧後も輻輳が続いてしまった。一方で、IoT端末の旧設備から新設備への移行にもかなり時間を要してしまったことも復旧に時間がかかった要因になる」(引馬部長)と回答。

 結果、ユーザーの通信とIoTの位置情報トラフィックで輻輳が発生。深夜を過ぎても通信が不安定な状況が続き、4G/5Gの回線が復旧したと発表したのは15日午前5時5分のことであった。

 同社は、再発防止策として、「通常運用と異なる状態での処理能力を再確認」とし見積もりの強化と、「確認した処理能力を踏まえた適切な切り替え手順への見直し」として工事手順の見直しを掲げており、10月下旬で対応を完了する予定としている。

ドコモが発表した資料から引用

 ただし、現時点でも完全復旧には至っていない。15日午後8時時点で、3G回線についてはまだ回復を発表していない。会見では「まだ一部のIoT端末の切り替えを行っている最中であるため、もうしばらく復旧までお待ちいただきたい」(田村副社長)と説明する。解決にはまだ時間がかかりそうだ。

Copyright © ITmedia, Inc. All Rights Reserved.