半月で2回も起こったAzureの多要素認証ダウン 原因はアップデートしたコードに潜んでいたバグPublickey(1/2 ページ)

2018年11月に、米Microsoftが運営するクラウドサービス「Microsoft Azure」と、クラウド型Officeサービス「Office 365」で多要素認証の障害が起き、ユーザーがログインできなくなるトラブルが2度も起こりました。その原因について、同社の報告から概要を見ていきましょう。

» 2018年12月25日 08時00分 公開
[新野淳一Publickey]

 ユーザーIDとパスワードだけでログインできるシステムは、もはやセキュアなシステムとは言えません。セキュリティトークンやショートメッセージの利用、もしくは生体認証などの要素を加えた「多要素認証」を用いることが、特に企業向けサービスなど、セキュリティを重視するシステムへのログインでは欠かせない仕組みになっています。

 ところが、Microsoftのクラウドサービスである「Microsoft Azure」や「Office 365」「Microsoft Dynamics」などへログインするための多要素認証のシステムが、2018年11月で二度もダウンするという障害を引き起こしました。障害が発生している間は、多要素認証を用いたログインができないという深刻な状態でした。

 最初の障害は11月19日午前4時(世界協定時。日本時間の19日午後1時39分)から、午後6時38分(日本時間20日午前3時38分)までと、ほぼ一日の営業時間全体で止まっており、二度目は11月27日午後2時20分(日本時間午後11時20分)から午後5時39分(日本時間翌28日午前2時39分)まで、約3時間止まっていました。

 それぞれの原因は異なっており、同社は「Azure Status History」のページで、二度の障害についての原因と対策を報告しています。

 なぜ、多要素認証という重要なシステムで障害が発生したのか。そして、どのような対策が行われたのか。同社の報告から概要を見ていきます。

システムアップデート後、トラフィック増大が引き金になってバグが発生

 11月19日に起きた最初の障害の遠因となったのが、11月13日から16日にかけて行われた内部システムのアップデートでした。ここで潜り込んだバグが、数日後の19日になって、あるデータセンターでのトラフィックが閾値を超えたタイミングで、以下の障害を次々に引き起こすことになったのです。

  1. 多要素認証システムの負荷が一定以上に高まると、同システムのフロントエンドからキャッシュサービスへのアクセスに対する遅延が発生した
  2. この遅延が、多要素認証システムのバックエンドサーバを再利用する際に競合状態を作り出し、それがさらに全体の遅延を引き起こした
  3. 上記の遅延が障害検知システムにもおよび、障害の検知そのものができなくなっていた

 それでも何とか障害に気付いた多要素認証システムの担当チームは、遅延が遅延を呼んで障害を起こしているシステムをどうにか立て直そうと、システムの一部に変更を加えます。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ