7月31日の早朝、スマートリモコンの「Nature Remo」シリーズで障害が発生し、専用アプリやスマートスピーカーからエアコンなどの家電を操作ができない状況となった。7月は8日にも障害があり、ユーザーから「月に2回はやばい」といった声も漏れ聞こえる状況だ。メーカーのNature(神奈川県横浜市)に、7月に発生した障害の原因と今後の対策について聞いた。
──7月8日に発生した障害の原因を教えてください
Nature:8日のシステム障害は、本日発生した障害とは別の原因です。Natureサーバ上のデータベースに対する書き込みリクエストが一時的に急増し、想定していたキャパシティを超えたため、書き込みリクエストにかかる時間が大幅に延びる事象が発生しました。
この結果、APIサーバがダウンし、Nature Remoとサーバ間の通信を適切に処理できず、Nature Homeアプリからの操作ができない状態になりました。
その後、大量のNature Remoからの再接続が発生しシステム全体に障害の影響が広がったことから、原因の特定と対処に時間がかかり長時間におよぶ障害となりました。
──どのような対応をされましたか
Nature:直接の原因である時系列データベースについて、書き込みキャパシティを見直し、一時的に書き込みリクエストが増えた場合でも問題なくレスポンスを返せるよう一次対応を完了いたしました。
今後、一部の負荷の上昇がシステム全体を不安定にさせないよう、各部分を疎結合にし、障害発生時の影響範囲を最小化する変更をしていこうと考えています。
──7月31日の障害はAWS(Amazon Web Services)が原因と発表されています。Nature Remoのサービスにおいて、AWSが果たしている役割を教えてください
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR