毎日2000件来ていたアラートを精査し、20件にまで減らした話リクルート流、SREコトハジメ(2)(3/3 ページ)

» 2018年04月12日 08時00分 公開
[小見山勝ITmedia]
前のページへ 1|2|3       

1日2000件のアラートを精査、運用のプロとして何ができるかを考える

 次は、前回でも取り上げたアラートについてです。サービスの障害などを通知するアラートは、SRE活動にとって、重要なトリガーの1つです。リクルートテクノロジーズではこれまで、全サイトの通知が共通のメーリングリストに送られてきていました。その数、1日に約2000通。当然全部は確認できないので、メールソフトの振り分け機能で、自分の業務と関係あるものだけをピックアップする手法が採っていました。

 部署や組織が多い企業では、このような手法を採用しているところが多いのではないしょうか。大量の未読件数が表示された“開かずの振り分けフォルダ”――読者の皆さんにも心当たりはありませんか?

 とはいえ、アラートの処理でこれをやってしまうと、確認漏れや見落としなどが出てきてしまいます。「アラートは1件1件を精査し、(本当に重要なものだけに)減らしていくのが当たり前」と考える人もいるとは思いますが、恥ずかしながら、それができていない状況だったのです。

 そこで、私たちは「運用のプロとして何ができるか常に考えよう。インフラが持っている情報を基にできることを考えよう」とメンバーに対して宣言しました。

 実際に、手元にあるアラートメールを精査したところ、アラート以外の不要なメールや対応が不要なもの、別組織が運用しているシステムのアラートなども多いことが分かりました。毎日地道にアラートへの対処、そして不要なアラートの整理をしていくこと数カ月。ついに、アラートを毎日およそ20件程度にまで減らすことができたのです。

photo 毎日2000件以上来ていたアラートを、20件程度にまで減らすことができた

 現在もこの活動は継続しており、アラート発生時には、「このアラートの原因は●●だから対処しなければ」「アラート自体不要だから止めることができないか」といった議論が行えるようになってきています。

 この他にも、さまざまな場面でメンバー間の議論やノウハウの共有が進むようにしています。例えば、私が所属する「リクルートライフスタイル」を担当する事業別SREグループでは、担当サービスごとのチームを作り、その中でメンバー各自が個別案件を担当します。四半期に1度、インフラの各種情報の棚卸しを実施する際に、それぞれの運用担当者からサイト担当者へ、インフラから見たサイトの状態を直接説明する場を設けました。インフラ視点での気付きを共有することが目的です。

 後編では、残り2つのカベと、事業会社と連携するために、コミュニケーションを見直したエピソードなどをお話ししようと思います。乞うご期待。

著者プロフィール:小見山 勝(こみやま まさる)

photo

株式会社リクルートテクノロジーズ ITエンジニアリング本部 サイトリライアビリティエンジニアリング部所属。ライフスタイル系サイトのインフラ担当としてSRE活動を実施。

キャリアSIerにてエンタープライズ向けシステムの検証、構築、運用を経験。その後、ベンチャー企業で大手比較サイトの大規模トラフィック、大規模システムリプレースを経験し、現業に従事、現在に至る。趣味はウィスキーを嗜むこと。学んで、飲んで、見て、会話し、楽しむ。


前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ