毎日2000件来ていたアラートを精査し、20件にまで減らした話:リクルート流、SREコトハジメ(2)(3/3 ページ)
2017年4月に「SRE部」を立ち上げたリクルートテクノロジーズ。今回はその背景や、立ち上げ時に苦労した点についてお話しします。一番難しいのは、ミッションの変化に合わせて、メンバーの意識を変えていくことでした。
1日2000件のアラートを精査、運用のプロとして何ができるかを考える
次は、前回でも取り上げたアラートについてです。サービスの障害などを通知するアラートは、SRE活動にとって、重要なトリガーの1つです。リクルートテクノロジーズではこれまで、全サイトの通知が共通のメーリングリストに送られてきていました。その数、1日に約2000通。当然全部は確認できないので、メールソフトの振り分け機能で、自分の業務と関係あるものだけをピックアップする手法が採っていました。
部署や組織が多い企業では、このような手法を採用しているところが多いのではないしょうか。大量の未読件数が表示された“開かずの振り分けフォルダ”――読者の皆さんにも心当たりはありませんか?
とはいえ、アラートの処理でこれをやってしまうと、確認漏れや見落としなどが出てきてしまいます。「アラートは1件1件を精査し、(本当に重要なものだけに)減らしていくのが当たり前」と考える人もいるとは思いますが、恥ずかしながら、それができていない状況だったのです。
そこで、私たちは「運用のプロとして何ができるか常に考えよう。インフラが持っている情報を基にできることを考えよう」とメンバーに対して宣言しました。
実際に、手元にあるアラートメールを精査したところ、アラート以外の不要なメールや対応が不要なもの、別組織が運用しているシステムのアラートなども多いことが分かりました。毎日地道にアラートへの対処、そして不要なアラートの整理をしていくこと数カ月。ついに、アラートを毎日およそ20件程度にまで減らすことができたのです。
現在もこの活動は継続しており、アラート発生時には、「このアラートの原因は●●だから対処しなければ」「アラート自体不要だから止めることができないか」といった議論が行えるようになってきています。
この他にも、さまざまな場面でメンバー間の議論やノウハウの共有が進むようにしています。例えば、私が所属する「リクルートライフスタイル」を担当する事業別SREグループでは、担当サービスごとのチームを作り、その中でメンバー各自が個別案件を担当します。四半期に1度、インフラの各種情報の棚卸しを実施する際に、それぞれの運用担当者からサイト担当者へ、インフラから見たサイトの状態を直接説明する場を設けました。インフラ視点での気付きを共有することが目的です。
後編では、残り2つのカベと、事業会社と連携するために、コミュニケーションを見直したエピソードなどをお話ししようと思います。乞うご期待。
関連記事
- コレ1枚で分かる「SRE(Site Reliability Engineer)」
これからの運用技術者に求められるアプローチとして注目される「SRE(Site Reliability Engineer)」について解説します。 - APIで社内、そして世界とつながる――リクルートのAI活用、そのキーマンに迫る
自社サービスにAIを積極的に導入しているリクルートだが、その活用を推進する部署がリクルートテクノロジーズにある。彼らがどのようにして業務部門と連携しているのか。そのカギの1つに「API」があるという。 - 脆弱性発見のプロ集団ーーリクルート「レッドチーム」の仕事とは?
インシデントを未然に防ぐために、社内のセキュリティリスクを洗い出す「レッドチーム」。日本でいち早く“自前”のレッドチームを立ち上げたリクルートテクノロジーズに、そのミッションと日々の活動を聞いた。 - ビッグデータで社会をあっと言わせるサービスを リクルートテクノロジーズ・泉さん
月間で数十億レコードという大量データを生成するリクルートは、ビッグデータの専門組織を立ち上げ、ビジネス成果を生み出すためのデータ活用基盤を構築。そのプロジェクトを率いる泉さんが考える未来像とは――。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.