HTTP status code 500系エラーとは、サーバがリクエストの処理を失敗している状態で、ユーザーから見るとエラー画面が表示されます。これを減らすべく、サービス関係者でプロジェクトを立ち上げて調査を行った結果、連携通信でのタイムアウトや特定のDB処理が遅いといった、さまざまな問題が見つかりました。
その後、関係者で連携し、それぞれの問題について検討や対処を行い、順次500系エラーの原因をつぶしていった結果、直近のサイト棚卸しでは、エラーが非常に少なくなったことが確認できました。
直接的な効果として、500系エラーを減らせたというのはもちろんありますが、それだけではなく、データベース管理者がDBの瞬間的なリソース高騰に敏感に反応するようになるなど、メンバーのSRE活動への意識を高めることができたという副次的な効果も生まれたのです。
四半期ごとのサイト棚卸しを始めてから、約1年が過ぎました。各サービスには、季節的な要因による繁閑があり、作業件数やPV数はこれに応じて変動するため、複数回(できれば1年以上)の集計結果をまとめることで、初めてその傾向が分かるようになります。
繰り返しになりますが、サイト棚卸しには複雑な情報はなく、シンプルな定量的データの傾向をまとめています。そのため、さまざまなレベルの関係者で意識を合わせる際に有効に活用できます。
例えば、作業件数が増加し続けているなら、その数値データをもとに、マネジメント層とメンバー配置の再検討を行うこともできますし、実作業メンバー内で、作業効率化を検討するための定量的指標としても利用できます。増加率や変動のパターンを観測し続け、傾向を把握することで得られる示唆は重要です。これから実施すべきことの意識合わせにおいて、前提となる基本情報になるでしょう。
SRE活動というと、どうしても自動化やツール導入から進めたくなるものですが、まずは現状を把握し、手を打つべき部分を特定することがはるかに重要です。
リクルートテクノロジーズの場合は、シンプルなデータを四半期ごとにまとめて、蓄積するという方法を採っていますが、それ以外にもいろいろな方法があるでしょう。普段、なにげなく扱っている情報の中に、その変化を見れば、サービスを取り巻く全員が問題だと納得できる定量的な情報はありませんか? 皆さんも一度情報を見直し、定期的にまとめてみてください。地味に見えるかもしれませんが、そこからSRE活動は始まるのです。
Copyright © ITmedia, Inc. All Rights Reserved.