キラキラした事例に惑わされるな――SRE活動、まずやるべきは自動化……ではない!リクルート流、SREコトハジメ(4)(2/2 ページ)

» 2018年05月23日 08時00分 公開
[小見山勝ITmedia]
前のページへ 1|2       

エラーが発生していた理由とは?

photo

 HTTP status code 500系エラーとは、サーバがリクエストの処理を失敗している状態で、ユーザーから見るとエラー画面が表示されます。これを減らすべく、サービス関係者でプロジェクトを立ち上げて調査を行った結果、連携通信でのタイムアウトや特定のDB処理が遅いといった、さまざまな問題が見つかりました。

 その後、関係者で連携し、それぞれの問題について検討や対処を行い、順次500系エラーの原因をつぶしていった結果、直近のサイト棚卸しでは、エラーが非常に少なくなったことが確認できました。

 直接的な効果として、500系エラーを減らせたというのはもちろんありますが、それだけではなく、データベース管理者がDBの瞬間的なリソース高騰に敏感に反応するようになるなど、メンバーのSRE活動への意識を高めることができたという副次的な効果も生まれたのです。

複数の「健康診断」を並べ、シーズナリティを把握する

 四半期ごとのサイト棚卸しを始めてから、約1年が過ぎました。各サービスには、季節的な要因による繁閑があり、作業件数やPV数はこれに応じて変動するため、複数回(できれば1年以上)の集計結果をまとめることで、初めてその傾向が分かるようになります。

photo サイト棚卸しのデータをまとめた表の例(具体的な数値データは入れていません)

 繰り返しになりますが、サイト棚卸しには複雑な情報はなく、シンプルな定量的データの傾向をまとめています。そのため、さまざまなレベルの関係者で意識を合わせる際に有効に活用できます。

 例えば、作業件数が増加し続けているなら、その数値データをもとに、マネジメント層とメンバー配置の再検討を行うこともできますし、実作業メンバー内で、作業効率化を検討するための定量的指標としても利用できます。増加率や変動のパターンを観測し続け、傾向を把握することで得られる示唆は重要です。これから実施すべきことの意識合わせにおいて、前提となる基本情報になるでしょう。

 SRE活動というと、どうしても自動化やツール導入から進めたくなるものですが、まずは現状を把握し、手を打つべき部分を特定することがはるかに重要です。

 リクルートテクノロジーズの場合は、シンプルなデータを四半期ごとにまとめて、蓄積するという方法を採っていますが、それ以外にもいろいろな方法があるでしょう。普段、なにげなく扱っている情報の中に、その変化を見れば、サービスを取り巻く全員が問題だと納得できる定量的な情報はありませんか? 皆さんも一度情報を見直し、定期的にまとめてみてください。地味に見えるかもしれませんが、そこからSRE活動は始まるのです。

著者プロフィール:小見山 勝(こみやま まさる)

photo

株式会社リクルートテクノロジーズ ITエンジニアリング本部 サイトリライアビリティエンジニアリング部所属。ライフスタイル系サイトのインフラ担当としてSRE活動を実施。

キャリアSIerにてエンタープライズ向けシステムの検証、構築、運用を経験。その後、ベンチャー企業で大手比較サイトの大規模トラフィック、大規模システムリプレースを経験し、現業に従事、現在に至る。趣味はウィスキーを嗜むこと。学んで、飲んで、見て、会話し、楽しむ。


前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ