最初の自動化で「大失敗」して得た気付き――SREはトライ&エラーが全てであるリクルート流、SREコトハジメ(5)(2/3 ページ)

» 2018年07月30日 08時00分 公開
[小見山勝ITmedia]

「このタスク、今となっては謎です」

 その後、フロー全体を俯瞰して検討した結果、ひとまず、連絡する相手や見るべきツール、渡す情報といった、各手順の「入口」と「出口」を変えずに、中身だけを変えることにしました。そうすれば、変更の影響を受ける関係者を減らせますし、早く着手することができます。新たな手順の定着に時間をかけつつ、効果を上げられると考えたのです。

photo 各タスクのInput(入口)とOutput(出口)を変えずに手順の中身を変えることにしました。ちなみに「事業別SREグループ」とは、サービス別のインフラ担当チームを指します

 現状を把握し、フローを整理する方向性を決めて、やっと準備完了です。ここからフローの詳細を検討していくわけですが、フローの全体像を見ながら会議をしていたところ、メンバーから思わぬ言葉が飛び出しました。

 「確かに現在はこのフローで進めていますが、過去の経緯でやっているだけで、なぜこうやっているのか、今となっては謎です

 どよめく会議室。よく聞いてみると、昔の組織構造や役割分担では必要だったものの、今となっては無意味になったタスクが多かったのです。

 一例を挙げると、図中の「5:不明点質問」というところでは、これまでインフラの窓口担当とインフラの実作業担当で役割を分けており、実作業担当から窓口担当に連絡し、調整役である窓口担当が、各サービスの担当者に質問するという手順をとってきました。

 しかし、サービス別にインフラ担当チームを立てるようになった今、実作業担当が直接サービス担当者に質問すればいいのにもかかわらず、過去のフローにそのまま従っていたのです。そういった例が他にもあったため、不要な作業は捨て、改善で短縮できるものは短縮できるよう整理し、自動化することで時短につながる部分は自動化を実施しました。

photo 全体のフローを整理した結果。各タスクにかかる時間は減り、一部はタスク自体をなくしました
photo 結果として、SRE活動に使える時間が大幅に増えたのです

フロー整理での気付きと「真のトイル撲滅」

 整理後のフローで実際に運用を開始したところ、慣れるまでは軽微な間違いがあったものの、大きな問題はなくフローが定着していきました。結果は上々で、当初の想定通り、トイルの削減でSRE活動に使える工数を確保できました。同じ人数で以前の2〜3倍のチケットをさばけるようになったことからも、その効果がうかがえます(とはいえ、チケットが増えるとSRE活動に使える工数が減ってしまうのですが(笑))。

 思わぬ副産物として、フロー整理の中で、いわゆる「秘伝のタレ」と呼ばれる一部の人間しか知らなかったルールや、属人的であったタスクを整理でき、一部はそのタスク自体をなくせました。残すべきものは、ドキュメントを作るなどして属人性を排除したのです。

 最近入ったメンバーに昔の話をしたところ、「本当ですか! そんな面倒くさいことをしていたんですね」と驚かれるほど。昔に比べて随分楽になったものです。うまく回ると分かれば周囲の協力も得やすくなるもの。直近では、依頼内容確認に要する時間の短縮のため、直接申請用ページで申請せず、事前にSlackでやりとりするなど、各手順の入り口部分にも手を入れるなど、さらにSRE活動を行うための工数を増やせるよう進め、今後は、定型業務は手を動かさなくても良い状態を目指しています。

photo 現在は作業フローにさらに手を入れ、SRE活動に使える時間を増やそうとしています

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ