この経験から私は、トイル撲滅は全てを自動化するのではなく、フロー全体を書き出して、その中から不要なものをなくし、必要なものを適切に実行できるよう整理するのが重要だと捉えるようになりました。全てをコード化(自動化)し、その後でリファクタリングしても同じことが実現できますが、全ての作業をコード化するのはなかなか難しいものです。
フロー整理後の実業務適用や自動化のために、私たちが使った言語およびツールは、Node.js、Golang、Capistrano、Ansible、Jenkins、Slack、Jira、Confluenceと一般的になってきているものだけではなく、枯れた技術であるシェルも使いました。
ツール化やコード化は、目的ではなくあくまで手段。時間があれば、新しい技術を学習コストをかけて取り組んでもいいと思いますし、時間が確保できなければ、枯れた技術の水平展開でも十分なのです。
本連載では、リクルートテクノロジーズでのSRE活動について、概要の説明から、SREの組織作り、そして具体的な取り組みを紹介してきました。当社と同様に、複数サービスが稼働する環境でのSRE活動は、組織を作っていきなり実施できるものではなく、特定のツールやフローを適用するだけで実施できるものでもないと考えています。
具体的な取り組みとして挙げた「四半期ごとのインフラ情報棚卸し」「フロー改善によるトイル撲滅」も含め、取り組んできたこと全てが成功したわけではなく、失敗しながらも軌道修正して何とか形になったものや、ツール先行で検討してしまい、目的が明確でなかったため、中止したものもありました。
リクルートテクノロジーズでは現在、さらなるインフラの進化に向けて、サービス異常時の早期検知を目的とした「監視環境の整備」、将来起こり得るサービス異常の示唆や、課題の発見を目的とした「モニタリング環境の整備」、そして、障害時の早期復旧を目的とした「障害フローの整備」など、さまざまなSRE活動に取り組んでいます。
皆さんも身近にあるデータやフローを見回し、できるところから挑戦してみてはいかがでしょう。SRE活動はその一歩から始まります。失敗を恐れてはいけません。成功を目指すことはもちろん大切ですが、私自身、失敗から得た「SRE活動はツール化やコード化をすることではなく、目的を達成するための手段」という学びが、今のSRE活動の土台になっていると感じているのですから。
Copyright © ITmedia, Inc. All Rights Reserved.