最初の自動化で「大失敗」して得た気付き――SREはトライ&エラーが全てであるリクルート流、SREコトハジメ(5)(3/3 ページ)

» 2018年07月30日 08時00分 公開
[小見山勝ITmedia]
前のページへ 1|2|3       

「トイル撲滅=全自動化」ではない――フロー整理も一つの答え

 この経験から私は、トイル撲滅は全てを自動化するのではなく、フロー全体を書き出して、その中から不要なものをなくし、必要なものを適切に実行できるよう整理するのが重要だと捉えるようになりました。全てをコード化(自動化)し、その後でリファクタリングしても同じことが実現できますが、全ての作業をコード化するのはなかなか難しいものです。

 フロー整理後の実業務適用や自動化のために、私たちが使った言語およびツールは、Node.js、Golang、Capistrano、Ansible、Jenkins、Slack、Jira、Confluenceと一般的になってきているものだけではなく、枯れた技術であるシェルも使いました。

 ツール化やコード化は、目的ではなくあくまで手段。時間があれば、新しい技術を学習コストをかけて取り組んでもいいと思いますし、時間が確保できなければ、枯れた技術の水平展開でも十分なのです。

取り組んできた施策全てが成功したわけではない

 本連載では、リクルートテクノロジーズでのSRE活動について、概要の説明から、SREの組織作り、そして具体的な取り組みを紹介してきました。当社と同様に、複数サービスが稼働する環境でのSRE活動は、組織を作っていきなり実施できるものではなく、特定のツールやフローを適用するだけで実施できるものでもないと考えています。

 具体的な取り組みとして挙げた「四半期ごとのインフラ情報棚卸し」「フロー改善によるトイル撲滅」も含め、取り組んできたこと全てが成功したわけではなく、失敗しながらも軌道修正して何とか形になったものや、ツール先行で検討してしまい、目的が明確でなかったため、中止したものもありました。

 リクルートテクノロジーズでは現在、さらなるインフラの進化に向けて、サービス異常時の早期検知を目的とした「監視環境の整備」、将来起こり得るサービス異常の示唆や、課題の発見を目的とした「モニタリング環境の整備」、そして、障害時の早期復旧を目的とした「障害フローの整備」など、さまざまなSRE活動に取り組んでいます。

 皆さんも身近にあるデータやフローを見回し、できるところから挑戦してみてはいかがでしょう。SRE活動はその一歩から始まります。失敗を恐れてはいけません。成功を目指すことはもちろん大切ですが、私自身、失敗から得た「SRE活動はツール化やコード化をすることではなく、目的を達成するための手段」という学びが、今のSRE活動の土台になっていると感じているのですから。

著者プロフィール:小見山 勝(こみやま まさる)

photo

株式会社リクルートテクノロジーズ ITエンジニアリング本部 サイトリライアビリティエンジニアリング部所属。ライフスタイル系サイトのインフラ担当としてSRE活動を実施。

キャリアSIerにてエンタープライズ向けシステムの検証、構築、運用を経験。その後、ベンチャー企業で大手比較サイトの大規模トラフィック、大規模システムリプレースを経験し、現業に従事、現在に至る。趣味はウイスキーを嗜むこと。学んで、飲んで、見て、会話し、楽しむ。


前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ