インフラ担当とサービス担当、お互いの“距離”を縮めるために必要なこと:リクルート流、SREコトハジメ(3)(1/3 ページ)
SRE部という組織を立ち上げても、すぐにSRE活動が行えるわけではありません。自分ごととしてサービスを理解し、事業との距離を“本当の意味”で縮めることで、初めてできるようになることがたくさんあるのです。
SRE部という組織を立ち上げても、すぐにSRE活動が行えるわけではない――。前回の記事ではそんなお話をしました。ミッションの変化に合わせて、システムやメンバーの意識も変えていかなければいけません。そのため、組織作りが非常に重要になります。
私自身、メンバーの意識改革やコミュニケーションの整理を実施し、組織としてSRE活動が行えるようになってきていることを、現場で働く身として実感しています。前編では手順書の統合やアラートの整理をお話ししました。後編では、サービスの繁盛期対応やコミュニケーションについてご紹介します。
自分ごととしてサービスを理解し、適切な手を打つために
私は2017年4月から、とあるライフスタイル系サービスのインフラを担当しています。サービス担当者と共に業務を行っており、みんな、近くの席に座っています。
どんなサービスでもそうだと思いますが、私が担当するサービスも1年の間でアクセス数には波があります。具体的には、特定の月間が年間を通じて最も繁盛し、突出してアクセスが多いのです。営業もこのタイミングに合わせて、さまざまな施策を講じています。ビジネスとして重要な月間は、当然のことながらインフラとしての対応も重要な期間になるのです。
まず、サービス担当者と相談し、昨年度におけるピーク時のアクセス数と、今年度のピーク時アクセス数およびビジネス目標をヒアリング。そこから、昨年度ピーク時のインフラリソース使用率を基に、今年度ピーク時のインフラリソース見込みを算出した結果、リソースの増強が必要だと判明しました。
対応のためのコストをまとめ、関係者を集めて意識合わせを実施。繁盛期の対応に向け、リソースを増強する方針で進める流れとなりました。リソースの増強は、ビジネス目線で見るとコストが増えるため、システム改善によるリソース低減施策も併せて実施しました。現在抱えているシステムの問題(課題)を洗い出し、関係者と協議し、レスポンス性能向上を狙ったデータベースのメンテナンスも、施策として講ずることに決まりました。
そして十分な準備を整えた上で、繁盛期に突入したのですが、たった数日で想定外の事態が発生してしまったのです。
関連記事
- コレ1枚で分かる「SRE(Site Reliability Engineer)」
これからの運用技術者に求められるアプローチとして注目される「SRE(Site Reliability Engineer)」について解説します。 - APIで社内、そして世界とつながる――リクルートのAI活用、そのキーマンに迫る
自社サービスにAIを積極的に導入しているリクルートだが、その活用を推進する部署がリクルートテクノロジーズにある。彼らがどのようにして業務部門と連携しているのか。そのカギの1つに「API」があるという。 - 脆弱性発見のプロ集団ーーリクルート「レッドチーム」の仕事とは?
インシデントを未然に防ぐために、社内のセキュリティリスクを洗い出す「レッドチーム」。日本でいち早く“自前”のレッドチームを立ち上げたリクルートテクノロジーズに、そのミッションと日々の活動を聞いた。 - ビッグデータで社会をあっと言わせるサービスを リクルートテクノロジーズ・泉さん
月間で数十億レコードという大量データを生成するリクルートは、ビッグデータの専門組織を立ち上げ、ビジネス成果を生み出すためのデータ活用基盤を構築。そのプロジェクトを率いる泉さんが考える未来像とは――。
Copyright © ITmedia, Inc. All Rights Reserved.