毎日2000件来ていたアラートを精査し、20件にまで減らした話リクルート流、SREコトハジメ(2)(1/3 ページ)

2017年4月に「SRE部」を立ち上げたリクルートテクノロジーズ。今回はその背景や、立ち上げ時に苦労した点についてお話しします。一番難しいのは、ミッションの変化に合わせて、メンバーの意識を変えていくことでした。

» 2018年04月12日 08時00分 公開
[小見山勝ITmedia]

 Webサイトやサービスの信頼性、価値の向上を進める「SRE(Site Reliability Engineering)」。もともとはGoogleが始めた取り組みですが、人材、旅行、不動産、結婚、飲食、美容など、数多くのサービスを展開しているリクルートでも、SRE活動を行っており、2017年4月には、リクルートテクノロジーズ内に「サイトリライアビリティエンジニアリング部(以下、SRE部)」という部署も生まれました。

 今回はリクルートテクノロジーズでSRE部を立ち上げた理由や背景、そして、その組織作りについて紹介していこうと思います。

リクルートテクノロジーズが「SRE部」を立ち上げた理由

 現在、リクルートグループが運営するWebサービスの数は150を超えています。各サービスは、担当する事業会社によって提供されており、リクルートテクノロジーズが管理を担当しているオンプレミスのネットインフラ基盤「RAFTEL(ラフテル)」上で稼働しています。RAFTELでは、高性能なハードウェアを配備し、サービスの規模に応じて、リソースを割り振ることで、集約メリットによるコスト効率を高めています。

photo オンプレミスのネットインフラ基盤「RAFTEL(ラフテル)」。高性能機器を配備し、各サイトの拡張に応じてリソースを払い出す仕組みだ

 RAFTELが生まれた2009年頃は、情報を探すユーザーと情報を提供するカスタマーをつなぐマッチングモデルのビジネスが中心でした。モデルが同一で、必要となる要件も似ているため、インフラの構成もある程度標準化することができていたのです。構築や運用作業をテンプレート化し、システムを横断的に管理できる仕組みを作り、作業が発生した際は、作業要件をまとめたExcelのヒアリングシートを基に依頼を受け、対応していました。

 RAFTELの管理担当者は、事業会社とは別の場所に集まって業務を行っていました。構築と運用で役割を分担し、構築の中でも、サーバ、ストレージ、ミドルウェア、データベース、ネットワークと専門分野ごとに班を分けて対応してきました。集約された機器の管理を、それぞれの専門チームで実施するとともに、専門知識を生かし、対応の効率やスピードを高めることが狙いです。

 しかし、昨今はマッチングモデル型ビジネスの伸びに加えて、C2Cサービス(ユーザー同士で物品や価値の取引が行われるサービス)や業務支援サービスといったビジネスが増え、各事業会社にもインフラの知見を持ったエンジニアが増えてきました。

 これに伴い、「最新技術を使ったサービス展開を行いたい」というような“個別対応”が増え、求められる作業も煩雑なものになっていきました。当初は効率的な対応ができていたものの、次第に各班間のコミュニケーションや、構築担当者から運用担当者への引き継ぎなどにかかる時間と労力が膨らんできたのです。こうした背景もあり、2017年4月、リクルートテクノロジーズ内にSRE部が発足しました。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ