毎日2000件来ていたアラートを精査し、20件にまで減らした話:リクルート流、SREコトハジメ(2)(1/3 ページ)
2017年4月に「SRE部」を立ち上げたリクルートテクノロジーズ。今回はその背景や、立ち上げ時に苦労した点についてお話しします。一番難しいのは、ミッションの変化に合わせて、メンバーの意識を変えていくことでした。
Webサイトやサービスの信頼性、価値の向上を進める「SRE(Site Reliability Engineering)」。もともとはGoogleが始めた取り組みですが、人材、旅行、不動産、結婚、飲食、美容など、数多くのサービスを展開しているリクルートでも、SRE活動を行っており、2017年4月には、リクルートテクノロジーズ内に「サイトリライアビリティエンジニアリング部(以下、SRE部)」という部署も生まれました。
今回はリクルートテクノロジーズでSRE部を立ち上げた理由や背景、そして、その組織作りについて紹介していこうと思います。
リクルートテクノロジーズが「SRE部」を立ち上げた理由
現在、リクルートグループが運営するWebサービスの数は150を超えています。各サービスは、担当する事業会社によって提供されており、リクルートテクノロジーズが管理を担当しているオンプレミスのネットインフラ基盤「RAFTEL(ラフテル)」上で稼働しています。RAFTELでは、高性能なハードウェアを配備し、サービスの規模に応じて、リソースを割り振ることで、集約メリットによるコスト効率を高めています。
RAFTELが生まれた2009年頃は、情報を探すユーザーと情報を提供するカスタマーをつなぐマッチングモデルのビジネスが中心でした。モデルが同一で、必要となる要件も似ているため、インフラの構成もある程度標準化することができていたのです。構築や運用作業をテンプレート化し、システムを横断的に管理できる仕組みを作り、作業が発生した際は、作業要件をまとめたExcelのヒアリングシートを基に依頼を受け、対応していました。
RAFTELの管理担当者は、事業会社とは別の場所に集まって業務を行っていました。構築と運用で役割を分担し、構築の中でも、サーバ、ストレージ、ミドルウェア、データベース、ネットワークと専門分野ごとに班を分けて対応してきました。集約された機器の管理を、それぞれの専門チームで実施するとともに、専門知識を生かし、対応の効率やスピードを高めることが狙いです。
しかし、昨今はマッチングモデル型ビジネスの伸びに加えて、C2Cサービス(ユーザー同士で物品や価値の取引が行われるサービス)や業務支援サービスといったビジネスが増え、各事業会社にもインフラの知見を持ったエンジニアが増えてきました。
これに伴い、「最新技術を使ったサービス展開を行いたい」というような“個別対応”が増え、求められる作業も煩雑なものになっていきました。当初は効率的な対応ができていたものの、次第に各班間のコミュニケーションや、構築担当者から運用担当者への引き継ぎなどにかかる時間と労力が膨らんできたのです。こうした背景もあり、2017年4月、リクルートテクノロジーズ内にSRE部が発足しました。
関連記事
- コレ1枚で分かる「SRE(Site Reliability Engineer)」
これからの運用技術者に求められるアプローチとして注目される「SRE(Site Reliability Engineer)」について解説します。 - APIで社内、そして世界とつながる――リクルートのAI活用、そのキーマンに迫る
自社サービスにAIを積極的に導入しているリクルートだが、その活用を推進する部署がリクルートテクノロジーズにある。彼らがどのようにして業務部門と連携しているのか。そのカギの1つに「API」があるという。 - 脆弱性発見のプロ集団ーーリクルート「レッドチーム」の仕事とは?
インシデントを未然に防ぐために、社内のセキュリティリスクを洗い出す「レッドチーム」。日本でいち早く“自前”のレッドチームを立ち上げたリクルートテクノロジーズに、そのミッションと日々の活動を聞いた。 - ビッグデータで社会をあっと言わせるサービスを リクルートテクノロジーズ・泉さん
月間で数十億レコードという大量データを生成するリクルートは、ビッグデータの専門組織を立ち上げ、ビジネス成果を生み出すためのデータ活用基盤を構築。そのプロジェクトを率いる泉さんが考える未来像とは――。
Copyright © ITmedia, Inc. All Rights Reserved.