仮想サーバ17万台、物理サーバ9万台 「ヤフオク!」「Yahoo! JAPAN」を支えるヤフーのITインフラ運用術(2/2 ページ)
「Yahoo! JAPAN」「ヤフオク!」などのWebサービスを運営するヤフー。大規模なトラフィックをさばくため、約17万台の仮想サーバ、約9万台の物理サーバを組み合わせ、独自のプライベートクラウド環境を構築・運用している。
全てがうまく進むわけではない
ただし、構築作業は全てがスムーズに進むわけではない。「サーバ調達の際に予定通りに納品されない」「BIOS設定が間違っていた」「内蔵SSDが品薄で調達できなかった」といった思わぬミスや手違いが起き、構築作業に遅れが生じるケースもあるという。
ヤフーは構築だけではなく、テストの自動化にも取り組んでいるが、そのプロセスにも改善の余地がある。例えば、同社では現在、タスク実行ツール「Fabric」を用いてテストコードを各サーバに送り込み、100項目以上のテストを自動で実行している。だが、その一方で、どうしても手動で行わざるを得ないテスト項目もいまだに多く残されており、「自動化するテストと、人が確認すべきテストのすみ分けの判断」が今後の課題になっているという。
「守りの運用」と「攻めの運用」の両面で工夫を凝らす
このような手順で構築したクラスタを、より効果的に運用できるよう、ヤフーは「守りの運用」と「攻めの運用」を並行して進めている。
「守りの運用では、少ない人数で効率よく大規模プライベートクラウドを運用するために、監視アラートの扱いに工夫を凝らしている。攻めの運用では、新たな技術を積極的に導入しながら、仮想化基盤のより高度な活用に日々取り組んでいる」と、ヤフーの奥野修平さん(クラウドプラットフォーム本部 プライベートクラウドチーム)は話す。
「守りの運用」の監視アラートに関しては、運用担当者が対応に忙殺されないよう、インフラの耐障害性を高めてアラートの発生回数を抑えている。具体的には、OpenStackのコントローラーノードをコンテナ化して「Kubernetes」に展開。オーケストレーション機能を利用して複数のノードを1台のサーバのように管理し、どこかに不具合が出た場合でも安定して稼働できる、堅牢な仮想化基盤を目指している。
無駄なアラート対応作業を行わずに済むよう、アラート発生時の業務フローも定期的に見直している。例えば、以前はシステムの監視担当者がアラートを検知した際、クラウドを担当するチームにその旨を報告。チームから調査指示が返ってきた時点で、初めて実際の調査作業に着手していた。このフローを、クラウドチームへの報告なしに現場の判断だけで調査・対応が行えるよう変更し、アラート対応に必要な工数を大幅に削減した。
「攻めの運用」としては、幅広いスペックのサーバの運用に対応できるよう、仮想GPUやVPP(FD.ioのネットワーキングデータプレーン。分散ロードバランサとして利用中)などの技術を導入している。
「仮想サーバのCPUやメモリのリソース、ネットワーク帯域、セキュリティ対策などの面から、開発チームの個別の要望にきめ細かく応えるために、新技術を積極的に活用している。テクノロジー面でのこうしたチャレンジが、使い手に寄り添った柔軟なクラウド環境の提供につながる」と奥野さんは話している。
【更新:2020年8月13日午後3時25分 追加取材に基づき、記事中の一部表記を改めました。】
関連記事
- 「君、今日からクラウド担当ね」 未経験者が1人で始めた、ファミマのAWS移行の舞台裏
「AWS Summit Tokyo 2019」のセッションに、ファミリーマートでクラウド移行の責任者を務める土井洋典さんが登壇。土井さんは、前任者が突然退職したため、ある日突然上司からクラウド担当を任された経験を持つ。たった1人でのスタートだったというが、どうやってAWS移行を成功させたのだろうか。 - 「なぜクラウドなんだ」「今までのやり方を変えないで」――反発乗り越えAWSなど導入 京王バスを変えた男の交渉術
京王電鉄の虻川勝彦氏(経営統括本部 デジタル戦略推進部長)が、12月10日に開催されたイベント「NetApp INSIGHT 2019 TOKYO」に登壇。京王バスに出向していた当時に、周囲に反発されながらもクラウド導入を推進した際の交渉術を語った。コツは「止まっても謝れば済む領域から導入する」ことだという。 - ドコモの「IDaaS」導入秘話 「認証の仕組みは簡単」「自社開発できるでしょ?」と説く上司との戦い
企業では現在、認証サービスにクラウド型の認証基盤「IDaaS」(Identity as a Service)を利用する取り組みが活発化している。NTTドコモは、IDaaSベンダーの米Auth0に出資し、同社のサービスを「docomo sky」の認証基盤に採り入れている。その裏側で開発担当者は、「認証の仕組みは簡単」「自社開発できるでしょ?」と説く上司を説得していたという。 - 豪雨で水没寸前だったサーバをクラウド移行 「獺祭」の旭酒造・桜井社長が語る「テクノロジーとの向き合い方」
日本酒「獺祭」の蔵元である旭酒造は7月から、顧客管理システムを米OracleのIaaSに段階的に移行している。2018年の西日本豪雨で被災し、BCPの重要性を実感したためという。旭酒造の桜井一宏社長に、今後のテクノロジー活用の展望を聞いた。 - 琉球銀行、電話システムをクラウドに移行 定年後に復帰した62歳が担当 「まだできる」の声に奮起
琉球銀行が、オンプレミス環境に構築していた電話対応のシステムを、7月からクラウド型の「Amazon Connect」に全面移行。店舗にかかってくる電話を全て同システムに転送し、自動応答で用件を聞いた上で、オペレーターが対応する仕組みを取り入れた。構築したのは、同行を定年退職後に再雇用された62歳の喜納(きな)兼次郎さん。喜納さんに、導入の背景と経緯を聞いた。
Copyright © ITmedia, Inc. All Rights Reserved.