ITmedia NEWS > 企業・業界動向 >

仮想サーバ17万台、物理サーバ9万台 「ヤフオク!」「Yahoo! JAPAN」を支えるヤフーのITインフラ運用術(2/2 ページ)

» 2020年08月13日 07時00分 公開
[吉村哲樹ITmedia]
前のページへ 1|2       

全てがうまく進むわけではない

 ただし、構築作業は全てがスムーズに進むわけではない。「サーバ調達の際に予定通りに納品されない」「BIOS設定が間違っていた」「内蔵SSDが品薄で調達できなかった」といった思わぬミスや手違いが起き、構築作業に遅れが生じるケースもあるという。

 ヤフーは構築だけではなく、テストの自動化にも取り組んでいるが、そのプロセスにも改善の余地がある。例えば、同社では現在、タスク実行ツール「Fabric」を用いてテストコードを各サーバに送り込み、100項目以上のテストを自動で実行している。だが、その一方で、どうしても手動で行わざるを得ないテスト項目もいまだに多く残されており、「自動化するテストと、人が確認すべきテストのすみ分けの判断」が今後の課題になっているという。

「守りの運用」と「攻めの運用」の両面で工夫を凝らす 

 このような手順で構築したクラスタを、より効果的に運用できるよう、ヤフーは「守りの運用」と「攻めの運用」を並行して進めている。

 「守りの運用では、少ない人数で効率よく大規模プライベートクラウドを運用するために、監視アラートの扱いに工夫を凝らしている。攻めの運用では、新たな技術を積極的に導入しながら、仮想化基盤のより高度な活用に日々取り組んでいる」と、ヤフーの奥野修平さん(クラウドプラットフォーム本部 プライベートクラウドチーム)は話す。

 「守りの運用」の監視アラートに関しては、運用担当者が対応に忙殺されないよう、インフラの耐障害性を高めてアラートの発生回数を抑えている。具体的には、OpenStackのコントローラーノードをコンテナ化して「Kubernetes」に展開。オーケストレーション機能を利用して複数のノードを1台のサーバのように管理し、どこかに不具合が出た場合でも安定して稼働できる、堅牢な仮想化基盤を目指している。

 無駄なアラート対応作業を行わずに済むよう、アラート発生時の業務フローも定期的に見直している。例えば、以前はシステムの監視担当者がアラートを検知した際、クラウドを担当するチームにその旨を報告。チームから調査指示が返ってきた時点で、初めて実際の調査作業に着手していた。このフローを、クラウドチームへの報告なしに現場の判断だけで調査・対応が行えるよう変更し、アラート対応に必要な工数を大幅に削減した。

 「攻めの運用」としては、幅広いスペックのサーバの運用に対応できるよう、仮想GPUやVPP(FD.ioのネットワーキングデータプレーン。分散ロードバランサとして利用中)などの技術を導入している。

 「仮想サーバのCPUやメモリのリソース、ネットワーク帯域、セキュリティ対策などの面から、開発チームの個別の要望にきめ細かく応えるために、新技術を積極的に活用している。テクノロジー面でのこうしたチャレンジが、使い手に寄り添った柔軟なクラウド環境の提供につながる」と奥野さんは話している。

【更新:2020年8月13日午後3時25分 追加取材に基づき、記事中の一部表記を改めました。】



前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.