AWSは2025年のAmazon Prime Dayに対応するため、生成AI搭載ショッピングアシスタント「Rufus」の大規模スケーリングを実施した。Amazon Prime Dayを支えるAWS基盤の全貌とは。
この記事は会員限定です。会員登録すると全てご覧いただけます。
「Amazon」が提供するAIショッピングアシスタント「Amazon Rufus」(Rufus)が、年に一度の「Amazon Prime Day」(Prime Day)を前に大幅な機能強化をした。この進化の裏には、Amazon Web Services(AWS)が開発した8万個を超えるAWS AIチップの活用がある。これにより、Rufusはユーザーからの質問に対し、より迅速かつスムーズな対話形式での回答が可能となり、Prime Dayのような高負荷時でも安定したサービス提供を実現する。
Rufusの強化がいかにして実現されたのか、その技術的な詳細とユーザーにもたらされるメリットについて解説する。
Amazon Web Services(以下、AWS)は2025年6月10日、Rufusの強化を発表した。RufusはPrime Dayに向けて、8万個を超えるAWS AIチップを使うことで、大幅な性能向上と規模拡大を実現したとしている。これにより、より多くのユーザーがスムーズにRufusを利用できるようになった。
Rufusは、Amazonの商品カタログやWebの情報を基にユーザーの質問に対して対話形式で回答するショッピングアシスタントだ。このサービスを提供するに当たり、数十億のパラメーターを持つ大規模言語モデル(LLM)を低コストかつ低レイテンシで処理できる安定性の高い推論基盤が必要だった。
AWSはRufusをPrime Dayのような高トラフィック環境でも安定して稼働させるため、AWS独自開発のAI推論チップ「Inferentia2」および学習用チップ「Trainium」を中核に据えた推論システムを構築した。両チップは「Amazon EC2」の「Inf2インスタンス」(Inf2)および「Trn1インスタンス」(Trn1)として利用されており、どちらも「Neuron SDK」で動作する。Trn1を使用した構成においてInf2構成と比較してレイテンシが20%削減され、スループットも向上した。
RufusはRAG(検索拡張生成)を活用しており、ユーザーの入力に対する関連商品情報を検索し、その内容を反映した回答を生成する。この手法により、より精度の高い応答が可能になった。
システム構成としては、Inferentia2およびTrainiumを搭載したインスタンスを複数のリージョンに展開し、「Amazon Elastic Container Service」(Amazon ECS)、「Application Load Balancer」(ALB)、「Triton Inference Server」(推論を効率化するために NVIDIA が開発したオープンソースの推論サーバ)などを組み合わせて構築した。これにより、Rufusは最大で3つのリージョンにわたりスケールされ、Prime Day期間中も1秒未満の初回応答レイテンシを維持し、毎分300万トークンの処理能力を実現した。
Neuron SDKによる最適化に加え、INT8量子化やvLLMを使用した連続バッチング(continuous batching)、Neuronコンパイラとランタイムでのリソース、計算、メモリ帯域幅の最適化などを導入することで、推論性能とエネルギー効率の双方を向上させた。他の検討済みのソリューションと比べてワット当たりの性能は従来ソリューションと比べて54%高く、省エネルギー要件にも対応する。
Rufusの推論基盤はストリーミングアーキテクチャーを採用しており、生成テキストを逐次返すことで、ユーザーが迅速に応答内容を確認できる。これによって快適な利用体験を損なうことなく、大規模なトラフィックに耐え得る運用が可能になった。
Copyright © ITmedia, Inc. All Rights Reserved.