Cerebras、「NVIDIAのGPUベースより20倍高速」謳うAI推論サービス提供開始

Cerebras Systemsは、AI推論ソリューション「Cerebras Inference」を発表した。「世界最速」でNVIDIAのサービスより20倍高速ではるかに安価だとしている。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米Cerebras Systemsは8月27日（現地時間）、AI開発者が同社のシステムにアクセスしてアプリを実行できるようにするAI推論ソリューション「Cerebras Inference」を発表した。「米NVIDIAのGPUベースのハイパースケールクラウドより20倍高速」で、はるかに安価だとしている。

（画像：Cerebras）

　Llama3.1 8Bで1秒当り1800トークン、Llama3.1 70Bで1秒当り450トークンを提供し、価格はLama 3.1 8Bで100万トークン当り10セント、Llama 3 70Bで100万トークン当り60セント。

　Cerebrasは発表文で、NVIDIAなどのGPUシステムが推論に向かない理由を説明し、自社のシステムは「世界最大のチップを構築し、モデル全体をオンチップに保存することで、メモリ帯域幅のボトルネックを解決する」ことで、GPUのような遅延を解消したと主張する。

なぜGPUは遅いのか（画像：Cerebras）

　Cerebrasのチップは独自のウェーハスケール設計により、44GBのSRAMを1つのチップに統合できるという。総メモリ帯域幅は21ペタバイト／秒で、NVIDIAのH100の7000倍に当たる。

（画像：Cerebras）

　同日から、チャットとAPIアクセスを介してのCerebras Inferenceの提供を開始する。まずはLlama3.1 8Bおよび70Bモデルを提供し、数週間中により大規模なモデルのサポートを追加する予定だ。

　Cerebras Systemsは、米国カリフォルニア州サニーベールに拠点を置く2016年創業の非公開企業。AIやディープラーニングの処理専用のコンピュータシステムの開発を手掛けている。

Cerebras、「NVIDIAのGPUベースより20倍高速」謳うAI推論サービス提供開始

関連記事

関連リンク