Anthropic、「Claude 3.7 Sonnet」公開　「o1」を大きく上回るコーディング性能

公開 2025年02月25日 13時21分

[ITmedia]

印刷する

　米Anthropicは2月25日、ハイブリッド推論モデル「Claude 3.7 Sonnet」を発表した。大規模言語モデル（LLM）と、数学やコーディングなどのタスクを得意とする「推論モデル」を1つのモデルに統合。米OpenAIの推論モデル「o1」と比較し、複数のベンチマークでより高い性能を示したとうたっている。

米Anthropic、ハイブリッド推論モデル「Claude 3.7 Sonnet」をリリース（画像は公式ブログより、以下同）

　Claude 3.7 Sonnetでは、前モデル「Claude 3.5 Sonnet」のアップグレード版として使える「標準モード」と、推論モデルを活用した「拡張思考モード」の2つのモードを使い分けられる。なおClaude 3.7 Sonnetに搭載した推論モデルは、企業が実際にLLMを使用する場面を想定し、コンピュータサイエンスの競技問題などのタスクよりも、現実的なタスクに最適化しているという。

　これにより、Claude 3.7 Sonnetでは主にコーディング能力などの性能が向上した。例えば、ソフトウェア開発における現実的な課題に対する性能を測るベンチマーク「SWE-bench Verified」では、62.3％（拡張思考モードでは70.3％）の正答率を記録。Claude 3.5 Sonnetの49.0％や、o1の48.9％、中国発のLLM「DeepSeekR1」の49.2％と比較し、高い性能を示したとしている。

ベンチマーク「SWE-bench Verified」の結果

各ベンチマークの結果

　Claude 3.7 Sonnetは、無料で使える「Free」を含めた全てのClaudeの契約プランで利用できる。ただしFreeでは、拡張思考モードは利用できない。

　また、API「Anthropic API」「Amazon Bedrock」「Google Cloud」の「Vertex AI」でも利用可能。価格は入力トークン100万個／3米ドル、出力トークン100万個／15米ドル（思考トークン含む）。思考に使うトークン数を事前に制限し、一定の予算内で使うこともできるとしている。

　Claude 3.7 Sonnetの発表にあわせ、AnthropicはコーディングをサポートするAIエージェントツール「Claude Code」のβ版もリリースした。ターミナル上で稼働し、自然言語による指示でコーディングに関する操作を実行可能。コーディングをファイルの編集やバグの修正の実施、コードに関する質問への回答、GitHubのcommit／pushもできるという。