Anthropic、「Claude 3.7 Sonnet」公開 「o1」を大きく上回るコーディング性能
米Anthropicは2月25日、ハイブリッド推論モデル「Claude 3.7 Sonnet」を発表した。大規模言語モデル(LLM)と、数学やコーディングなどのタスクを得意とする「推論モデル」を1つのモデルに統合。米OpenAIの推論モデル「o1」と比較し、複数のベンチマークでより高い性能を示したとうたっている。
Claude 3.7 Sonnetでは、前モデル「Claude 3.5 Sonnet」のアップグレード版として使える「標準モード」と、推論モデルを活用した「拡張思考モード」の2つのモードを使い分けられる。なおClaude 3.7 Sonnetに搭載した推論モデルは、企業が実際にLLMを使用する場面を想定し、コンピュータサイエンスの競技問題などのタスクよりも、現実的なタスクに最適化しているという。
これにより、Claude 3.7 Sonnetでは主にコーディング能力などの性能が向上した。例えば、ソフトウェア開発における現実的な課題に対する性能を測るベンチマーク「SWE-bench Verified」では、62.3%(拡張思考モードでは70.3%)の正答率を記録。Claude 3.5 Sonnetの49.0%や、o1の48.9%、中国発のLLM「DeepSeekR1」の49.2%と比較し、高い性能を示したとしている。
Claude 3.7 Sonnetは、無料で使える「Free」を含めた全てのClaudeの契約プランで利用できる。ただしFreeでは、拡張思考モードは利用できない。
また、API「Anthropic API」「Amazon Bedrock」「Google Cloud」の「Vertex AI」でも利用可能。価格は入力トークン100万個/3米ドル、出力トークン100万個/15米ドル(思考トークン含む)。思考に使うトークン数を事前に制限し、一定の予算内で使うこともできるとしている。
Claude 3.7 Sonnetの発表にあわせ、AnthropicはコーディングをサポートするAIエージェントツール「Claude Code」のβ版もリリースした。ターミナル上で稼働し、自然言語による指示でコーディングに関する操作を実行可能。コーディングをファイルの編集やバグの修正の実施、コードに関する質問への回答、GitHubのcommit/pushもできるという。
Anthropicの開発チームにも導入しており、複雑なデバッグや、リファクタリングなどに活用することで開発時間の削減につながっているという。今回リリースしたβ版はあくまで「初期製品」としており、ユーザーからのフィードバックをもとに、今後数週間で機能を改善していく予定。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言
-
2
最新AI「Fable 5」でYouTube動画作ってみた 想像以上の出来に驚愕、ただし大きな弱点も
-
3
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
4
データセンター建設に足りないのは「発電」ではなく「送電」 AI需要で電力消費26%増、Gartner予想
-
5
“AIが電力使いすぎ問題” 「電力不足」懸念で、発電能力より深いボトルネックとは
-
6
「猫も杓子もAI」な現状は今後も続くのか?【後編】AI時代に必要な3つの検討事項
-
7
「もはや宗教」のClaudeに焦るOpenAI 流出メモが暴いた覇権交代のリアル
-
8
トヨタが抜かれる日――キオクシア首位奪取、2005年「時価総額トップ10」を振り返る
-
9
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
10
「日本がいないと成り立たない」世界へ、フィジカルAIが導く独自の交渉力
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR