Anthropic、「Claude 3.7 Sonnet」公開 「o1」を大きく上回るコーディング性能
米Anthropicは、ハイブリッド推論モデル「Claude 3.7 Sonnet」を発表した。
米Anthropicは2月25日、ハイブリッド推論モデル「Claude 3.7 Sonnet」を発表した。大規模言語モデル(LLM)と、数学やコーディングなどのタスクを得意とする「推論モデル」を1つのモデルに統合。米OpenAIの推論モデル「o1」と比較し、複数のベンチマークでより高い性能を示したとうたっている。
Claude 3.7 Sonnetでは、前モデル「Claude 3.5 Sonnet」のアップグレード版として使える「標準モード」と、推論モデルを活用した「拡張思考モード」の2つのモードを使い分けられる。なおClaude 3.7 Sonnetに搭載した推論モデルは、企業が実際にLLMを使用する場面を想定し、コンピュータサイエンスの競技問題などのタスクよりも、現実的なタスクに最適化しているという。
これにより、Claude 3.7 Sonnetでは主にコーディング能力などの性能が向上した。例えば、ソフトウェア開発における現実的な課題に対する性能を測るベンチマーク「SWE-bench Verified」では、62.3%(拡張思考モードでは70.3%)の正答率を記録。Claude 3.5 Sonnetの49.0%や、o1の48.9%、中国発のLLM「DeepSeekR1」の49.2%と比較し、高い性能を示したとしている。
Claude 3.7 Sonnetは、無料で使える「Free」を含めた全てのClaudeの契約プランで利用できる。ただしFreeでは、拡張思考モードは利用できない。
また、API「Anthropic API」「Amazon Bedrock」「Google Cloud」の「Vertex AI」でも利用可能。価格は入力トークン100万個/3米ドル、出力トークン100万個/15米ドル(思考トークン含む)。思考に使うトークン数を事前に制限し、一定の予算内で使うこともできるとしている。
Claude 3.7 Sonnetの発表にあわせ、AnthropicはコーディングをサポートするAIエージェントツール「Claude Code」のβ版もリリースした。ターミナル上で稼働し、自然言語による指示でコーディングに関する操作を実行可能。コーディングをファイルの編集やバグの修正の実施、コードに関する質問への回答、GitHubのcommit/pushもできるという。
Anthropicの開発チームにも導入しており、複雑なデバッグや、リファクタリングなどに活用することで開発時間の削減につながっているという。今回リリースしたβ版はあくまで「初期製品」としており、ユーザーからのフィードバックをもとに、今後数週間で機能を改善していく予定。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Xの最新AI「Grok 3」爆速レビュー ChatGPTとの能力差や“ネットの話題把握力”をチェック
イーロン・マスク氏率いる米AI企業xAIが2月18日に公開した、チャットAIアシスタント「Grok」の最新モデル「Grok 3」。有料プラン契約者向けに順次提供が始まっており、記者も一部機能のβ版を手元で使える状況になったので、軽く触ってみた感想を伝える。
イーロン・マスク氏のxAI、「Grok 3」発表 推論モデルは「o1」超うたう、調査機能「DeepSearch」も
イーロン・マスク氏が手掛ける米xAIは2月18日、新しいAIモデル群「Grok 3」を発表した。「Grok 2」の後継にあたるモデルで、Grok 3と小規模版「Grok 3 mini」の他、推論モデル「Grok 3 Reasoning」「Grok 3 mini Reasoning」、OpenAIの「deep research」に似た調査機能「DeepSearch」も登場した。
「私はOpenAIのAIアシスタント」――中国産AI「DeepSeek R1」の“疑惑の返答”がSNSで物議に
「私はOpenAIのAIアシスタント」――中国AIスタートアップ・DeepSeek社の大規模言語モデル(LLM)「DeepSeek-R1」がチャットでこんな返答をするとX上で物議を醸している。
時の人・安野たかひろ氏はどんな生成AIツールを使ってる? “標準装備”を聞いてみた
AIエンジニアの安野貴博は、一体どんな生成AIを活用し、日々の仕事をこなしているのか。普段の“標準装備”から、関心のあるツール・大規模言語モデル(LLM)、その用途や使い方を聞いてみた。
“GPT-4超え性能”の日本語特化型LLM AIスタートアップ・ELYZAが開発 国外プレイヤーとの競争も「諦めない」
東大発のAIスタートアップ企業であるELYZAは、GPT-4を超える性能を持つ日本語特化型の大規模言語モデル(LLM)「Llama-3-ELYZA-JP-70B」を開発したと発表した。



