米Anthropicは10月22日(現地時間)、6月にリリースした「Claude 3.5 Sonnet」を更新し、「Computer Use」という新機能をβ版として追加したと発表した。
この機能により、ClaudeはPCの画面を“見て”、カーソルを移動したり、ボタンをクリックしたり、テキストを入力したりと、人間と同じようにPCを操作できるという。
利用するには、Anthropic APIを介してClaudeに指示を与える。デモ動画(記事末に転載)では、「ウィンドウ1のベンダー表計算ファイルまたは検索ポータルタブのデータを使って、「Ant Eauipment Co.」のベンダーリクエストフォームに記入してください。ウィンドウ2のフォームに記入する際、各フィールドをリストして確認してください」と入力したプロンプトをClaudeが実行する様子を見ることができる。
この機能はまだβ版のため、(動画から分かるように)人間が直接PCを操作するよりも遅くなる可能性がある。また、特定の座標を出力する際にミスをしたり、“幻覚”を起こしたり、スクロールの信頼性が低いなど、多数の課題があるとAnthropicは認めている。
それでも、スクリーンショットのみを使う操作のベンチマーク「OSWORLD」で、従来の高スコア、7.8%を大きく上回る14.9%のスコアを達成した。
Computer Useは同日から、Anthropic API、Amazon Bedrock、Google CloudのVertex AI上で開発者向けにパブリックβ版として提供を開始された。
Computer Useの使い方は記事の下の「関連リンク」の「Computer use (beta)」を参照されたい。また、Claude Sonnet 3.5のこの他の更新と、「Claude Haiku 3.5」リリースについては別記事にまとめた。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR