「GPT-5.5」発表 Claude Mythos Previewとの差は(2/2 ページ)

サイバーセキュリティ評価「CyberGym」の結果
長時間のソフトウェア開発タスクを評価するExpert-SWEの結果
ホワイトカラー業務を想定したGDPvalでの比較
遺伝学・定量生物学タスクを扱うGeneBenchの結果
実際のPC環境を操作する能力を測るOSWorld-Verifiedの結果
通信分野の顧客対応ワークフローを評価するTau2-bench Telecomの結果
コマンドライン上の複雑な作業を評価するTerminal-Bench 2.0の結果
印刷する
SNSでシェア

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR