「数独」を使ったAI推論ベンチマーク Sakana AIが公開 英国のパズル系YouTuberらと協力
AIベンチャーのSakana AI(東京都港区)は3月21日、「数独パズル」をベースにしたAI推論用のベンチマークを公開した。数独を普及させたニコリ(東京都中央区)や登録者60万人超の英国のパズル系YouTubeチャンネル「Cracking The Cryptic」(CTC)と協力。現代のAIモデルが人間のように推論して数独を解くには、根本的な限界があると示し、新しい評価方法として提案している。
現在まで、AIモデルの推論機能は大きく進捗しているが、より強力な推論機能を開発するには依然として課題が多い状況という。その一つが“評価方法の進化”だ。AIモデルが進化するに連れ、学術レベルの試験や数学のコンテストなどは次第に学習されていき、より難しい評価方法が必要になっている。
そんな中、SakanaAIが目を付けたのが日本文化の一つである数独だ。数独は、ルールに従って9×9のマス目に数字を入れていく論理パズルで、1984年にニコリが命名。00年代には「Sudoku」の名で海外にも広がった。現在では「パズル解く前に車を正しい場所に移動させる」「パズルに表示されている制約に“違反する”必要がある」など、非常に多様なルールを含むパズルが生まれているという。
このため、Sakana AIは「数独は、そのユニークな性質から、次のマイルストーンとして最適であり、現代の基礎モデルの推論能力を向上するユニークな機会を提供する」と説明。難しい数独は、パズル解読の有力者でさえ数字を1つ入れる前に何時間も考える場合がある一方、解答をすぐに検証でき、かつ人間の推論や理由なども含むため、強化と模倣の両方のアプローチをAI学習に直接適用できるとしている。
この考えのもと、Sakana AIは数独をベースにした推論ベンチマーク「Sudoku-Bench」を開発し、GitHub上で公開した。このベンチマークは、コアとなる100個の数独の他、ニコリがこのために作った100個の数独、CTCの動画で解き方を紹介した2565個の数独などのデータをもとに構成している。
このベンチマークで各社のAIモデルを評価した結果も公開。Sakana AIは「最も高度なAIモデルでさえ、平均して1つの数字も正しく配置できず、米OpenAIの最新の推論モデル『ChatGPT o3』だけが、ベンチマーク内のパズルを解くことができた」と述べている。
「人間の専門家はパズルに取り組む際、固有の制約を徹底的に分析し、パズルの突破口を探す。これは、パズルの設計者が意図的に組み込んだ、正攻法な解決方法を見つける上で重要な点だ。これは推論能力を向上させるためにも重要であるが、多くの最新AIモデルでも実現はできていない。今回開発したベンチマークでは、この点を鑑みて、慎重にパズルを選んだ」(Sakana AI)
また今回のプロジェクトを記念して、CTCの数独を作成するマーティ・シアーズさんが「Parity Fish」というパズルを制作。赤いSakana AIのロゴが入ったパズルで「ロゴの線に沿って隣接する数字には、必ず偶数と奇数が含まれなければならない」というルールを設けている。こちらは人間向けのパズルで、専用Webサイトで挑戦できる。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
データセンター建設に足りないのは「発電」ではなく「送電」 AI需要で電力消費26%増、Gartner予想
-
2
「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言
-
3
最新AI「Fable 5」でYouTube動画作ってみた 想像以上の出来に驚愕、ただし大きな弱点も
-
4
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
5
トヨタが抜かれる日――キオクシア首位奪取、2005年「時価総額トップ10」を振り返る
-
6
中国が人型ロボット開発競争をリードする「納得の理由」 日本に残された逆転シナリオは?
-
7
“AIが電力使いすぎ問題” 「電力不足」懸念で、発電能力より深いボトルネックとは
-
8
NTT、独自のAIモデル「tsuzumi 2」発表 “国産AI開発競争”に「負けられない」と島田社長
-
9
時価総額3兆ドルの原動力 NVIDIAトップが貫く「誰もやらない」逆張りの経営
-
10
「もはや宗教」のClaudeに焦るOpenAI 流出メモが暴いた覇権交代のリアル
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR