AIベンチャーのSakana AI(東京都港区)は3月21日、「数独パズル」をベースにしたAI推論用のベンチマークを公開した。数独を普及させたニコリ(東京都中央区)や登録者60万人超の英国のパズル系YouTubeチャンネル「Cracking The Cryptic」(CTC)と協力。現代のAIモデルが人間のように推論して数独を解くには、根本的な限界があると示し、新しい評価方法として提案している。
現在まで、AIモデルの推論機能は大きく進捗しているが、より強力な推論機能を開発するには依然として課題が多い状況という。その一つが“評価方法の進化”だ。AIモデルが進化するに連れ、学術レベルの試験や数学のコンテストなどは次第に学習されていき、より難しい評価方法が必要になっている。
そんな中、SakanaAIが目を付けたのが日本文化の一つである数独だ。数独は、ルールに従って9×9のマス目に数字を入れていく論理パズルで、1984年にニコリが命名。00年代には「Sudoku」の名で海外にも広がった。現在では「パズル解く前に車を正しい場所に移動させる」「パズルに表示されている制約に“違反する”必要がある」など、非常に多様なルールを含むパズルが生まれているという。
左から数独パズル「RAT RUN 7: Multiple Choice by Marty Sears」「Reserved Parking by rockratzero」「Chaotic Wrogn by Under Beyond」このため、Sakana AIは「数独は、そのユニークな性質から、次のマイルストーンとして最適であり、現代の基礎モデルの推論能力を向上するユニークな機会を提供する」と説明。難しい数独は、パズル解読の有力者でさえ数字を1つ入れる前に何時間も考える場合がある一方、解答をすぐに検証でき、かつ人間の推論や理由なども含むため、強化と模倣の両方のアプローチをAI学習に直接適用できるとしている。
この考えのもと、Sakana AIは数独をベースにした推論ベンチマーク「Sudoku-Bench」を開発し、GitHub上で公開した。このベンチマークは、コアとなる100個の数独の他、ニコリがこのために作った100個の数独、CTCの動画で解き方を紹介した2565個の数独などのデータをもとに構成している。
このベンチマークで各社のAIモデルを評価した結果も公開。Sakana AIは「最も高度なAIモデルでさえ、平均して1つの数字も正しく配置できず、米OpenAIの最新の推論モデル『ChatGPT o3』だけが、ベンチマーク内のパズルを解くことができた」と述べている。
「人間の専門家はパズルに取り組む際、固有の制約を徹底的に分析し、パズルの突破口を探す。これは、パズルの設計者が意図的に組み込んだ、正攻法な解決方法を見つける上で重要な点だ。これは推論能力を向上させるためにも重要であるが、多くの最新AIモデルでも実現はできていない。今回開発したベンチマークでは、この点を鑑みて、慎重にパズルを選んだ」(Sakana AI)
また今回のプロジェクトを記念して、CTCの数独を作成するマーティ・シアーズさんが「Parity Fish」というパズルを制作。赤いSakana AIのロゴが入ったパズルで「ロゴの線に沿って隣接する数字には、必ず偶数と奇数が含まれなければならない」というルールを設けている。こちらは人間向けのパズルで、専用Webサイトで挑戦できる。
世界初、“100%”AI生成の論文が査読通過 Sakana AIの「The AI Scientist」が達成
Sakana AI、ビジネス展開に本腰 事業開発本部を立ち上げ 人員規模は50人超に
Sakana AI、SNSで物議を醸した「AI CUDA Engineer」の不備を謝罪 「近日中に改訂版を公開」
iPhone 14で高速動作する軽量AIモデル、Sakana AIが開発 知識蒸留の新手法「TAID」採用
技術論争乗り越え事業化フェーズへ 躍進する「Sakana AI」、創業者デイビッド・ハー氏の狙いCopyright © ITmedia, Inc. All Rights Reserved.