「数独」を使ったAI推論ベンチマーク　Sakana AIが公開　英国のパズル系YouTuberらと協力

» 2025年03月21日 15時46分公開

　AIベンチャーのSakana AI（東京都港区）は3月21日、「数独パズル」をベースにしたAI推論用のベンチマークを公開した。数独を普及させたニコリ（東京都中央区）や登録者60万人超の英国のパズル系YouTubeチャンネル「Cracking The Cryptic」（CTC）と協力。現代のAIモデルが人間のように推論して数独を解くには、根本的な限界があると示し、新しい評価方法として提案している。

数独パズルの例（ピアスバタフライという問題）

　現在まで、AIモデルの推論機能は大きく進捗しているが、より強力な推論機能を開発するには依然として課題が多い状況という。その一つが“評価方法の進化”だ。AIモデルが進化するに連れ、学術レベルの試験や数学のコンテストなどは次第に学習されていき、より難しい評価方法が必要になっている。

　そんな中、SakanaAIが目を付けたのが日本文化の一つである数独だ。数独は、ルールに従って9×9のマス目に数字を入れていく論理パズルで、1984年にニコリが命名。00年代には「Sudoku」の名で海外にも広がった。現在では「パズル解く前に車を正しい場所に移動させる」「パズルに表示されている制約に“違反する”必要がある」など、非常に多様なルールを含むパズルが生まれているという。

左から数独パズル「RAT RUN 7: Multiple Choice by Marty Sears」「Reserved Parking by rockratzero」「Chaotic Wrogn by Under Beyond」

　このため、Sakana AIは「数独は、そのユニークな性質から、次のマイルストーンとして最適であり、現代の基礎モデルの推論能力を向上するユニークな機会を提供する」と説明。難しい数独は、パズル解読の有力者でさえ数字を1つ入れる前に何時間も考える場合がある一方、解答をすぐに検証でき、かつ人間の推論や理由なども含むため、強化と模倣の両方のアプローチをAI学習に直接適用できるとしている。

　この考えのもと、Sakana AIは数独をベースにした推論ベンチマーク「Sudoku-Bench」を開発し、GitHub上で公開した。このベンチマークは、コアとなる100個の数独の他、ニコリがこのために作った100個の数独、CTCの動画で解き方を紹介した2565個の数独などのデータをもとに構成している。

　このベンチマークで各社のAIモデルを評価した結果も公開。Sakana AIは「最も高度なAIモデルでさえ、平均して1つの数字も正しく配置できず、米OpenAIの最新の推論モデル『ChatGPT o3』だけが、ベンチマーク内のパズルを解くことができた」と述べている。

Sudoku-Benchによる各AIモデルの性能評価

　「人間の専門家はパズルに取り組む際、固有の制約を徹底的に分析し、パズルの突破口を探す。これは、パズルの設計者が意図的に組み込んだ、正攻法な解決方法を見つける上で重要な点だ。これは推論能力を向上させるためにも重要であるが、多くの最新AIモデルでも実現はできていない。今回開発したベンチマークでは、この点を鑑みて、慎重にパズルを選んだ」（Sakana AI）

　また今回のプロジェクトを記念して、CTCの数独を作成するマーティ・シアーズさんが「Parity Fish」というパズルを制作。赤いSakana AIのロゴが入ったパズルで「ロゴの線に沿って隣接する数字には、必ず偶数と奇数が含まれなければならない」というルールを設けている。こちらは人間向けのパズルで、専用Webサイトで挑戦できる。

マーティ・シアーズさんが作った数独パズル「Parity Fish」

世界初、“100％”AI生成の論文が査読通過　Sakana AIの「The AI Scientist」が達成
Sakana AIは、AIシステム「The AI Scientist」の改良版「v2」が書いた論文が、国際カンファレンスのワークショップで査読を通過したと発表した。AI生成の論文が査読を通過するのは世界初という。
Sakana AI、ビジネス展開に本腰　事業開発本部を立ち上げ　人員規模は50人超に
AIベンチャーのSakana AIは、事業開発本部を立ち上げたと発表した。これまで同社が発表してきた研究成果のビジネス展開していく。
Sakana AI、SNSで物議を醸した「AI CUDA Engineer」の不備を謝罪　「近日中に改訂版を公開」
Sakana AIは2月20日に発表した技術「AI CUDA Engineer」に不備があったと謝罪した。
iPhone 14で高速動作する軽量AIモデル、Sakana AIが開発　知識蒸留の新手法「TAID」採用
AIベンチャーのSakana AIは、小規模言語モデル（SLM）「TinySwallow-1.5B」を開発したと発表した。大規模言語モデル（LLM）の知識を効率的にSLMに転移できる新技術「TAID」を開発し、これを利用し作成した。
技術論争乗り越え事業化フェーズへ　躍進する「Sakana AI」、創業者デイビッド・ハー氏の狙い
米中が主導するAI開発の覇権争いに、日本発のスタートアップが新たな変数として浮上している。創業からわずか18カ月のSakana AIが、革新的な「省資源型AI開発」を武器に、グローバルな存在感を示し始めた。急成長の一方で技術的な論争も経験しながら、このほど事業開発本部を設立し、研究成果の社会実装へと本格始動。世界的AIスタートアップとしての真価が問われる新たな段階に入った。