メディア

「論理的思考」を持ったOpenAI o1、何がすごいのか？　ChatGPTの進化を知る

» 2024年10月30日 09時00分公開

[湯川鶴章、エクサウィザーズ AI新聞編集長]

　OpenAIの新モデル「o1」がリリースされたことで、AIは「チャットボットの時代」から「論理的思考の時代」に進化したと言われる。

　AIが「論理的に思考する」とは、どういうことなのか。またそれは、どのような仕組みのことなのか。専門家向け解説は存在するのかもしれないが、一般的なビジネスマンにも分かりやすい解説を見たことがない。どれだけ分かりやすく解説できるのか、挑戦してみることにした。

AIは「チャットボットの時代」から「論理的思考の時代」に進化した。何ができるようになるのか？（画像：ゲッティイメージズより）

AIが論理的に思考　「何が」できるようになるのか？

　o1の論理的思考の専門的な解説によると、思考の連鎖（Chain of Thought）と強化学習の組み合わせだという。思考の連鎖とは、AIが問題を解く過程で一連の論理的なステップを踏むことを指す。

　この仕組みを使うことで、AIは複雑な問題を一度に全て解こうとするのではなく、少しずつ分けて考えることができる。まるで人間が大きな課題に直面したとき、まずそれをいくつかの小さな部分に分割し、それぞれの部分に取り組むようなものだ。

　こうしたステップバイステップのプロセスによって、AIはより精度の高い回答を導き出すことができる。例えば、人間でも数学の問題を解く際に、最初にどういった手順で解くのかを決め、その手順に従って順番に計算していき、最終的な回答に辿り着く。

　o1も同様にまず問題を小さな部分に分けて考え、各ステップで適切な計算を行い、最終的に正しい答えに到達できる。数学以外の問いについても、複雑な課題を一度に解決しようとするのではなく、段階的に取り組むことで、精度と効率を向上させている。

　また、o1では強化学習も重要な役割を果たしている。強化学習とは、AIが「試行錯誤」を通じて学ぶ方法だ。具体的には、AIがさまざまな行動を取り、その結果に応じて報酬を得ることで、最適な行動を見つけていくプロセスだ。

　例えば、ゲームをプレーするAIが、勝つための最善の動きを学ぶために何度もプレーし、勝利につながる行動に報酬が与えられることで、どのようにプレーすればよいかを学んでいくようなものだ。

　勝つ方法を誰かに教えてもらうのではなく、自分で何回も試行錯誤しながら学んでいくやり方だ。AIも勝つ方法を人間に教えてもらったほうが効果的に学習できるのだが、AIが自分で試行錯誤することで人間に思い付かなかった方法を編み出すことがある。Google DeepMindのAlphaGOが韓国の碁の名人イ・セドル氏に勝てたのは、強化学習の結果、名人でさえ思い付かない打ち手を思い付いたからだ。

　この強化学習で重要なのが「Q関数」と呼ばれる概念だ。Q関数は、特定の状況においてどの行動がどれだけの報酬を得られるかを評価するもので、AIが意思決定を行う際の指針となる。Q関数は、強化学習の過程で徐々に更新され、最適な行動を選べるように学習されていく。

　具体的には、AIがある行動を取った後、その行動がどれだけの報酬をもたらしたかを観測し、その結果をもとにQ関数の値を更新していく。このプロセスを何度も繰り返すことで、AIは最適な行動を学習し、効率的に問題を解決できるようになるのだ。

　これをもう少し具体的に説明してみよう。例えば、迷路を解くAIを考えてみると分かりやすいかもしれない。AIがある場所にいて、どの方向に進むべきかを決めるとする。このとき、Q関数は各方向に進んだときに得られる「報酬」、つまりゴールに近付く度合いを数値化して評価する。AIはこのQ関数を使って、どの方向に進むのが最も良い選択かを判断するのだ。o1では、このQ関数を使ってAIがどのような行動を取るべきかを効率的に学べるようにしている。

　そして、o1のもう一つの特徴は、推論時にもステップバイステップで問題を解決しようとするところだ。ちなみにAIの計算処理には「学習」と「推論」の2種類がある。

　「学習」とは、AIがデータを使って知識を獲得するプロセスだ。例えば、たくさんの例題を使ってパターンやルールを見つけ出し、問題を解決する方法を学ぶことを指す。これは、人間が何度も練習問題を解いて数学の解き方を身に付けることと似ている。AIはこの学習プロセスを通して、自分が取るべき最適な行動を見つけ出す。

　一方で、「推論」とは、学習で得た知識をもとに新しい問題に対して答えを導き出すプロセスだ。つまり、学習で得たルールやパターンを使って、実際に問題に対する答えを出すことだ。学期末テストに向けて1～2週間ほど前から勉強するのが「学習」だとすれば、実際に学校で学期末テストを受けるのが「推論」になる。

　これまでのAIは、「学習」に大量の計算資源（半導体の質と量）と時間をかけ、「推論」の計算は一瞬だった。質問すれば、すぐに答えてくれた。直感的というか、知っていることをそのまま教えてくれるという感じで、その場で考えている感じではない。

　o1では、推論に数秒から十数秒の時間をかける。そこでもステップバイステップの思考の連鎖が行われているわけだ。チェスや将棋に例えると、o1はじっくり考えてからコマを動かす。そんな感じだ。推論に時間をかけることで、より論理的で深い答えを導き出しているわけだ。

　o1の登場により、AIは情報提供の枠を越え、実際に考え、意思決定を支援するパートナーとしての可能性を持つようになった。また推論時に計算資源と時間をかけることでAIのさらなる進化が期待されるようになった。o1がAI進化の新しいパラダイムを拓いた可能性がありそうだ。

本記事は、エクサウィザーズが法人向けChatGPT「exaBase 生成AI」の利用者向けに提供しているAI新聞「OpenAI o1の「論理的思考」ってどういうこと？」（2024年10月16日掲載）を、ITmedia ビジネスオンライン編集部で一部編集の上、転載したものです。

著者プロフィール

湯川鶴章

AIスタートアップのエクサウィザーズ AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。17年12月から現職。主な著書に『人工知能、ロボット、人の心。』（15年）、『次世代マーケティングプラットフォーム』（07年）、『ネットは新聞を殺すのか』（03年）などがある。

OpenAI、幹部の大量離職はなぜ起こった？　CTOや技術者が抱いていた「懸念」
米OpenAIの幹部たちが次々とチームを去っている。退職したCTOや社内の有名技術者は、組織にどのような懸念を持っていたのかというと……。
米ガートナーが「生成AIは幻滅期」宣言　研究者は反対意見、論点は？
米国の調査会社・ガートナーが「生成AIは幻滅期に入った」とのレポートを発表した。しかし、研究者の間では「数年以内にシンギュラリティに入る」という論調も増えてきている。それぞれの主張を整理してみよう。
有力AI企業が東京に拠点を設けるワケ　「日本は機械学習パラダイス」
OpenAIやsakana.aiなど、東京に拠点を設ける有力AI企業が増えている。著名AI研究者も「日本は機械学習パラダイス」と絶賛するほどだ。なぜ東京なのか、4つの理由がありそうだ。
マイクロソフト、アマゾンも熱視線　人型ロボット市場、生成AIで加速
生成AIの進化を受けて、製造業界に人型ロボットの波が来ている。マイクロソフトやアマゾン、OpenAIなども熱視線を送る。現状を見てみよう。