「DeepSeekショック」とは何だったのか？　2025年、AI開発の最新事情を解説（2/5 ページ）

公開 2025年02月04日 11時46分

著者

小林啓倫

[ITmedia]

印刷する

低コストを実現したDeepSeekの技術

　DeepSeekが使ったとされる手法の中で特に注目されているのが「CoT」（Chain of Thought：思考連鎖）と「強化学習」（Reinforcement Learning）だ。

　CoTとはその名の通り、鎖（チェーン）のように少しずつ思考をつなげていく手法を指す。何か問題を解く際、それを一気に解こうするのではなく、細かいステップに分解して考えると取り組みやすい。

　例えば難しい数学の問題を解く場合には、答えに至るまでのステップや計算手順を考えるはずだ。それを同じことをAIにさせるのがCoTというわけである。CoTを活用することで、AIは複雑な問題に対しても自ら推論することで解答を生成できるようになり、過剰なデータや計算資源を必要としなくなる。

　強化学習とは、学習の際にあらかじめ答えを与えてしまうのではなく、試行錯誤を通じて正解を学ばせる手法を指す。例えば、何らかのスキルを学ぶために、その分野の先生に教わっているとしよう。先生のお手本を何回も見て、見よう見まねでスキルを身に付ける方法もあれば、実際に自分がやってみて、それを先生に見てもらい「良かった」「悪かった」などのフィードバックをもらって学ぶ方法もあるだろう。

　強化学習は後者であり、AIが試行錯誤を通じて正解を出した場合に報酬を与えることで、望ましい方向に導くというものだ。そうすることで、前者の手法（教師あり学習）に必要なラベル付きデータを大幅に削減することが可能になる。

　CoTも強化学習も、AI開発の現場で普通に使われている手法であり、目新しいものではない。ただDeepSeekはこのCoTと強化学習の活用方法を工夫したり、独自の組み合わせで活用したりすることで、他社では実現できなかった開発コストの大幅な抑制に成功したとしている。

　またDeepSeekはモデル開発の際、従来の大規模モデルのように一度に膨大なデータを学習させるのではなく、段階的学習（Curriculum Learning）という手法を取っている。こちらも文字から想像される通りの学習法で、いきなり難しい問題を解かせるのではなく、複数の段階に分けて学習させる手法を指す。

　人間と同じように、少しずつ問題の難易度を上げていったり、より複雑な思考が要求される分野に進んだりすることで、効率よく学習するわけだ。さらにDeepSeekは単に段階をつくるだけでなく、各段階での学習効率とコスト削減を最適化することで、開発にかかる費用や計算資源を大幅に節約できたという。

次ページへ DeepSeekへの疑惑　「蒸留」とは何か？