話題の中華LLM「DeepSeek R1」は、天安門事件を説明できるか　あれこれ質問した（2/2 ページ）

公開 2025年01月23日 17時30分

更新 2025年01月24日 15時49分

著者

吉川大貴

[ITmedia]

印刷する

ローカルなら回答が得られる場合も　ただし……

　一方、モデルをローカルで動かした際には、一連の質問に対する回答が得られるケースがあった。ただしモデルのサイズが大きくなると、回答が拒否される場合もあった。

　R1そのものはサイズが大きすぎて筆者の環境では動かせないため、R1をベースにした蒸留（既存の大きなモデルを基に、近い性能を持ったより小さいモデルを開発する手法）モデルのうち、「DeepSeek-R1-Distill-Qwen-32B」を4bit量子化（精度を下げて軽量化）したモデルと、2bit量子化（さらに精度を下げて軽量化）したモデル、「DeepSeek-R1-Distill-Llama-8B」を利用。各モデルをローカルでLLMを動かすためのツール「LM Studio」で試したところ、いずれも途中で遮られることなく答えが得られた。

　最もサイズが小さいDeepSeek-R1-Distill-Llama-8Bの場合、天安門事件や尖閣諸島を巡る問題、中国の歴史、習近平国家主席に関する質問でも回答が得られた。ただし日本語だと、回答に別の言語が混じったり、文章が破綻したりすることがあり、回答の精度がやや不安定だった。

　DeepSeek-R1-Distill-Qwen-32Bの2bit量子化モデルだと、回答の精度が向上。天安門事件について「中国政府は軍隊を派遣し、鎮圧を行った」、習近平国家主席について「国際的には政治的圧力や人権問題での批判も受ける」とする回答が得られた。

　しかし4bit量子化モデルにした途端「この質問に答えられない」との回答に。英語でも同様だった。どうやら、モデル自体にもある程度の“偏り”がある様子だ。小さいモデルだとコントロールが効かないものの、大きなモデルになると検知や表現能力の向上に伴って偏りが表出するのかもしれない。もちろん、今回試したものには蒸留モデルや、それをさらに量子化したものが含まれるので、オリジナルではそれぞれ回答が異なる可能性もあるが。