アニメキャラの口調や性格をまねるチャットbot「ChatHaruhi」　中国チームが開発：Innovative Tech

中国のSenseTimeや浙江大学などに所属する研究者らは、大規模言語モデル（LLM）を用いて特定のアニメやテレビキャラクターの性格を模倣するチャットbotを構築するシステムを提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　中国のSenseTimeや浙江大学などに所属する研究者らが発表した論文「ChatHaruhi: Reviving Anime Character in Reality via Large Language Model」は、大規模言語モデル（LLM）を用いて特定のアニメやテレビキャラクターの性格を模倣するチャットbotを構築するシステムを提案した研究報告である。

　キャラクターが登場するコンテンツ（映画やテレビなど）から対話を抽出し、データベースを作成し、ユーザー対話の際にそのデータベースを参照してキャラクターをまねた対話を再現する。

チャットbotが「涼宮ハルヒ」をまねして会話している様子

　この研究では、特定のキャラクターとして対話するチャットbot構築のためのシステム「ChatHaruhi」を提案する。システムは、テレビや映画、小説などから特定のキャラクターの対話をできるだけ多く抽出し、キャラクターのためのメモリデータベースを形成するアプローチを採用している。データには、そのキャラクターの背景（世界観）、性格（一貫性）、言語習慣（話し方）の3つの要素で効果的に整理されている。

　ユーザーが新しい質問をすると、システムはデータベースから関連を検索し、そのキャラクターらしい回答を生成する。元の会話が少ないキャラクターでさえも、キャラクターの性格に合った対話を自動的に生成できるという。

ChatHaruhiシステムの概要図

チャットbotの全体的な構造

　データセットは、映画や小説から収集したさまざまなキャラクターの対話データと、GPT-3とGPT-4を使って追加の対話をシミュレートしたデータを組み合わせて構築。このデータセットは「ChatHaruhi-54kデータセット」と名付けられ、約1万5000の対話が英語、残りは中国語で、32のキャラクターと5万4726の対話が含まれている。

　実験を通して、7Bパラメータを持つローカルモデルで複数のキャラクターへのファインチューニングが実現可能であることを示した。プロジェクト名の「ChatHaruhi」やデータセット名の「Haruhi-54K」は、最初に試みたキャラクター「涼宮ハルヒ」から取られた。

ChatHaruhi-54kデータセットに含まれる32のキャラクター

ChatHaruhi-54kデータセットにおいて、32のキャラクターと5万4726の対話が示されている。不透明なバーは元のせりふデータを示し、半透明のバーはLLMで生成された対話を示す

　全てのデータとコードは、GitHubで公開されている。

Source and Image Credits: Li, Cheng, Ziang Leng, Chenxi Yan, Junyi Shen, Hao Wang, Weishi Mi, Yaying Fei, Xiaoyang Feng, Song Yan, HaoSheng Wang, Linkang Zhan, Yaokai Jia, Pingyu Wu and Haozhen Sun. “ChatHaruhi: Reviving Anime Character in Reality via Large Language Model.”（2023）.

アニメキャラの口調や性格をまねるチャットbot「ChatHaruhi」　中国チームが開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

アニメキャラの口調や性格をまねるチャットbot「ChatHaruhi」 中国チームが開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

アニメキャラの口調や性格をまねるチャットbot「ChatHaruhi」　中国チームが開発：Innovative Tech