ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

アニメキャラの口調や性格をまねるチャットbot「ChatHaruhi」 中国チームが開発Innovative Tech

» 2023年08月30日 12時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 中国のSenseTimeや浙江大学などに所属する研究者らが発表した論文「ChatHaruhi: Reviving Anime Character in Reality via Large Language Model」は、大規模言語モデル(LLM)を用いて特定のアニメやテレビキャラクターの性格を模倣するチャットbotを構築するシステムを提案した研究報告である。

 キャラクターが登場するコンテンツ(映画やテレビなど)から対話を抽出し、データベースを作成し、ユーザー対話の際にそのデータベースを参照してキャラクターをまねた対話を再現する。

チャットbotが「涼宮ハルヒ」をまねして会話している様子

 この研究では、特定のキャラクターとして対話するチャットbot構築のためのシステム「ChatHaruhi」を提案する。システムは、テレビや映画、小説などから特定のキャラクターの対話をできるだけ多く抽出し、キャラクターのためのメモリデータベースを形成するアプローチを採用している。データには、そのキャラクターの背景(世界観)、性格(一貫性)、言語習慣(話し方)の3つの要素で効果的に整理されている。

 ユーザーが新しい質問をすると、システムはデータベースから関連を検索し、そのキャラクターらしい回答を生成する。元の会話が少ないキャラクターでさえも、キャラクターの性格に合った対話を自動的に生成できるという。

ChatHaruhiシステムの概要図
チャットbotの全体的な構造

 データセットは、映画や小説から収集したさまざまなキャラクターの対話データと、GPT-3とGPT-4を使って追加の対話をシミュレートしたデータを組み合わせて構築。このデータセットは「ChatHaruhi-54kデータセット」と名付けられ、約1万5000の対話が英語、残りは中国語で、32のキャラクターと5万4726の対話が含まれている。

 実験を通して、7Bパラメータを持つローカルモデルで複数のキャラクターへのファインチューニングが実現可能であることを示した。プロジェクト名の「ChatHaruhi」やデータセット名の「Haruhi-54K」は、最初に試みたキャラクター「涼宮ハルヒ」から取られた。

ChatHaruhi-54kデータセットに含まれる32のキャラクター
ChatHaruhi-54kデータセットにおいて、32のキャラクターと5万4726の対話が示されている。不透明なバーは元のせりふデータを示し、半透明のバーはLLMで生成された対話を示す

 全てのデータとコードは、GitHubで公開されている。

Source and Image Credits: Li, Cheng, Ziang Leng, Chenxi Yan, Junyi Shen, Hao Wang, Weishi Mi, Yaying Fei, Xiaoyang Feng, Song Yan, HaoSheng Wang, Linkang Zhan, Yaokai Jia, Pingyu Wu and Haozhen Sun. “ChatHaruhi: Reviving Anime Character in Reality via Large Language Model.”(2023).



Copyright © ITmedia, Inc. All Rights Reserved.