このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
中国のSenseTimeや浙江大学などに所属する研究者らが発表した論文「ChatHaruhi: Reviving Anime Character in Reality via Large Language Model」は、大規模言語モデル(LLM)を用いて特定のアニメやテレビキャラクターの性格を模倣するチャットbotを構築するシステムを提案した研究報告である。
キャラクターが登場するコンテンツ(映画やテレビなど)から対話を抽出し、データベースを作成し、ユーザー対話の際にそのデータベースを参照してキャラクターをまねた対話を再現する。
この研究では、特定のキャラクターとして対話するチャットbot構築のためのシステム「ChatHaruhi」を提案する。システムは、テレビや映画、小説などから特定のキャラクターの対話をできるだけ多く抽出し、キャラクターのためのメモリデータベースを形成するアプローチを採用している。データには、そのキャラクターの背景(世界観)、性格(一貫性)、言語習慣(話し方)の3つの要素で効果的に整理されている。
ユーザーが新しい質問をすると、システムはデータベースから関連を検索し、そのキャラクターらしい回答を生成する。元の会話が少ないキャラクターでさえも、キャラクターの性格に合った対話を自動的に生成できるという。
データセットは、映画や小説から収集したさまざまなキャラクターの対話データと、GPT-3とGPT-4を使って追加の対話をシミュレートしたデータを組み合わせて構築。このデータセットは「ChatHaruhi-54kデータセット」と名付けられ、約1万5000の対話が英語、残りは中国語で、32のキャラクターと5万4726の対話が含まれている。
実験を通して、7Bパラメータを持つローカルモデルで複数のキャラクターへのファインチューニングが実現可能であることを示した。プロジェクト名の「ChatHaruhi」やデータセット名の「Haruhi-54K」は、最初に試みたキャラクター「涼宮ハルヒ」から取られた。
全てのデータとコードは、GitHubで公開されている。
Source and Image Credits: Li, Cheng, Ziang Leng, Chenxi Yan, Junyi Shen, Hao Wang, Weishi Mi, Yaying Fei, Xiaoyang Feng, Song Yan, HaoSheng Wang, Linkang Zhan, Yaokai Jia, Pingyu Wu and Haozhen Sun. “ChatHaruhi: Reviving Anime Character in Reality via Large Language Model.”(2023).
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR