江戸時代の言葉を話すAIチャット「からまる」 Sakana AIが公開 古文書の2500万文字を学習
AIベンチャーのSakana AI(東京都港区)は4月1日、江戸時代の古文風テキストで会話できるAIチャットbot「からまる」を公開した。約2500万文字に及ぶ、江戸時代の文章で構成したデータセットを学習している。研究と教育を目的に、HuggingFaceで公開している。
例えば、からまるに「あなたの名前はなんですか」と聞くと「某が名はからまるにて候」と返答。「AIにとって大事なものはなんですか」と尋ねると「AIにとりて大切なるものはデータなりこれによりて己か身を成長せしむる所以也」と返し、「スマホはなんですか」という問いには「携帯する小箱にて候則ち其中に文字や画図をもつて遠所に在る人々へ伝達する道具也」と回答する。
からまるのベースモデルには、AIベンチャー・ELYZAのオープンモデル「Llama-3-ELYZA-JP-8B」を利用。江戸時代の書物などをAIくずし字OCRで楷書体に直した約1200万文字と、人間が直した約1300万文字、計約2500万文字の江戸テキストデータセットを学習させた。書籍を学習データに多く使っていることから、からまるの回答は書き言葉に近く、句読点を含むテキストデータが少ないため、回答には句読点がないという。
過去のことを回答できるAIチャットbotには、一般的に「RAG」の技術が使われることが多かった。しかし、これには課題があり「どんな質問に対しても適合するテキストを見つけ出すことが難しい」「江戸時代の古文風テキストの生成が難しい」の2点が困難であった。
これに対して、からまるは、大規模言語モデルの継続学習という方法を利用したことで、江戸時代の世界観を崩さない一貫性を保った回答が可能に。Sakana AIは「これにより、過去の文化への没入感がより高い会話を楽しめるようになった」と説明する。
「現実の人間にとっては、現代の知識を持ちつつ江戸時代の世界観で答える、ということ自体が非常に困難。これを克服できるAIならではの機能を実現したからまるが、時間を超えて過去の文化を身近に感じるためのツールとして、研究や教育に広く活用されることを期待する」(Sakana AI)
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
2
データセンター建設に足りないのは「発電」ではなく「送電」 AI需要で電力消費26%増、Gartner予想
-
3
“AIが電力使いすぎ問題” 「電力不足」懸念で、発電能力より深いボトルネックとは
-
4
中国が人型ロボット開発競争をリードする「納得の理由」 日本に残された逆転シナリオは?
-
5
「もはや宗教」のClaudeに焦るOpenAI 流出メモが暴いた覇権交代のリアル
-
6
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
7
「今、Codexのレート制限を解除したい」を解決? “付与したリセット権の貯蓄”可能に 有料ユーザー向け
-
8
「日本がいないと成り立たない」世界へ、フィジカルAIが導く独自の交渉力
-
9
公式がワンコーラス公開→AIで無断フルコーラス化、拡散 大原ゆい子氏「無職転生III」OPが被害
-
10
「人型ロボ世界シェア1位」中国Unitreeに聞く“普及戦略” 日本市場をどう開拓?
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR