江戸時代の言葉を話すAIチャット「からまる」 Sakana AIが公開 古文書の2500万文字を学習
AIベンチャーのSakana AI(東京都港区)は4月1日、江戸時代の古文風テキストで会話できるAIチャットbot「からまる」を公開した。約2500万文字に及ぶ、江戸時代の文章で構成したデータセットを学習している。研究と教育を目的に、HuggingFaceで公開している。
例えば、からまるに「あなたの名前はなんですか」と聞くと「某が名はからまるにて候」と返答。「AIにとって大事なものはなんですか」と尋ねると「AIにとりて大切なるものはデータなりこれによりて己か身を成長せしむる所以也」と返し、「スマホはなんですか」という問いには「携帯する小箱にて候則ち其中に文字や画図をもつて遠所に在る人々へ伝達する道具也」と回答する。
からまるのベースモデルには、AIベンチャー・ELYZAのオープンモデル「Llama-3-ELYZA-JP-8B」を利用。江戸時代の書物などをAIくずし字OCRで楷書体に直した約1200万文字と、人間が直した約1300万文字、計約2500万文字の江戸テキストデータセットを学習させた。書籍を学習データに多く使っていることから、からまるの回答は書き言葉に近く、句読点を含むテキストデータが少ないため、回答には句読点がないという。
過去のことを回答できるAIチャットbotには、一般的に「RAG」の技術が使われることが多かった。しかし、これには課題があり「どんな質問に対しても適合するテキストを見つけ出すことが難しい」「江戸時代の古文風テキストの生成が難しい」の2点が困難であった。
これに対して、からまるは、大規模言語モデルの継続学習という方法を利用したことで、江戸時代の世界観を崩さない一貫性を保った回答が可能に。Sakana AIは「これにより、過去の文化への没入感がより高い会話を楽しめるようになった」と説明する。
「現実の人間にとっては、現代の知識を持ちつつ江戸時代の世界観で答える、ということ自体が非常に困難。これを克服できるAIならではの機能を実現したからまるが、時間を超えて過去の文化を身近に感じるためのツールとして、研究や教育に広く活用されることを期待する」(Sakana AI)
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
5
Anthropicの営業はAIエージェントをこう使う! 日本法人メンバーが明かす手の内
-
6
復活した「Fable 5」 米政府からのオーダーに対して、Anthropicはどう対策したのか
-
7
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
8
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
9
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
10
光接続の標準規格「OCI」対応シリコン、GFが27年に投入
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR