江戸時代の言葉を話すAIチャット「からまる」 Sakana AIが公開 古文書の2500万文字を学習
AIベンチャーのSakana AI(東京都港区)は4月1日、江戸時代の古文風テキストで会話できるAIチャットbot「からまる」を公開した。約2500万文字に及ぶ、江戸時代の文章で構成したデータセットを学習している。研究と教育を目的に、HuggingFaceで公開している。
例えば、からまるに「あなたの名前はなんですか」と聞くと「某が名はからまるにて候」と返答。「AIにとって大事なものはなんですか」と尋ねると「AIにとりて大切なるものはデータなりこれによりて己か身を成長せしむる所以也」と返し、「スマホはなんですか」という問いには「携帯する小箱にて候則ち其中に文字や画図をもつて遠所に在る人々へ伝達する道具也」と回答する。
からまるのベースモデルには、AIベンチャー・ELYZAのオープンモデル「Llama-3-ELYZA-JP-8B」を利用。江戸時代の書物などをAIくずし字OCRで楷書体に直した約1200万文字と、人間が直した約1300万文字、計約2500万文字の江戸テキストデータセットを学習させた。書籍を学習データに多く使っていることから、からまるの回答は書き言葉に近く、句読点を含むテキストデータが少ないため、回答には句読点がないという。
過去のことを回答できるAIチャットbotには、一般的に「RAG」の技術が使われることが多かった。しかし、これには課題があり「どんな質問に対しても適合するテキストを見つけ出すことが難しい」「江戸時代の古文風テキストの生成が難しい」の2点が困難であった。
これに対して、からまるは、大規模言語モデルの継続学習という方法を利用したことで、江戸時代の世界観を崩さない一貫性を保った回答が可能に。Sakana AIは「これにより、過去の文化への没入感がより高い会話を楽しめるようになった」と説明する。
「現実の人間にとっては、現代の知識を持ちつつ江戸時代の世界観で答える、ということ自体が非常に困難。これを克服できるAIならではの機能を実現したからまるが、時間を超えて過去の文化を身近に感じるためのツールとして、研究や教育に広く活用されることを期待する」(Sakana AI)
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
「邪魔すぎ」――LINE入力欄の“新AI機能”が不評 消し方は?
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR