AIベンチャーのSakana AI(東京都港区)は4月1日、江戸時代の古文風テキストで会話できるAIチャットbot「からまる」を公開した。約2500万文字に及ぶ、江戸時代の文章で構成したデータセットを学習している。研究と教育を目的に、HuggingFaceで公開している。
例えば、からまるに「あなたの名前はなんですか」と聞くと「某が名はからまるにて候」と返答。「AIにとって大事なものはなんですか」と尋ねると「AIにとりて大切なるものはデータなりこれによりて己か身を成長せしむる所以也」と返し、「スマホはなんですか」という問いには「携帯する小箱にて候則ち其中に文字や画図をもつて遠所に在る人々へ伝達する道具也」と回答する。
からまるのベースモデルには、AIベンチャー・ELYZAのオープンモデル「Llama-3-ELYZA-JP-8B」を利用。江戸時代の書物などをAIくずし字OCRで楷書体に直した約1200万文字と、人間が直した約1300万文字、計約2500万文字の江戸テキストデータセットを学習させた。書籍を学習データに多く使っていることから、からまるの回答は書き言葉に近く、句読点を含むテキストデータが少ないため、回答には句読点がないという。
過去のことを回答できるAIチャットbotには、一般的に「RAG」の技術が使われることが多かった。しかし、これには課題があり「どんな質問に対しても適合するテキストを見つけ出すことが難しい」「江戸時代の古文風テキストの生成が難しい」の2点が困難であった。
これに対して、からまるは、大規模言語モデルの継続学習という方法を利用したことで、江戸時代の世界観を崩さない一貫性を保った回答が可能に。Sakana AIは「これにより、過去の文化への没入感がより高い会話を楽しめるようになった」と説明する。
「現実の人間にとっては、現代の知識を持ちつつ江戸時代の世界観で答える、ということ自体が非常に困難。これを克服できるAIならではの機能を実現したからまるが、時間を超えて過去の文化を身近に感じるためのツールとして、研究や教育に広く活用されることを期待する」(Sakana AI)
「数独」を使ったAI推論ベンチマーク Sakana AIが公開 英国のパズル系YouTuberらと協力
世界初、“100%”AI生成の論文が査読通過 Sakana AIの「The AI Scientist」が達成
技術論争乗り越え事業化フェーズへ 躍進する「Sakana AI」、創業者デイビッド・ハー氏の狙い
Sakana AI、ビジネス展開に本腰 事業開発本部を立ち上げ 人員規模は50人超に
「仕事で生成AI活用中」──ITエンジニアの90%超が回答 「出社頻度が増えた」の声もCopyright © ITmedia, Inc. All Rights Reserved.