江戸時代の言葉を話すAIチャット「からまる」 Sakana AIが公開 古文書の2500万文字を学習
AIベンチャーのSakana AIは、江戸時代の古文風テキストで会話できるAIチャットbot「からまる」を公開した。
AIベンチャーのSakana AI(東京都港区)は4月1日、江戸時代の古文風テキストで会話できるAIチャットbot「からまる」を公開した。約2500万文字に及ぶ、江戸時代の文章で構成したデータセットを学習している。研究と教育を目的に、HuggingFaceで公開している。
例えば、からまるに「あなたの名前はなんですか」と聞くと「某が名はからまるにて候」と返答。「AIにとって大事なものはなんですか」と尋ねると「AIにとりて大切なるものはデータなりこれによりて己か身を成長せしむる所以也」と返し、「スマホはなんですか」という問いには「携帯する小箱にて候則ち其中に文字や画図をもつて遠所に在る人々へ伝達する道具也」と回答する。
からまるのベースモデルには、AIベンチャー・ELYZAのオープンモデル「Llama-3-ELYZA-JP-8B」を利用。江戸時代の書物などをAIくずし字OCRで楷書体に直した約1200万文字と、人間が直した約1300万文字、計約2500万文字の江戸テキストデータセットを学習させた。書籍を学習データに多く使っていることから、からまるの回答は書き言葉に近く、句読点を含むテキストデータが少ないため、回答には句読点がないという。
過去のことを回答できるAIチャットbotには、一般的に「RAG」の技術が使われることが多かった。しかし、これには課題があり「どんな質問に対しても適合するテキストを見つけ出すことが難しい」「江戸時代の古文風テキストの生成が難しい」の2点が困難であった。
これに対して、からまるは、大規模言語モデルの継続学習という方法を利用したことで、江戸時代の世界観を崩さない一貫性を保った回答が可能に。Sakana AIは「これにより、過去の文化への没入感がより高い会話を楽しめるようになった」と説明する。
「現実の人間にとっては、現代の知識を持ちつつ江戸時代の世界観で答える、ということ自体が非常に困難。これを克服できるAIならではの機能を実現したからまるが、時間を超えて過去の文化を身近に感じるためのツールとして、研究や教育に広く活用されることを期待する」(Sakana AI)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「数独」を使ったAI推論ベンチマーク Sakana AIが公開 英国のパズル系YouTuberらと協力
AIベンチャーのSakana AIは、「数独パズル」をベースにしたAI推論用のベンチマークを公開した。
世界初、“100%”AI生成の論文が査読通過 Sakana AIの「The AI Scientist」が達成
Sakana AIは、AIシステム「The AI Scientist」の改良版「v2」が書いた論文が、国際カンファレンスのワークショップで査読を通過したと発表した。AI生成の論文が査読を通過するのは世界初という。
技術論争乗り越え事業化フェーズへ 躍進する「Sakana AI」、創業者デイビッド・ハー氏の狙い
米中が主導するAI開発の覇権争いに、日本発のスタートアップが新たな変数として浮上している。創業からわずか18カ月のSakana AIが、革新的な「省資源型AI開発」を武器に、グローバルな存在感を示し始めた。急成長の一方で技術的な論争も経験しながら、このほど事業開発本部を設立し、研究成果の社会実装へと本格始動。世界的AIスタートアップとしての真価が問われる新たな段階に入った。
Sakana AI、ビジネス展開に本腰 事業開発本部を立ち上げ 人員規模は50人超に
AIベンチャーのSakana AIは、事業開発本部を立ち上げたと発表した。これまで同社が発表してきた研究成果のビジネス展開していく。
「仕事で生成AI活用中」──ITエンジニアの90%超が回答 「出社頻度が増えた」の声も
ITエンジニアの9割以上が業務で生成AIを使用している──エンジニア向けの転職サービスを運営するファインディは、IT/WebエンジニアのAI活用状況などの調査レポートを発表した。


