国立国会図書館は10月1日、国立情報学研究所(NII)に対して、官庁出版物のテキストデータを提供することで合意したと発表した。1995年までに刊行された図書が中心で、この他雑誌や官報など約30万点を、NIIが構築を進める大規模言語モデル(LLM)の学習用データとして活用する。
9月5日付で合意を結んだ。出版物のデジタル化画像からOCR(光学文字認識)技術で作成した全文検索用データを提供し、NII内の大規模言語モデル研究開発センターで利用できるようにする。
大規模言語モデル研究開発センターは、NIIが2024年4月に開設。研究開発用LLMの構築に加え、透明性・信頼性の確保や高度化に向けた研究開発を進めている。
NII、130億パラメータのLLM構築 コーパスなども全公開 「今後の研究に資するため」
約16万件の商品・サービスの口コミデータ、NIIが無償提供 自然言語処理などの研究向けに
国立情報学研究所、水中で2年以上安定動作する「水没コンピュータ」実現へ マザーボードを水槽や海に沈めて直接水冷Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR