官庁出版物30万点、AIモデルに活用へ　国会図書館がNIIに提供

» 2025年10月02日 17時58分公開

[ITmedia]

　国立国会図書館は10月1日、国立情報学研究所（NII）に対して、官庁出版物のテキストデータを提供することで合意したと発表した。1995年までに刊行された図書が中心で、この他雑誌や官報など約30万点を、NIIが構築を進める大規模言語モデル（LLM）の学習用データとして活用する。

（出典：大規模言語モデル研究開発センターの公式Webサイト）

　9月5日付で合意を結んだ。出版物のデジタル化画像からOCR（光学文字認識）技術で作成した全文検索用データを提供し、NII内の大規模言語モデル研究開発センターで利用できるようにする。

　大規模言語モデル研究開発センターは、NIIが2024年4月に開設。研究開発用LLMの構築に加え、透明性・信頼性の確保や高度化に向けた研究開発を進めている。

発表全文（出典：国立国会図書館公式Webサイト）

NII、130億パラメータのLLM構築　コーパスなども全公開　「今後の研究に資するため」
NIIは、パラメータ数130億の大規模言語モデル（LLM）「LLM-jp-13B」を公開した。アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。
「w」（ワラ）の意味も解析!?――NIIと国語研、Yahoo！ブログの記事を学術利用
NIIと国語研が「Yahoo！ブログ」の記事データを活用した研究を始める。「w」（ワラ）などネット独特の表現やくだけた文章を含んだブログの内容を分析できる言語解析ツールの構築などを目指す。
約16万件の商品・サービスの口コミデータ、NIIが無償提供　自然言語処理などの研究向けに
国立情報学研究所（NII）は、商品・サービスの口コミサイト「みん評」を運営するマイスタースタジオと提携し、同サイトの口コミデータ約16万件を研究者向けに無償提供を始めた。
Yahoo！知恵袋のQ＆Aを学術利用　NII
NIIは、ユーザーの質問にユーザーが答えるヤフーのサービス「Yahoo！知恵袋」の質問・回答データを、自然文検索や文章要約システムの研究などに活用する。
国立情報学研究所、水中で2年以上安定動作する「水没コンピュータ」実現へ　マザーボードを水槽や海に沈めて直接水冷
同研究チームはこれまでにも、最長で40日間海中でマザーボードを動作させることに成功している。