ITmedia NEWS > 科学・テクノロジー >
ニュース
» 2019年04月03日 13時43分 公開

リクルート、Python向け日本語自然言語処理オープンソースライブラリ「GiNZA」公開

リクルートは、AI研究機関・Megagon Labsが開発したPython向け日本語自然言語処理オープンソースライブラリ「GiNZA」(ギンザ)をGitHubで公開した。複雑な導入作業不要で、ワンステップでモジュールとモデルファイルの導入が可能という。

[ITmedia]

 リクルートはこのほど、同社のAI研究機関・Megagon Labsが開発したPython向け日本語自然言語処理オープンソースライブラリ「GiNZA」(ギンザ)と、国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ「GiNZA日本語Universal Dependencies(UD)モデル」をGitHubで公開した

 GiNZAは、複雑な導入作業不要で、ワンステップでモジュールとモデルファイルの導入が可能なライブラリ。エンジニアやデータサイエンティストが自然言語処理を簡単に応用できることを目指して開発したという。

 自然言語処理ライブラリ「spaCy」をフレームワークとして利用し、オープンソース形態素解析器「SudachiPy」を組み込んでおり、「産業用途に耐える性能を備えている」としている。spaCyの国際化機能により、複数の欧米言語と日本語の言語リソースを切り替えて使用することもできる。

 「GiNZA日本語UDモデル」には、Megagon Labsが国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ。国立国語研究所が蓄積してきた大規模・高品質なテキストコーパスに、日本語Wikipediaテキストも同時に用いて機械学習に適用しており、幅広い分野に適応可能なモデルを構築したという。

Copyright © ITmedia, Inc. All Rights Reserved.