ニュース
リクルート、Python向け日本語自然言語処理オープンソースライブラリ「GiNZA」公開
リクルートは、AI研究機関・Megagon Labsが開発したPython向け日本語自然言語処理オープンソースライブラリ「GiNZA」(ギンザ)をGitHubで公開した。複雑な導入作業不要で、ワンステップでモジュールとモデルファイルの導入が可能という。
リクルートはこのほど、同社のAI研究機関・Megagon Labsが開発したPython向け日本語自然言語処理オープンソースライブラリ「GiNZA」(ギンザ)と、国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ「GiNZA日本語Universal Dependencies(UD)モデル」をGitHubで公開した。
GiNZAは、複雑な導入作業不要で、ワンステップでモジュールとモデルファイルの導入が可能なライブラリ。エンジニアやデータサイエンティストが自然言語処理を簡単に応用できることを目指して開発したという。
自然言語処理ライブラリ「spaCy」をフレームワークとして利用し、オープンソース形態素解析器「SudachiPy」を組み込んでおり、「産業用途に耐える性能を備えている」としている。spaCyの国際化機能により、複数の欧米言語と日本語の言語リソースを切り替えて使用することもできる。
「GiNZA日本語UDモデル」には、Megagon Labsが国立国語研究所と共同で研究してきた学習済みモデルを組み込んだ。国立国語研究所が蓄積してきた大規模・高品質なテキストコーパスに、日本語Wikipediaテキストも同時に用いて機械学習に適用しており、幅広い分野に適応可能なモデルを構築したという。
関連記事
- 朝日新聞、機械学習ベンチャーと自然言語処理で共同研究
AIへの取り組みを強化する。 - 「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか
Q&Aサービス「Yahoo!知恵袋」は長い間、不快な内容だが規約違反ではなく削除できない「グレーな投稿」に悩まされてきた。解決するための処理には約9カ月かかると思われていたが、わずか1日強で完了したという。何が起きたのか。 - ビッグデータも「質」の時代へ AI学習データ提供する翻訳ベンチャーの勝算
AI学習データの提供サービスを始めたベンチャー企業のGengo。AI時代に向け、質の高いデータをいかに集められるかが重要になってくるという。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.