ヤフーは4月18日、AI(人工知能)の機械学習における自然言語処理技術の1つである分散表現の学習時間を短縮する技術「yskip」をGitHubで公開した。
分散表現は、単語をベクトルで表現する自然言語処理技術の1つ。大量のテキストデータからさまざまな単語の関係性を機械学習することで、単語同士の意味の違いを機械的に推定できる。同社ではユーザーの興味関心と、記事や広告をマッチングするための技術として活用している。
AIの精度を向上させるために、日々増えていく検索キーワードやSNSの投稿などを活用する場合は、分散表現の学習モデルを頻繁に更新する必要がある。これまでは、新しいデータだけでなく、学習済みのデータも合わせていちから学習し直す必要があり、非効率的だった。
yskipを使えば、新しいデータのみの学習で済むため学習時間を短縮でき、全データを学習する場合と同等の精度を維持できるとしている。同社は、Twitterへの投稿を検索できる「リアルタイム検索」でyskipを活用し、サービスの質の向上に役立てているという。
「yskip」と従来の学習法である「skip-gram model with negative sampling」における分散表現の精度の違いを、5種のデータセットで検証。ほぼ同等の精度で学習できると実証できた
yskipは代表的な分散表現学習法である「skip-gram model with negative sampling」を拡張した技術。ヤフーは同技術の特許権を取得しており、研究と商業用途それぞれでライセンスを無償提供する形でオープンソース化した。
「本技術のさらなる利便性向上を図り、データサイエンス領域の研究者・エンジニアコミュニティーへ貢献したい」(ヤフー)
関連記事
- 「新たな収益の柱に」 ヤフー、ビッグデータ分析のノウハウを企業向けに販売へ
ヤフーは、顧客企業や自治体が持つデータとヤフーのビッグデータを掛け合わせて分析するサービスを10月から提供する。 - 「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか
Q&Aサービス「Yahoo!知恵袋」は長い間、不快な内容だが規約違反ではなく削除できない「グレーな投稿」に悩まされてきた。解決するための処理には約9カ月かかると思われていたが、わずか1日強で完了したという。何が起きたのか。 - スパコン初心者のヤフーが省エネ性能世界2位の「kukai」を作るまで
2017年6月に発表されたヤフーのスーパーコンピュータ「kukai」。省エネ性能世界2位を誇り、より大規模なディープラーニング処理を従来より低コストで行える。しかしヤフーは、もともとスパコンを作るつもりではなかったという。 - ヤフーがスパコン「kukai」開発 ディープラーニングに特化 世界2位の省エネ性能
ヤフーが、スーパーコンピュータ「kukai」(クウカイ)の開発を発表。短時間・低コストで、大規模なディープラーニング処理が可能だという。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.