液浸スパコン「kukai」を使って、Yahoo!知恵袋の“クソリプ”を検出してみたディープラーニング活用事例(1/2 ページ)

液浸冷却型のスーパーコンピュータ「kukai」を開発し、ディープラーニングのビジネス活用を進めるヤフー。最近では、Yahoo!知恵袋における不適切な質問や回答を自動検出するのに大きな成果を上げたという。

» 2018年09月20日 08時00分 公開
[池田憲弘ITmedia]
photo ヤフー データ&サイエンスソリューション統括本部 テクニカルディレクター 角田直行氏

 機械学習のビジネス活用が進んできている昨今、「いつも使っている身近なWebサービスが、実はAIで動いていた」といった例も増えつつある。

 Web検索エンジンを持つ「ヤフー」もそんな一社だ。同社のデータ&サイエンスソリューション統括本部の角田直行氏によると、検索で使える音声認識や、Yahoo!ニューストピックスの見出し候補の生成、サムネイル用の画像切り抜き、そしてPV予測までもが機械学習によって行われているのだという。

 数百人規模のデータ分析エンジニアを抱え、2017年6月には、ディープラーニング処理に特化した液浸冷却型のスーパーコンピュータ「kukai」を開発。大小100以上あるサービスでAI活用を進めるべく、ネットオークションサービス「ヤフオク!」での商品画像分類や、レコメンデーション機能の強化など、実サービスでの利用検討を進めているそうだ。

photo ヤフーが開発したスーパーコンピュータ「kukai」。NVIDIAの最新GPU「Tesla P100」を160基搭載し、80ノードで構成される。フッ素系不活性液体「フロリナート」で冷却する液浸冷却を採用している

Yahoo!知恵袋の“クソリプ”をディープラーニングで自動検出する

 最近では、ナレッジコミュニティーサービス「Yahoo!知恵袋」でも、このkukaiが使われているという。電子掲示板上で、参加者同士が知識や知恵を教え合うこのサービスは、2004年に始まったもので、これまで投稿された質問の総数は約2億件に上る。

 誰でも気軽に投稿できるため、中には「暇だなー」といった、つぶやきのような質問や、答えになっていないような回答が行われることもある。こうした投稿を自動で検出できないか、同社のエンジニアは試行錯誤を続けていたそうだ。

photo 誰でも自由に投稿できるYahoo!知恵袋には、つぶやきのような質問や答えになっていないような回答が行われることもある

 「口語的なくだけた表現を理解する必要性がある上、『その回答が質問に対して不適切かどうか』という要素を評価する必要があるため、単純に深層学習を使えばうまくいくという問題でもありませんでした」(ヤフー データ&サイエンスソリューション統括本部 清水徹氏)

 これまで、言語を機械的に理解するのには、言語を、意味を持つ最小単位に分割し、それぞれの要素の品詞などを判別する「形態素解析」を行うのが一般的だったが、深層学習ではデータを1文字単位で取り扱うことが可能になる。清水氏らは、自然言語処理に向くネットワークモデル「LTSM RNN(Long Short-Term Memory Recurrent Neural Network)」を使い、不適切な投稿を検出するアルゴリズムを開発しようとした。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ