メディア

液浸スパコン「kukai」を使って、Yahoo!知恵袋の“クソリプ”を検出してみた：ディープラーニング活用事例（2/2 ページ）

» 2018年09月20日 08時00分公開

ヤフーデータ＆サイエンスソリューション統括本部事業開発本部技術戦略室清水徹氏

　確かに、情報を持続させることができるよう内部にループ構造を持たせたRNNは、コンテクスト（文脈）を勘案すべき対話解析に向く。しかし、効率的にデータを学習させようとするならば、教師データ（ここでは不適切な質問や回答だと人間が判断したデータのリスト）が必要だ。「このリストを作成するのは骨が折れる作業で、せいぜい5000から1万くらいを作るのがやっとでした。しかし、これだけでは高い精度を得るのが難しかったのです」と清水氏は振り返る。

　そこで、清水氏らはTwitterにある数千万件規模の対話ペア（元ツイートとリプライのセット）のデータを使い、「提示された質問文に対して、5つの選択肢から適切な回答を選択できる」学習モデルを作成。その学習モデルを基に、改めて教師データを使って学習を行うことで精度を飛躍的に高めることができたという。

　「深層学習における言語理解は、ラベル付きデータだけで学習させるのは非常に厳しいものがあります。Twitterで行われる対話は感情を踏まえたやりとりであるため、テキストの裏にある感情を踏まえた回答を生成できるモデルを作れるのが特徴で、事前学習用のデータに向いています」（清水氏）

精度を高めるため、Twitterにある対話ペアを使って事前学習を行った

　Twitter対話のデータからモデルを作成するのには、4台のサーバで数カ月かかったとのことだが、現在はkukaiを使ってチューニングを行っているそうだ。CPUベースのサーバとGPUベースのkukaiを比べると処理能力の差は歴然だと清水氏は話す。

　「Yahoo!知恵袋に投稿された質問と回答の全6億件に対し、不適切なものかどうかを推論する演算を行った場合、CPUベースのサーバでは「約9カ月かかる」という見積もりが出たのに対し、kukaiでは半分のリソースしか使わなくても1日半で終えられました。kukaiによって検出された不適切な（ものと思われる）投稿については、Yahoo!知恵袋のトップページ内のランキングなど、多くの人の目につきやすい箇所では非表示にするようにしています」

　この自然言語処理の能力は、不適切な投稿を検出する以外にも、検索クエリのジャンルを推定するなど、さまざまな用途で使える可能性があるという。角田氏によれば、「液浸冷却型のスーパーコンピュータは学術利用が中心で、ビジネスの現場に導入されている例は非常に少ない」という。kukaiの活躍が、企業におけるスパコン利用の新たな道を切り開く可能性は十分にあるだろう。