ITmedia NEWS > STUDIO >
ニュース
» 2018年11月02日 08時00分 公開

「Yahoo!知恵袋」の不快な投稿、見えないところへ わずか1日で6億件を処理 ヤフー社内で何が起きたのか (1/2)

Q&Aサービス「Yahoo!知恵袋」は長い間、不快な内容だが規約違反ではなく削除できない「グレーな投稿」に悩まされてきた。解決するための処理には約9カ月かかると思われていたが、わずか1日強で完了したという。何が起きたのか。

[村田朱梨,ITmedia]

 老舗Q&Aサービス「Yahoo!知恵袋」は、長い間あるものに悩まされてきた。規約違反ではないため削除できないが、見る人を不快にさせる内容の“グレーな投稿”である。これまで社内でパトロールを行うなど対応してきたが、同サービスの投稿は約6億件にものぼり、全てのグレーな投稿を見つけ出すことは難しかった。スーパーコンピュータ「kukai」(クウカイ)が導入されるまでは。

photo 「Yahoo!知恵袋」

グレーな投稿に利用者からは「厳しい意見」

photo ヤフーの丹羽達洋さん(検索事業本部サービスマネージャー)

 グレーな投稿には、中身がなく質問への回答になっていないものや、アダルトカテゴリーではないのに年齢制限が必要そうなものなどがある。ユーザー投稿型サービスだからこそ起こる問題だが「利用者から厳しい意見をいただくことも多い。どこかで線引きをする必要があった」とヤフーの丹羽達洋さんは話す。

 そこで考えたのが、グレーな投稿を検出し、トップページなど人目につきやすい場所では非表示にするという対応だった。

グレーな投稿、どうやって見つける?

 しかし、質問と回答を合わせて約6億件にもなる投稿を、人が全てチェックすることは難しい。ヤフーは専用のシステムを構築し、投稿内容から「白」か「グレー」か「黒」かを自動判定することにした。

 まず行ったのは投稿内容の解析だ。自然言語処理では一般的に、文を形態素(意味を持つ最小単位)に分けて解析する。だが「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」(ヤフーの清水徹さん)という。そこで別のアプローチを採用した。ディープラーニング(深層学習)の活用だ。

 「文を文字単位に分解して扱う深層学習的な処理を導入し、文の全体や文脈を踏まえて(内容を)判断する、パワフルなモデルを作った」と清水さんは話す。

photo ヤフーの清水徹さん(データ&サイエンスソリューション統括本部 事業開発本部 技術戦略室)

 合わせて、Twitter上のツイートと、それに対する返事(リプライ)をペアにしたデータ数千万件を使った学習モデルも作成。Yahoo!知恵袋の投稿内容を解析するモデルと組み合わせ、「ある発言に対して、適切な返事を見つけられるよう学習させていった」(清水さん)という。

 投稿の判別にも機械学習を活用した。まず「どんな投稿を白、グレー、黒とするか」の基準を社内向けガイドラインで設定。各基準に当てはまる「正解データ」を作成して機械学習を行い、実際にYahoo!知恵袋に投稿された質問や回答が「どの程度グレーか」を予測できるようにし、文意を解析するモデルと組み合わせた。

 だが、判定のためのモデルができてからも一筋縄ではいかなかった。蓄積された約6億件の投稿をまとめて処理するには、既存のサーバを使った環境では約9カ月かかるという試算が出たのだ。そこで清水さんは考えた。「kukaiの出番だ」と。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.