メディア

カテゴリ：

ネットの話題

コーナー：

セキュリティ

スタートアップ

ITmedia NEWS > STUDIO >

ITmedia AI＋ AI活用のいまが分かる

「Yahoo!知恵袋」の不快な投稿、見えないところへ　わずか1日で6億件を処理　ヤフー社内で何が起きたのか（1/2 ページ）

» 2018年11月02日 08時00分公開

[村田朱梨，ITmedia]

　老舗Q＆Aサービス「Yahoo!知恵袋」は、長い間あるものに悩まされてきた。規約違反ではないため削除できないが、見る人を不快にさせる内容の“グレーな投稿”である。これまで社内でパトロールを行うなど対応してきたが、同サービスの投稿は約6億件にものぼり、全てのグレーな投稿を見つけ出すことは難しかった。スーパーコンピュータ「kukai」（クウカイ）が導入されるまでは。

「Yahoo!知恵袋」

グレーな投稿に利用者からは「厳しい意見」

ヤフーの丹羽達洋さん（検索事業本部サービスマネージャー）

　グレーな投稿には、中身がなく質問への回答になっていないものや、アダルトカテゴリーではないのに年齢制限が必要そうなものなどがある。ユーザー投稿型サービスだからこそ起こる問題だが「利用者から厳しい意見をいただくことも多い。どこかで線引きをする必要があった」とヤフーの丹羽達洋さんは話す。

　そこで考えたのが、グレーな投稿を検出し、トップページなど人目につきやすい場所では非表示にするという対応だった。

グレーな投稿、どうやって見つける？

　しかし、質問と回答を合わせて約6億件にもなる投稿を、人が全てチェックすることは難しい。ヤフーは専用のシステムを構築し、投稿内容から「白」か「グレー」か「黒」かを自動判定することにした。

　まず行ったのは投稿内容の解析だ。自然言語処理では一般的に、文を形態素（意味を持つ最小単位）に分けて解析する。だが「グレーな投稿の中には日本語の体をなしていないものもある。形態素解析ではうまくいかなかった」（ヤフーの清水徹さん）という。そこで別のアプローチを採用した。ディープラーニング（深層学習）の活用だ。

　「文を文字単位に分解して扱う深層学習的な処理を導入し、文の全体や文脈を踏まえて（内容を）判断する、パワフルなモデルを作った」と清水さんは話す。

ヤフーの清水徹さん（データ＆サイエンスソリューション統括本部事業開発本部技術戦略室）

　合わせて、Twitter上のツイートと、それに対する返事（リプライ）をペアにしたデータ数千万件を使った学習モデルも作成。Yahoo!知恵袋の投稿内容を解析するモデルと組み合わせ、「ある発言に対して、適切な返事を見つけられるよう学習させていった」（清水さん）という。

　投稿の判別にも機械学習を活用した。まず「どんな投稿を白、グレー、黒とするか」の基準を社内向けガイドラインで設定。各基準に当てはまる「正解データ」を作成して機械学習を行い、実際にYahoo!知恵袋に投稿された質問や回答が「どの程度グレーか」を予測できるようにし、文意を解析するモデルと組み合わせた。

　だが、判定のためのモデルができてからも一筋縄ではいかなかった。蓄積された約6億件の投稿をまとめて処理するには、既存のサーバを使った環境では約9カ月かかるという試算が出たのだ。そこで清水さんは考えた。「kukaiの出番だ」と。

9カ月かかる演算、kukaiを使ったらどうなった？

　　　　　　 1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

Special

PR

業務部門が抱える課題をITで解決（キーマンズネット）

RANKING

1

XREAL、新ARグラス「XREAL 1S」発表　1200pでリアルタイム3D変換に対応

2

Belkin、Wi-Fi不要の無線HDMIドングル発表　最大8人での画面切り替えに対応

3

XREAL、1万mAhの給電・映像ハブ「Neo」発売　ARグラスとゲーム機を接続

4

48時間以内にAI生成ポルノ画像を削除しろ──秋元康さんプロデュースのアイドルグループが異例の“公開警告”

5

「ノーベル賞受賞者」「五輪金メダリスト」などトップパフォーマー3万人以上の発達過程を分析　“世界最高峰”に達した人の特徴とは

もっと読む »

アイティメディアからのお知らせ

キャリア採用の応募を受け付けています

SpecialPR

メールマガジンのお知らせ

ITmedia NEWSメールマガジン最新号テクノロジートレンドを週3配信

ご購読はこちら »

あなたにおすすめの記事PR

ITmediaはアイティメディア株式会社の登録商標です。

メディア一覧 | 公式SNS | 広告案内 | お問い合わせ | プライバシーポリシー | RSS | 運営会社 | 採用情報 | 推奨環境