ITmedia NEWS >

Yahoo!知恵袋のQ&Aを学術利用 NII

» 2007年03月06日 19時00分 公開
[岡田有花,ITmedia]

 国立情報学研究所(NII)は3月6日、ユーザーの質問にユーザーが答えるヤフーのサービス「Yahoo!知恵袋」の質問・回答データを、研究に利用すると発表した。ヤフーからのデータセットの提供を受け、自然文検索や文章要約システムの研究などに活用する。

 Yahoo!知恵袋に2004年7月〜2005年10月に登録された質問約311万件・回答約1347万件から、Yahoo!IDなど個人を特定できる情報を抜いたデータセットを作成。ヤフーがNIIに無償提供する。Yahoo!知恵袋は開設時から研究目的でデータ提供する可能性を視野に入れ、その旨を規約に盛り込んでいたという。

 データセットは、言語解析システムの研究基盤「NTCIR」(NII Test Collection for Information Retrieval)上で公開し、研究に生かしてもらう。例えば、質問文から検索ワードを抽出してWeb検索し、答えを見つけるシステムや、複数の回答文からエッセンスを抽出し、要約するシステムなどの研究に利用できるという。

 米国に遅れを取った検索分野の研究で、巻き返しを図りたいという思いもあるようだ。「米国では、GoogleやYahoo!、Microsoftなどが産学連携で研究し、論文をどんどん発表している。検索エンジンで追いつくのは難しいが、Q&Aサービスは日本が健闘している分野。トップクラスの研究ができるのではないか」(NIIの大山敬三教授)

 NIIの東倉洋一副所長によると、ブログやWeb日記、質問・回答文、電子メールなどは、話し言葉に近い独特の言語で書かれている上、利用者の意図が素直に表れているため研究者の注目を集めているが、研究材料として利用できる公開データベースはほとんどなかったという。NIIはこれをきっかけに、他のネットサービス事業者からのデータ提供にも期待している。

Copyright © ITmedia, Inc. All Rights Reserved.