ITmedia NEWS > 企業・業界動向 >

「w」(ワラ)の意味も解析!?――NIIと国語研、Yahoo!ブログの記事を学術利用

» 2008年04月23日 17時56分 公開
[宮本真希,ITmedia]

 国立情報学研究所(NII)と国立国語研究所は4月23日、「Yahoo!ブログ」に投稿された記事データを利用した研究を始めると発表した。「w」(笑、ワラ)などネット独特の表現やくだけた文章を含んだブログの内容を分析できる言語解析ツールや、コーパス(言語分析用データベース)などの構築を目指す。データはヤフーが無償で提供する。

 4月25日以降に投稿されるYahoo!ブログの記事から季節ごとに数回ずつ、合計500万語以上を抽出。固有名詞や個人の特定に結びつく可能性のある表現を除外し、研究に利用する。全体に公開している記事のみが対象。Yahoo!IDには、「ユーザーがYahoo!で発信したコンテンツを、ヤフーが無償で非独占的に複製する権利を許諾する」という規約があるため、規約に同意していないユーザーでも投稿できるブログコメントは提供データに含まない。

 ブログデータは、言語学の研究や、ブログの内容を分析できる言語解析ツール、言語モデルの構築などに活用する。国語研は、現代の日本語の書き言葉を集めたコーパスの構築を進めており、そこにブログに書かれた言葉を追加する予定だ。

 日本語のブログは、「w」(ワラ)や顔文字などネット独特の表現やくだけた文章を含んでいたり、文の区切りが不明確であることが多く、従来の言語解析ツールでは意味を分析することが難しかった。ブログの内容を分析できる言語解析ツールを構築することで、ブログをもとにした世論調査やマーケティングなどへの活用も見込む。

 ブログの記事は話し言葉と書き言葉の中間といい、話し言葉と書き言葉の違いを研究するための好材料にもなるとしている。

 7月からはブログデータを企業や大学の研究機関に無償提供する予定。申し出があった機関の研究目的などをNIIと国語研が審査し、提供するかどうかを決める。他機関への提供を始める前に、個人の特定に結びつく表現などを含んだブログの取り扱いについて定めたガイドラインを作成する予定だ。

 ヤフーはこれまでNIIに対し、「Yahoo!JAPAN」の検索語データや、Yahoo!知恵袋の質問・回答データを無償で提供してきた。NIIの研究者などからは表現の自由度が高いブログのデータも提供してほしいという声があり、ブログデータの提供を決めた。

 同社ソーシャルネット事業部の殿村英嗣事業部長は「ユーザーが投稿する日記は時代を反映する“生きた日本語”。研究素材にしたいという要望に応えるのもYahoo!JAPANに期待されている役割の1つ」とコメントした。

Copyright © ITmedia, Inc. All Rights Reserved.