ITmedia NEWS > セキュリティ >
セキュリティ・ホットトピックス

スパムに対抗しながら書籍をデジタル化、一石二鳥の「reCAPTCHA」

» 2007年05月25日 08時57分 公開
[ITmedia]

 Webサイトでユーザー登録する際などに、画像に埋め込んだ変形文字を入力させる「CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart)。これを活用し、スパムを防止しながら書籍デジタル化を支援しようというプロジェクトを、米国の研究者が提唱した。

 このプロジェクト「reCAPTCHA」は、米カーネギーメロン大学のコンピュータサイエンス校が取り組んでいる。CAPTCHAとは、コメントスパムなどを防止する目的で、機械には読み取れない画像の文字をユーザーに入力させるシステム(関連記事)

 研究チームの推計では、CAPTCHAが使われる回数は1日当たり約6000万回に上り、毎日16万時間(約19年分)が費やされている計算になる。この時間の一部でも書籍読み取りのために使ってもらえば、書籍デジタル化の取り組みを支援できるという発想だ。

 コンピュータが登場する以前に発行された書籍をデジタル化する取り組みは現在各地で進められているが、OCRを使ったテキスト変換では、印刷された文字を正確に読み取れないことがある。

 reCAPTCHAでは、こうしたOCRでは判読不能の書籍の一節をCAPTCHAに利用。未判読の単語と既に判読済みの単語を組み合わせて表示し、ユーザーに両方の単語を読み取ってもらう。判読済みの単語が正しく入力されれば正解として扱い、別のユーザーにも判読してもらうことで精度を高める。

 さらに、サイトに掲載した電子メールアドレスのスパム利用を防止する機能も提供。アドレスの一部を伏せておき、ユーザーがクリックしてCAPTCHAを解かない限り、その部分が表示されないようにすることができる。

 reCAPTCHAはサイトのHTMLに数行を書き加えるだけで簡単に利用できるという。WordPress、MediaWiki、phpBB向けのプラグインも提供されている。

関連キーワード

OCR | スパム


Copyright © ITmedia, Inc. All Rights Reserved.