Tips記事
» 2002年07月02日 00時00分 UPDATE

検索サイトからのロボットアクセスを拒否したい

[木田佳克,ITmedia]

 最近のGoogleに代表されるロボット型ポータルサイトでは、知らぬ間に自らの管理ページが登録されることが多い。ある公開を行ってから日の経つサイトでは、次のようにアクセスログから検索してみればロボットが訪問している足跡が確認できるはずだ。

# tail -100 /var/log/httpd/access_log |grep googlebot

crawl1.googlebot.com - - [02/Jul/2002:20:04:07 +0900] "GET /index.html HTTP/1.0" 200 3600

 このような訪問を阻止したい場合には、ドキュメントルートにrobots.txtファイルを置けばよい。ファイル内容は次のようにしよう。User-agent:が「*」(すべて)にマッチし、Disallow:に「/」を指定することでドキュメントルート下すべてで拒否をするという指定になる(次の例は、RPMパッケージでインストールされているApacheのドキュメントルート先)。

$ cat /var/www/html/robots.txt

User-agent: *
Disallow: /

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ