検索サイトからのロボットアクセスを拒否したい

[木田佳克，ITmedia]

　最近のGoogleに代表されるロボット型ポータルサイトでは、知らぬ間に自らの管理ページが登録されることが多い。ある公開を行ってから日の経つサイトでは、次のようにアクセスログから検索してみればロボットが訪問している足跡が確認できるはずだ。

# tail -100 /var/log/httpd/access_log |grep googlebot

crawl1.googlebot.com - - [02/Jul/2002:20:04:07 +0900] "GET /index.html HTTP/1.0" 200 3600

　このような訪問を阻止したい場合には、ドキュメントルートにrobots.txtファイルを置けばよい。ファイル内容は次のようにしよう。User-agent:が「*」（すべて）にマッチし、Disallow:に「/」を指定することでドキュメントルート下すべてで拒否をするという指定になる（次の例は、RPMパッケージでインストールされているApacheのドキュメントルート先）。

$ cat /var/www/html/robots.txt

User-agent: * Disallow: /

SpecialPR

メールマガジンのお知らせ

企業を変革するビジネス視点のメールマガジンを毎朝配信中!!

アイティメディアからのお知らせ

キャリア採用の応募を受け付けています

検索サイトからのロボットアクセスを拒否したい

メールマガジンのお知らせ

企業を変革するビジネス視点のメールマガジンを毎朝配信中!!

アイティメディアからのお知らせ

注目のテーマ

人気記事ランキング