robots.txtって?アクセス許可・禁止の見方などについてまとめました。
robots.txtとは
robots.txtとは、クローラー(ロボット)に対してWebサイト管理者側が指示するためのファイルです。
クローラー(ロボット)とは、GoogleクローラーのようにWebページを自動収集するプログラムのことです。
どのURLへのクローラーからのアクセスを許可・拒否しているかなどが記載してあります。
robots.txtは、サイトURLの直下にあるのが一般的です。
robots.txtの読み方
例として、次のような「robots.txt」があったとします。
User-agent: * Crawl-delay: 10 Disallow: /test Allow: /example Sitemap: http://test.xxx/sitemap.xml
各項目の読み方は次の通りです。
項目 | 内容 | 例の場合 |
---|---|---|
User-agent | 対象 | *なので全クローラーが対象 |
Disallow | クロールを拒否するパス | test |
Allow | クロールを許可するパス | example |
Crawl-delay | クロール間隔(秒) | 10秒 |
Sitemap | サイトマップのURL | http://test.xxx/sitemap.xml |
404 NOT FOUND | アルゴリズム速報
コメント