【robots.txtとは】アクセス許可・拒否の読み方など

コンピュータ

2018.06.04

robots.txtって？アクセス許可・禁止の見方などについてまとめました。

robots.txtとは
robots.txtの読み方

robots.txtとは

robots.txtとは、クローラー（ロボット）に対してWebサイト管理者側が指示するためのファイルです。
クローラー（ロボット）とは、GoogleクローラーのようにWebページを自動収集するプログラムのことです。
どのURLへのクローラーからのアクセスを許可・拒否しているかなどが記載してあります。
robots.txtは、サイトURLの直下にあるのが一般的です。

robots.txtの読み方

例として、次のような「robots.txt」があったとします。

User-agent: *
Crawl-delay: 10
Disallow: /test
Allow: /example
Sitemap: http://test.xxx/sitemap.xml

各項目の読み方は次の通りです。

項目	内容	例の場合
User-agent	対象	*なので全クローラーが対象
Disallow	クロールを拒否するパス	test
Allow	クロールを許可するパス	example
Crawl-delay	クロール間隔（秒）	10秒
Sitemap	サイトマップのURL	http://test.xxx/sitemap.xml