【robots.txtとは】アクセス許可・拒否の読み方など

robots.txtって?アクセス許可・禁止の見方などについてまとめました。

robots.txtとは

robots.txtとは、クローラー(ロボット)に対してWebサイト管理者側が指示するためのファイルです。
クローラー(ロボット)とは、GoogleクローラーのようにWebページを自動収集するプログラムのことです。
どのURLへのクローラーからのアクセスを許可・拒否しているかなどが記載してあります。
robots.txtは、サイトURLの直下にあるのが一般的です。

robots.txtの読み方

例として、次のような「robots.txt」があったとします。

User-agent: *
Crawl-delay: 10
Disallow: /test
Allow: /example
Sitemap: http://test.xxx/sitemap.xml

各項目の読み方は次の通りです。

項目 内容 例の場合
User-agent 対象 *なので全クローラーが対象
Disallow クロールを拒否するパス test
Allow クロールを許可するパス example
Crawl-delay クロール間隔(秒) 10秒
Sitemap サイトマップのURL http://test.xxx/sitemap.xml
関連ページ、その他
関連 【Python】Webスクレイピング入門・ライブラリ比較
情報収集 Qiita(Beautiful Soup関連記事一覧)
関連記事