【robots.txtとは】アクセス許可・拒否の読み方など

robots.txtって?アクセス許可・禁止の見方などについてまとめました。

スポンサーリンク

robots.txtとは

robots.txtとは、クローラー(ロボット)に対してWebサイト管理者側が指示するためのファイルです。
クローラー(ロボット)とは、GoogleクローラーのようにWebページを自動収集するプログラムのことです。
どのURLへのクローラーからのアクセスを許可・拒否しているかなどが記載してあります。
robots.txtは、サイトURLの直下にあるのが一般的です。

スポンサーリンク

robots.txtの読み方

例として、次のような「robots.txt」があったとします。

User-agent: *
Crawl-delay: 10
Disallow: /test
Allow: /example
Sitemap: http://test.xxx/sitemap.xml

各項目の読み方は次の通りです。

項目 内容 例の場合
User-agent 対象 *なので全クローラーが対象
Disallow クロールを拒否するパス test
Allow クロールを許可するパス example
Crawl-delay クロール間隔(秒) 10秒
Sitemap サイトマップのURL http://test.xxx/sitemap.xml
【Python/reppy】robots.txtの情報を解析
Pythonモジュール「reppy」でrobots.txtの情報を解析する方法についてソースコード付きでまとめました。
コンピュータ
スポンサーリンク

コメント