【robots.txtとは】アクセス許可・拒否の読み方など

robots.txtって?アクセス許可・禁止の見方などについてまとめました。

robots.txtとは

robots.txtとは、クローラー(ロボット)に対してWebサイト管理者側が指示するためのファイルです。
クローラー(ロボット)とは、GoogleクローラーのようにWebページを自動収集するプログラムのことです。
どのURLへのクローラーからのアクセスを許可・拒否しているかなどが記載してあります。
robots.txtは、サイトURLの直下にあるのが一般的です。

robots.txtの読み方

例として、次のような「robots.txt」があったとします。

User-agent: *
Crawl-delay: 10
Disallow: /test
Allow: /example
Sitemap: http://test.xxx/sitemap.xml

各項目の読み方は次の通りです。

項目 内容 例の場合
User-agent 対象 *なので全クローラーが対象
Disallow クロールを拒否するパス test
Allow クロールを許可するパス example
Crawl-delay クロール間隔(秒) 10秒
Sitemap サイトマップのURL http://test.xxx/sitemap.xml
404 NOT FOUND | アルゴリズム速報
この記事を書いた人
西住技研

学生時代はシステム制御理論や画像処理、機械学習を専攻分野として研究していました。就職後もプログラミング(Python)を活用したデータ分析や作業自動化に取り組み、現在に至ります。そこで得たノウハウをブログで発信しています。
YoutubeX(旧Twitter)でも情報発信中です

西住技研をフォローする
コンピュータ

コメント