【Webスクレイピング】注意事項や最低限のルール

Webスクレイピングする際の注意事項とルールについてまとめました。

Webスクレイピングを行う際の主な注意事項

Webスクレイピングを行う際の注意事項をまとめてみました。

説明
1 「robots.txt」「robots metaタグ」「HTTPヘッダーのX-Robots-Tag」に記載されているルールに従ってアクセスする。
2 HTMLに「Pragma:No-cache」があればアクセスしない。
3 rel=”nofollow”があるaタグのリンク先はクロールしない。
4 サーバにアクセスする間隔時間を開けて高負荷をかけないようにする。(最低1秒以上?)
5 アクセスする時のUser-agentは正しく設定する。(偽装しない)
6 その他、サイトに記載されている利用規約等に従う。

※参考:著作権法第30条・著作権法第47条(6,7)

関連ページ、その他
関連 【Python】Webスクレイピング入門・ライブラリ比較
情報収集 Qiita(Beautiful Soup関連記事一覧)
関連記事