【Webスクレイピング】注意事項や最低限のルール

Webスクレイピングする際の注意事項とルールについてまとめました。

【Webスクレイピング】主な注意事項

Webスクレイピングを行う際の注意事項をまとめてみました。

● サイトに記載されている利用規約等に従って利用する。
→スクレイピングが禁止されていれば行わない。
→スクレイピングしたデータを利用するときもルールに従う。

● 「robots.txt」「robots metaタグ」「HTTPヘッダーのX-Robots-Tag」に記載されているクローラーに対するルールに従ってアクセスする。

● rel=”nofollow”があるaタグのリンク先はクロールしない。

● サーバにアクセスする間隔時間を開けて高負荷をかけないようにする。(ネット上では最低1秒以上?という情報が多いですが、利用規約その他のルールがあればその指示に従いましょう)

【Python3】BeautifulSoupのインストール
Pythonモジュール「beautifulsoup4」のインストール方法についてまとめました。
https://algorithm.joho.info/programming/python/web-scraping-py/
この記事を書いた人
西住技研

学生時代はシステム制御理論や画像処理、機械学習を専攻分野として研究していました。就職後もプログラミング(Python)を活用したデータ分析や作業自動化に取り組み、現在に至ります。そこで得たノウハウをブログで発信しています。
YoutubeX(旧Twitter)でも情報発信中です

西住技研をフォローする
コンピュータ

コメント