Webスクレイピングする際の注意事項とルールについてまとめました。
【Webスクレイピング】主な注意事項
Webスクレイピングを行う際の注意事項をまとめてみました。
● サイトに記載されている利用規約等に従って利用する。
→スクレイピングが禁止されていれば行わない。
→スクレイピングしたデータを利用するときもルールに従う。
● 「robots.txt」「robots metaタグ」「HTTPヘッダーのX-Robots-Tag」に記載されているクローラーに対するルールに従ってアクセスする。
● rel=”nofollow”があるaタグのリンク先はクロールしない。
● サーバにアクセスする間隔時間を開けて高負荷をかけないようにする。(ネット上では最低1秒以上?という情報が多いですが、利用規約その他のルールがあればその指示に従いましょう)
【Python3】BeautifulSoupのインストール
Pythonモジュール「beautifulsoup4」のインストール方法についてまとめました。
https://algorithm.joho.info/programming/python/web-scraping-py/
コメント