Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。
BeautifulSoupとは
BeautifulSoupとは、Pythonで「HTML」「XML」を解析(パーサ)できるモジュールです。
Webスクレイピングなどで使用されます。
※「Python環境の構築方法」「Pythonの基礎」については下記事で解説しています。
– | 関連ページ |
---|---|
Python環境の構築方法 | ■【Windows】Python環境を構築する方法 ■【Linux】標準搭載されてるので環境構築不要(Ubuntu, Rasbian等) |
Pythonの基礎 | ■Python入門 基礎文法とサンプル集 |
BeautifulSoupの基礎
BeautifulSoupの基礎的な使い方について下記に整理しました。
– | Webスクレイピングの基礎 |
---|---|
はじめに | ■【Webスクレイピング】注意事項や最低限のルール ■robots.txtの情報を解析 |
基礎 | ■タイトルの取得 ■あるタグの全て・先頭のみ取得 表(Tableタグ)のデータをCSVに保存 |
金融 | ■日経平均株価の取得 |
画像収集 | ■Webページから画像収集 ■Yahoo画像検索で画像収集 |
動画収集 | ■PytubeでYoutube操作 |
ニュース | ■Yahooトップのニュース記事タイトルとリンク取得 |
RSS | ■feedparserでRSS取得 |
気象 | ■地震速報(気象庁)を取得 |
参考 | ■Yahooファイナンス・画像検索のrobots.txt |
HTML解析 | ■HTML取得 ■HTML取得(日本語) ■User-Agent設定 ■HTML解析まとめ |
Webテスト | ■URLの存在確認 |
応用例 | ■お天気情報の取得 |
まとめ | ■Pythonでネットワークプログラミング入門 |
– | 関連ページ、その他 |
---|---|
関連 | ■【Python/BeautifulSoup4】Webスクレイピング入門 ■Python入門 基本文法 ■【Python】ネットワークプログラミング入門 |
情報収集 | ■Qiita(Beautiful Soup関連記事一覧) |
コメント