【Python】Webスクレイピング入門(BeautifulSoup4編)

Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。

【BeautifulSoupとは】導入方法

BeautifulSoupとは、Pythonで「HTML」「XML」を解析(パーサ)できるモジュールです。
Webスクレイピングなどで使用されます。
BeautifulSoupは以下のpipコマンドでインストールできます。

pip install beautifulsoup4 

ただし、Webスクレイピングを行う際はアクセス先のサーバに負荷をかけたり、著作権保護の問題等もあるため注意する必要があります。
主な注意事項は以下ページにまとめました。

【Webスクレイピング】注意事項や最低限のルール
Webスクレイピングする際の注意事項とルールについてまとめました。

【基礎】BeautifulSoupの基本操作

BeautifulSoupの基礎的な使い方について下記に整理しました。

Webスクレイピングの基礎
Urlibの基本操作 BeautifulSoupを扱う上で必要となる、Urlibの基本操作であるHTML取得HTML取得(日本語)User-Agent設定URLの存在確認について
タイトルの取得 タイトルの取得を行います。
タグの全て・先頭のみ取得 あるタグの全て・先頭のみ取得する方法
TableをCSVに保存 表(Tableタグ)のデータをCSVに保存します。
画像収集 Webページから画像を収集します。
RSS取得 feedparserでRSSを取得します。
地震速報 気象庁から地震速報を取得します。
天気情報の取得 天気情報の取得を行います。

Qiita(Beautiful Soup関連記事一覧)

【Python入門】使い方とサンプル集
Pythonとは、統計処理や機械学習、ディープラーニングといった数値計算分野を中心に幅広い用途で利用されている人気なプログラミング言語です。主な特徴として「効率のよい、短くて読みやすいコードを書きやすい」、「ライブラリが豊富なのでサクッと...

コメント

タイトルとURLをコピーしました