【Python/HtmlParser】HTML解析(パース)

スポンサーリンク
ビッグバナー(上2)

Python3の標準ライブラリ「HtmlParser」を用いて、HTML解析(パース)する方法とソースコードについて紹介します。

HTML解析(パース)

HTML解析(パース)とは、HTML文の中身を解析して必要な情報を取り出すことです。
Python3では、標準ライブラリ「HtmlParser」を用いて行うことができます。
インターネット上やローカルのHTMLファイルにアクセスするには、標準ライブラリ「urllib」を使います。

ソースコード(Python3)

サンプルプログラムのソースコードは下記の通りです。

①開始タグがあればhandle_starttagメソッド呼び出し
②終了タグがあればandle_endtagメソッド呼び出し
③タグ内にデータがあればhandle_dataメソッドで処理
④タグ内にデータがあればhandle_commentメソッドで処理

①~④を繰り返し行います

実行結果)

サンプルプログラムの実行結果は下記の通りです。(長いので一部抜粋)
このように、HTML内の各タグの情報を切り分けて取得できます。

開始タグ : li [(‘id’, ‘menu-item-181’), (‘class’, ‘menu-item menu-item-type-taxonomy menu-item-object-category menu-item-181’)]
開始タグ : a [(‘href’, ‘https://algorithm.joho.info/category/robotics/’)]
データ: ロボット工学
終了タグ : a
終了タグ : li

応用例

HTML解析の応用例を項目別に以下で紹介しています。

urllibでHTML取得

基本:HTML取得, HTML取得(日本語), User-Agent設定, 日本語含むURL

HTML解析

基本:サイトタイトル取得

【関連記事】
PythonでHTML解析(パース)
Python入門 サンプル集

スポンサーリンク
レクタングル(下2)
レクタングル(下2)

シェア&フォローお願いします!