【Python/HtmlParser】サイトタイトルの取得

Python3の標準ライブラリ「HtmlParser」を用いて、HTMLを解析してサイトタイトルを取得する方法とソースコードについて紹介します。

サイトタイトルの取得

Python3の標準ライブラリ「HtmlParser」では、HTML文字列からタイトルタグに格納されている値を取り出すことができます。
HTMLParserクラスを継承して、独自のパーサを作成し、feedメソッドにHTML テキストを渡すことによって解析(パース)ができます。
今回は、Titleタグが見つかった時に、その値を取り出して表示させてみました。

ソースコード(Python3)

サンプルプログラムのソースコードは下記の通りです。


・開始タグがヒットしたら、handle_starttagメソッド呼び出し
・終了タグがヒットしたら、handle_endtagメソッド呼び出し
・タグ内の値はhandle_dataメソッドで処理

【Python/HtmlParser】HTML解析(パース)
Python3の標準ライブラリ「HtmlParser」を用いて、HTML解析(パース)する方法とソースコードについて紹介します。
【Python入門】使い方とサンプル集
Pythonとは、統計処理や機械学習、ディープラーニングといった数値計算分野を中心に幅広い用途で利用されている人気なプログラミング言語です。主な特徴として「効率のよい、短くて読みやすいコードを書きやすい」、「ライブラリが豊富なのでサクッと...
Python
西住工房

コメント

タイトルとURLをコピーしました