【Python/urllib】日本語含むHTML取得

スポンサーリンク

Python標準ライブラリ「urllib」を用いて、URL先のHTML(日本語含む)を取得する方法とソースコードについて紹介します。

スポンサーリンク

HTML取得

Python3の標準ライブラリ「urllib」では、urlopenメソッドでURLを開き、readメソッドでHTMLを取得できます。
取得したデータの日本語文字列を文字化けさせずに出力するには、decodeメソッドでバイト文字列(UTF-8)からStr文字列に変換します。

ソースコード

サンプルプログラムのソースコードは下記の通りです。

【Python2の場合】
import urllib2
data = urllib2.urlopen(url)

実行結果

サンプルプログラムの実行結果は下記の通りです。

b'<!DOCTYPE html>\r\n<html lang="ja">\r\n<head>\r\n<meta charset="UTF-8"・・・・・・

【関連記事】
PythonでHTML解析(パース)
Python入門 サンプル集

スポンサーリンク

シェア&フォローお願いします!