Python標準ライブラリ「urllib」を用いて、URL先のHTML(日本語含む)を取得する方法とソースコードについて紹介します。
## HTML取得
Python3の標準ライブラリ「urllib」では、urlopenメソッドでURLを開き、readメソッドでHTMLを取得できます。
取得したデータの日本語文字列を文字化けさせずに出力するには、decodeメソッドでバイト文字列(UTF-8)からStr文字列に変換します。
## ソースコード
サンプルプログラムのソースコードです。
# -*- coding: utf-8 import urllib.request def main(): # url先のHTMLファイルを開く data = urllib.request.urlopen("https://algorithm.joho.info/" ) # HTMLの取得 html = data.read() html = html.decode('utf-8') # 表示 print(html) # HTMLファイルを閉じる data.close()
Python2の場合
import urllib2 data = urllib2.urlopen(url)
## 実行結果
サンプルプログラムの実行結果です。
b'<!DOCTYPE html>\r\n<html lang="ja">\r\n<head>\r\n<meta charset="UTF-8"・・・・・・
– | 関連記事 |
---|---|
1 | PythonでHTML解析(パース) |
2 | Python入門 サンプル集 |
コメント