【Python/urllib】HTML取得

Python標準ライブラリ「urllib」を用いて、URL先のHTMLを取得する方法とソースコードについて紹介します。

HTML取得

Python標準ライブラリ「urllib」では、urlopenメソッドでURLを開き、readメソッドでHTMLを取得できます。

ソースコード(Python3)

サンプルプログラムのソースコードは下記の通りです。

# -*- coding: utf-8
import urllib.request

def main():
    # url先のHTMLファイルを開く
    data = urllib.request.urlopen("https://algorithm.joho.info/")

    # HTMLの取得      
    html = data.read()
    
    # 表示
    print(html)
    
    # HTMLファイルを閉じる
    data.close()
   
    
if __name__ == "__main__":
    main()

補足

Python2の場合

import urllib2
data = urllib2.urlopen(url)

実行結果

サンプルプログラムの実行結果です。

b'<!DOCTYPE html>\r\n<html lang="ja">\r\n<head>\r\n<meta charset="UTF-8"・・・・・・
関連記事
1 PythonでHTML解析(パース)
2 Python入門 サンプル集
関連記事

コメント

  1. 通りすがり より:

    import urllib
    ではNGでした。
    import urllib.request
    で実行できました。

    • 管理人 より:

      ※通りすがり 様
      いつもお世話になっております。
      該当箇所を修正しました。
      今後ともよろしくお願いします。