【Python/urllib】URLからHTMLのデータを取得・リンク先が存在するか確認

Python

2017.03.21

Python標準ライブラリ「urllib」を用いて、URL先のHTMLを取得する方法とソースコードについて紹介します。

スポンサーリンク

目次

【1】URLからHTMLのデータを取得①
【2】URLからHTMLのデータを取得②
【3】ユーザーエージェント情報
【4】URLが存在しているか確認

【1】URLからHTMLのデータを取得①

Python標準ライブラリ「urllib」では、urlopenメソッドでURLを開き、readメソッドでHTMLを取得できます。

【対象のHTMLファイル】

【Python/HtmlParser】HTML解析（パース）

Python3の標準ライブラリ「HtmlParser」を用いて、HTML解析（パース）する方法とソースコードについて紹介します。

動画解説

本ページの内容は以下動画でも解説しています。

スポンサーリンク

【2】URLからHTMLのデータを取得②

取得したデータの日本語文字列を文字化けさせずに出力するには、decodeメソッドでバイト文字列（UTF-8）からSｔｒ文字列に変換します。

【対象のHTMLファイル】

【Python/urllib】日本語含むHTML取得

Python標準ライブラリ「urllib」を用いて、URL先のHTML（日本語含む）を取得する方法とソースコードについて紹介します。

スポンサーリンク

【3】ユーザーエージェント情報

ユーザーエージェント情報とは、Webサイトにアクセスする閲覧者の情報です。
Webページにアクセスする閲覧者は、ユーザーエージェント情報をサーバーへ送信できます。
Python3の標準ライブラリ「urllib」では、HTMLを取得する際に送信するユーザーエージェント情報を設定できます。

書式

opener = urllib.request.build_opener()
opener.addheaders = [(送信するユーザーエージェント情報)]
opener.open(url)

サンプルコードです。

【対象のHTMLファイル】

【Python/urllib】ユーザーエージェントを設定してHTML取得

Python標準ライブラリ「urllib」を用いて、ユーザーエージェントを設定してHTML取得する方法とソースコードについて紹介します。

スポンサーリンク

【4】URLが存在しているか確認

Python3の標準モジュール「urllib」で指定したURLが存在しているか確認するサンプルです。

【対象のHTMLファイル】

【Python/urllib】URLが存在しているか確認

PythonのurllibモジュールでURLが存在しているか確認する方法をソースコード付きでまとめました。

【Python】Webスクレイピング入門(BeautifulSoup4編)

Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。

【Python超入門】使い方とサンプル集

Pythonとは、統計処理や機械学習、ディープラーニングといった数値計算分野を中心に幅広い用途で利用されている人気なプログラミング言語です。主な特徴として「効率のよい、短くて読みやすいコードを書きやすい」、「ライブラリが豊富なのでサクッと...

コメント

通りすがりより:

2018年1月15日 1:12 PM

import urllib
ではNGでした。
import urllib.request
で実行できました。

返信
- 管理人より:
  
  2018年1月15日 2:03 PM
  
  ※通りすがり様
  いつもお世話になっております。
  該当箇所を修正しました。
  今後ともよろしくお願いします。
  
  返信