Pythonモジュール「Pandas」でデータ分析する方法についてサンプルコード付きで入門者向けに使い方を解説します。
【はじめに】Pandas(読み:パンダス)とは
Pandas(読み:パンダス)は、Python用のデータ分析用モジュールです。
他のデータ分析モジュールと比較したときのPandasの大きな特徴は「R言語のデータフレームのような型」を持たせることができる点です。
以下のデータフレームの例のように、時系列データや定性データも扱う場合はPandasが便利です。
【例】データフレーム
気温 | 湿度 | 天候 | |
---|---|---|---|
2019-01-01 | 10.1 | 52.3 | 晴 |
2019-01-02 | 8.2 | 41.8 | 晴 |
2019-01-03 | 9.1 | 54.2 | 曇 |
行ラベル(インデックスラベル:indexs)・・・2019-01-01、2019-01-02、2019-01-03
列ラベル(columns)・・・気温、湿度、天候
インストール
Pandasは以下のpipコマンドでインストールできます。
pip install pandas
動画解説
【基礎】Series、DataFrameの生成、基本操作
Series、DataFrameの生成、基本操作について別記事でそれぞれ解説しています。
その記事リンクと概要を以下表に整理しました。
記事リンク | 概要 |
---|---|
Seriesの作成 | Seriesは、ラベルが付いた1次元配列です。リストをSeriesに変換することで統計解析がやりやすくなります。Pandasでは、Seriesメソッドを用いることで、リストからSeriesを生成できます。 |
DataFrameの作成 | DataFrameは各行・列に対してラベルが付いた2次元配列です。各行・列のラベルにより、データの操作が可能である点が普通の配列と異なる点です。そのため、データをデータフレームに変換することで統計解析がやりやすくなります。DataFrameメソッドを用いることで、インデックスやラベルを付けたデータフレームを生成できます。 |
日付インデックス・ラベル | date_rangeメソッドを用いることで、日付インデックス・ラベルを生成できます。 |
ファイル処理 | Excelファイル、CSVファイルの読み書きを行います。 |
DataFrameの並び替え | 行列の入替や昇順・降順ソートを行います。 |
グラフ化 | データフレームのデータをMatplotlibでグラフ化します。 |
DataFrame操作 | データの取り出し、基本統計量の計算 |
基本統計量、多変量解析 | DataFrameから基本統計量の計算、多変量解析を行います。多変量解析などを行うには、機械学習ライブラリ「Scikit-learn」を使います。 |
連続値 | 連続値のカウントを行います。 |
行・列の差分 | 行・列の差分を計算します。 |
連結 | Dataframe、Series同士の連結を行います。 |
【応用例】Excel処理、株価、信号処理
Pandasの応用例について別記事でそれぞれ解説しています。
その記事リンクと概要を以下表に整理しました。
記事リンク | 概要 |
---|---|
記事リンク | 概要 |
— | — |
株価分析 | – |
信号データの解析 | – |
HIOKI測定データの分析 | – |
参考文献 | ■e-stat ■総務省統計局:データサイエンススクール ■to-kei.net |
コメント