【Pandas入門】使い方とサンプル集

Pythonモジュール「Pandas」でデータ分析する方法についてサンプルコード付きで入門者向けに使い方を解説します。

【はじめに】Pandas(読み:パンダス)とは

Pandas(読み:パンダス)は、Python用のデータ分析用モジュールです。
他のデータ分析モジュールと比較したときのPandasの大きな特徴は「R言語のデータフレームのような型」を持たせることができる点です。
以下のデータフレームの例のように、時系列データや定性データも扱う場合はPandasが便利です。

【例】データフレーム

気温 湿度 天候
2019-01-01 10.1 52.3
2019-01-02 8.2 41.8
2019-01-03 9.1 54.2

行ラベル(インデックスラベル:indexs)・・・2019-01-01、2019-01-02、2019-01-03
列ラベル(columns)・・・気温、湿度、天候

インストール

Pandasは以下のpipコマンドでインストールできます。

pip install pandas 

動画解説

【基礎】Series、DataFrameの生成、基本操作

Series、DataFrameの生成、基本操作について別記事でそれぞれ解説しています。
その記事リンクと概要を以下表に整理しました。

記事リンク 概要
Seriesの作成 Seriesは、ラベルが付いた1次元配列です。リストをSeriesに変換することで統計解析がやりやすくなります。Pandasでは、Seriesメソッドを用いることで、リストからSeriesを生成できます。
DataFrameの作成 DataFrameは各行・列に対してラベルが付いた2次元配列です。各行・列のラベルにより、データの操作が可能である点が普通の配列と異なる点です。そのため、データをデータフレームに変換することで統計解析がやりやすくなります。DataFrameメソッドを用いることで、インデックスやラベルを付けたデータフレームを生成できます。
日付インデックス・ラベル date_rangeメソッドを用いることで、日付インデックス・ラベルを生成できます。
ファイル処理 Excelファイル、CSVファイルの読み書きを行います。
DataFrameの並び替え 行列の入替や昇順・降順ソートを行います。
グラフ化 データフレームのデータをMatplotlibでグラフ化します。
DataFrame操作 データの取り出し、基本統計量の計算
基本統計量、多変量解析 DataFrameから基本統計量の計算、多変量解析を行います。多変量解析などを行うには、機械学習ライブラリ「Scikit-learn」を使います。
連続値 連続値のカウントを行います。
行・列の差分 行・列の差分を計算します。
連結 Dataframe、Series同士の連結を行います。

【応用例】Excel処理、株価、信号処理

Pandasの応用例について別記事でそれぞれ解説しています。
その記事リンクと概要を以下表に整理しました。

記事リンク 概要
記事リンク 概要
株価分析
信号データの解析
HIOKI測定データの分析
参考文献 e-stat総務省統計局:データサイエンススクールto-kei.net
Python
西住工房

コメント

タイトルとURLをコピーしました