【Pandas入門】データ分析のサンプル集

この記事では、Pythonとデータ分析ライブラリPandas」を行う方法についてサンプルコード付きで入門者向けに使い方を解説します。

Pandasとは

Pandasは、Python向けデータ分析用ライブラリです。
Pythonには様々なデータ分析ライブラリがありますが、このライブラリの大きな特徴は「R言語のデータフレームのような型」を持たせることができる点です。
つまり、R言語に似た使い方ができます。

PythonとPandasの環境構築はこちら
1 Windows環境・・・Python環境を構築する方法
2 Pandasのインストール方法(WinPythonの場合は不要)

Pandasの基本的な使い方

配列生成
Series Series生成
DateFrame 生成1生成2
ファイル処理
書込 Excelファイルの書み込みCSVファイルへ書き込み
読込 Excelファイルの読み込みCSVファイルの読み込み
日時・タイムスタンプ
日付 日付インデックス作成日付インデックスをDataFrameに設定
DataFrameの操作
基本 転置(行・列の入替)行を並替
ソート ラベル順インデックス順
情報取得 インデックスラベルデータ型基本統計量
値取得 全てラベル指定インデックス・ラベル指定
抽出 列指定行・列指定行・列指定(番号)
ラベル 合計値平均値中央値最大値最小値要素数標準偏差分散

多変量解析

多変量解析を行うには、機械学習ライブラリ「Scikit-learn」を組み合わせます。

出力 目的変数 説明変数(量的データ) 説明変数(質的データ)
予測 量的データ 単回帰分析重回帰分析 ■数量化Ⅰ類 ■コンジョイント分析
予測 質的データ ■判別分析 ■ロジスティック回帰分析 ■数量化Ⅱ類
要約 なし ■主成分分析 ■因子分析 ■クラスター分析 ■多次元尺度法(MDS) ■数量化Ⅲ類 ■コレスポンデンス分析

Pandasの応用・その他

Pandasの応用例
Excel Excelのグラフ化
株価 Pandas-datareaderで日経平均株価の取得
投資 株価分析
参考 e-stat総務省統計局:データサイエンススクールto-kei.net
関連記事