【Scikit-learn】アイリスデータセットの読み込み・可視化

この記事では、Pythonと機械学習ライブラリ「scikit-learn」でアイリスデータを描画する方法について紹介します。

アイリスデータセットとは

Iris(アイリス)は統計分野で有名なデータセットです。
データセットの内容は、あやめという花の三品種 (Setosa, Versicolor, Virginica) の特徴量です。
含まれる特徴量は、Sepal (がく片) と Petal (花びら) の長さと幅となっています。
scikit-learnには、標準でこのデータセットが組み込まれています。
今回はscikit-learnの動作確認として、このデータセットをMatplotlibで表示してみます。

ソースコード

サンプルプログラムのソースコードです。

from matplotlib import pyplot as plt
from sklearn import datasets # データ・セット

def main():
    # Iris のデータを呼び出す
    iris = datasets.load_iris()
    X = iris.data[:, :2]  # 最初の二次元のみの特徴量を抽出
    Y = iris.target       # 目標値(正解データ)
    # グラフの軸幅
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    # 可視化のベースを作成
    plt.figure(2, figsize=(8, 6))
    plt.clf()
    # 実際にプロット
    plt.scatter(X[:, 0], X[:, 1], c=Y, cmap=plt.cm.Paired)
    plt.xlabel('Sepal length')
    plt.ylabel('Sepal width')
    plt.xlim(x_min, x_max)
    plt.ylim(y_min, y_max)
    plt.grid()
    plt.show()

if __name__ == "__main__":
    main()

実行結果

プログラムの実行結果です。

【おすすめ記事】
Scikit-learnをインストールする方法
Scikit-learn入門・使い方
機械学習のアルゴリズム入門

コメント

  1. yoika より:

    大変参考になりました。それで、細かいことですが、コードに誤りがあるようです。以下。

    cmap=pl.cm.Paired
        ↓
    cmap=plt.cm.Paired

    • 管理人 より:

      ※yoika 様
      コメントありがとうございます。
      ご指摘いただいた通り、誤りがあったのでコードを修正しました。
      本当に助かりました。ご丁寧にありがとうございます。

      今後ともよろしくお願いします。