相関確認の定番グラフ、散布図行列の作り方
データ準備と内容確認
データはRで有名なIris(アヤメの計測データ)を利用しています。IrisデータはSeabornのデータセットにも入っています。
Irisデータは『setosa』、『versicolor』、『virginica』という3種類の品種のアヤメの”がく片 (Sepal)”と”花弁 (Petal)” の幅および長さを計測したデータです。
sepal length(cm) | がく片の長さ |
---|---|
sepal width(cm) | がく片の幅 |
petal length(cm) | 花弁の長さ |
petal width(cm) | 花弁の幅 |
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
iris = sns.load_dataset("iris") # アヤメの計測データ読み込み
iris.head()
iris.tail()
iris.describe()
iris.groupby(['species']).mean()
散布図行列グラフ1(カテゴリ分けなし)
Seabornから読み込んだIrisデータの場合、pairplotの第1引数に読み込んだデータ変数を指定するだけでグラフが描画できます。
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
iris = sns.load_dataset("iris") # アヤメの計測データ読み込み
sns.pairplot(iris) # 散布図行列の描画
# sns.plt.savefig('iris-graph1.png') ## png画像書き出し
散布図行列グラフ2(カテゴリ分けあり)
カテゴリで色分けする場合は、pairplotのオプション引数hueにカテゴリ列名を指定します。
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
iris = sns.load_dataset("iris") # アヤメの計測データ読み込み
sns.pairplot(iris, hue='species') # 散布図行列の描画、カテゴリで色分け
# sns.plt.savefig('iris-graph2.png') ## png画像書き出し
散布図行列グラフはPandasのscatter_matrixでも作成できますが、Seabbornのpariplotを利用した方が簡単で綺麗に作図ができます。
0 件のコメント :
コメントを投稿