Python の seaborn, scikits.learn のデータセット(Python,scikit-learn, seaborn を使用)
前準備
scikit-learn, seaborn のインストール
- Windows の場合
Windows では,コマンドプロンプトを管理者として実行し, 次のコマンドを実行する.
python -m pip install -U scikit-learn scikit-learn-intelex seaborn
- Ubuntu の場合
sudo apt -y update sudo apt -y install python3-sklearn python3-seaborn
Python の seaborn のデータセット
- iris(sepal_length, sepal_width, petal_length, petal_width, species)
- tips(total_bill, tip, sex, smoker, day, time, size)
- planets(method, number, orbital_period, mass, distance, year)
- gammas(timepoint, ROI, subject, BOLD_signal)
- titanic(survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, adult_male, deck, embark_town, alive, alone)
- anscombe(dataset, x, y)
- exercise(id, diet, pulse, time, kind)
Python のプログラム例
次のプログラムは iris, tips, planets, gammas, titanic, anscombe, exercise を CSV ファイルとして保存する.確認表示も行う.
import pandas as pd
import seaborn
iris = seaborn.load_dataset('iris')
tips = seaborn.load_dataset('tips')
planets = seaborn.load_dataset('planets')
gammas = seaborn.load_dataset('gammas')
titanic = seaborn.load_dataset('titanic')
anscombe = seaborn.load_dataset('anscombe')
exercise = seaborn.load_dataset('exercise')
iris.to_csv('iris.csv', encoding='utf-8', index_label='id')
tips.to_csv('tips.csv', encoding='utf-8', index_label='id')
planets.to_csv('planets.csv', encoding='utf-8', index_label='id')
gammas.to_csv('gammas.csv', encoding='utf-8', index_label='id')
titanic.to_csv('titanic.csv', encoding='utf-8', index_label='id')
anscombe.to_csv('anscombe.csv', encoding='utf-8', index_label='id')
exercise.to_csv('exercise.csv', encoding='utf-8', index_label='id')
iris.head()
tips.head()
planets.head()
gammas.head()
titanic.head()
anscombe.head()
exercise.head()


Python の scikits.learn のデータセット
公式ページ: https://scikit-learn.org/stable/datasets
- diabetes(data, target): the diabetes dataset (regression).
- 'data', the data to learn.
- 'target', the labels for each sample.
- digits(data, target) : the digits dataset (classification)
- 'data', the data to learn.
- 'target', the classification labels for each sample.
- iris(sepal_length, sepal_width, petal_length, petal_width, species_number, species) : the iris dataset (classification).
- linnerud(weight, waist, pulse, chins, situps, jumps) : the linnerud dataset (multivariate regression).
Python プログラム
次のプログラムは,diabetes, digits, iris, linnerud を CSV ファイルとして保存する.
import pandas as pd
import scikits.learn.datasets
a = scikits.learn.datasets.load_diabetes()
diabetes = pd.DataFrame( pd.Series( map(list, a.data) ), columns=["data"] )
diabetes["target"] = pd.Series(a.target)
a = scikits.learn.datasets.load_digits()
digits = pd.DataFrame( pd.Series( map(list, a.data) ), columns=["data"] )
digits["target"] = pd.Series(a.target)
a = scikits.learn.datasets.load_iris()
iris = pd.DataFrame( a.data, columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'] )
iris["species_number"] = pd.Series(a.target)
iris["species"] = pd.Series(a.target_names[a.target])
a = scikits.learn.datasets.load_linnerud()
linnerud = pd.DataFrame( np.hstack((a.data_exercise, a.data_physiological)), columns=['weight', 'waist', 'pulse', 'chins', 'situps', 'jumps'] )
diabetes.to_csv('diabetes.csv', encoding='utf-8', index_label='id')
digits.to_csv('digits.csv', encoding='utf-8', index_label='id')
iris.to_csv('iris.csv', encoding='utf-8', index_label='id')
linnerud.to_csv('linnerud.csv', encoding='utf-8', index_label='id')
次のプログラムは,digits データセットの 0 番目のデータを表示する.
import pylab as pl
pl.matshow( array( digits["data"][0] ).reshape(8, 8) )
import pylab as pl
pl.gray()
pl.matshow( array( digits["data"][0] ).reshape(8, 8) )