サイトの全体構成

Python の seaborn, scikits.learn のデータセット（Python，scikit-learn, seaborn を使用）

前準備

scikit-learn, seaborn のインストール

Windows の場合
Windows では，コマンドプロンプトを 管理者として実行し，次のコマンドを実行する．

Windows で pip を実行するときは，コマンドプロンプトを管理者として開き，それを使って pip を実行することにする．
```
python -m pip install -U scikit-learn scikit-learn-intelex seaborn
```

Ubuntu の場合

sudo apt -y update
sudo apt -y install python3-sklearn python3-seaborn

Python の seaborn のデータセット

iris(sepal_length, sepal_width, petal_length, petal_width, species)
tips(total_bill, tip, sex, smoker, day, time, size)
planets(method, number, orbital_period, mass, distance, year)
gammas(timepoint, ROI, subject, BOLD_signal)
titanic(survived, pclass, sex, age, sibsp, parch, fare, embarked, class, who, adult_male, deck, embark_town, alive, alone)
anscombe(dataset, x, y)
exercise(id, diet, pulse, time, kind)

Python のプログラム例

次のプログラムは iris, tips, planets, gammas, titanic, anscombe, exercise を CSV ファイルとして保存する．確認表示も行う．

import pandas as pd import seaborn iris = seaborn.load_dataset('iris') tips = seaborn.load_dataset('tips') planets = seaborn.load_dataset('planets') gammas = seaborn.load_dataset('gammas') titanic = seaborn.load_dataset('titanic') anscombe = seaborn.load_dataset('anscombe') exercise = seaborn.load_dataset('exercise') iris.to_csv('iris.csv', encoding='utf-8', index_label='id') tips.to_csv('tips.csv', encoding='utf-8', index_label='id') planets.to_csv('planets.csv', encoding='utf-8', index_label='id') gammas.to_csv('gammas.csv', encoding='utf-8', index_label='id') titanic.to_csv('titanic.csv', encoding='utf-8', index_label='id') anscombe.to_csv('anscombe.csv', encoding='utf-8', index_label='id') exercise.to_csv('exercise.csv', encoding='utf-8', index_label='id') iris.head() tips.head() planets.head() gammas.head() titanic.head() anscombe.head() exercise.head()

Python の scikits.learn のデータセット

公式ページ: https://scikit-learn.org/stable/datasets

diabetes(data, target): the diabetes dataset (regression).
- 'data', the data to learn.
- 'target', the labels for each sample.
digits(data, target) : the digits dataset (classification)
- 'data', the data to learn.
- 'target', the classification labels for each sample.
iris(sepal_length, sepal_width, petal_length, petal_width, species_number, species) : the iris dataset (classification).
linnerud(weight, waist, pulse, chins, situps, jumps) : the linnerud dataset (multivariate regression).

Python プログラム

次のプログラムは，diabetes, digits, iris, linnerud を CSV ファイルとして保存する．

import pandas as pd
import scikits.learn.datasets

a = scikits.learn.datasets.load_diabetes()
diabetes = pd.DataFrame( pd.Series( map(list, a.data) ), columns=["data"] )
diabetes["target"] = pd.Series(a.target)
  
a = scikits.learn.datasets.load_digits()
digits = pd.DataFrame( pd.Series( map(list, a.data) ), columns=["data"] )
digits["target"] = pd.Series(a.target)

a = scikits.learn.datasets.load_iris()
iris = pd.DataFrame( a.data, columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'] )
iris["species_number"] = pd.Series(a.target)
iris["species"] = pd.Series(a.target_names[a.target])

a = scikits.learn.datasets.load_linnerud()
linnerud = pd.DataFrame( np.hstack((a.data_exercise, a.data_physiological)), columns=['weight', 'waist', 'pulse', 'chins', 'situps', 'jumps'] )

diabetes.to_csv('diabetes.csv', encoding='utf-8', index_label='id')
digits.to_csv('digits.csv', encoding='utf-8', index_label='id')
iris.to_csv('iris.csv', encoding='utf-8', index_label='id')
linnerud.to_csv('linnerud.csv', encoding='utf-8', index_label='id')

次のプログラムは，digits データセットの 0 番目のデータを表示する．

import pylab as pl
pl.matshow( array( digits["data"][0] ).reshape(8, 8) )

import pylab as pl
pl.gray()
pl.matshow( array( digits["data"][0] ).reshape(8, 8) )

本サイトは金子邦彦研究室のWebページである．

資料等の公開では，原則，「クリエイティブコモンズ BY NC SA」として公開するようにしている． PDFファイル，パワーポイントファイルなどには，「クリエイティブコモンズ BY NC SA」を明記するとともに，ロゴを記載するようにしている（作業が間に合っていない分もあるのでご容赦ください）．

公開している資料をご利用になる場合の，再配布の条件，剽窃の防止などについて，別ページ »で説明再配布や資料改変の際には，そのページをご確認ください．

サイトマップは，サイトマップのページをご覧下さい．本サイト内の検索は，サイト内検索のページをご利用下さい．

問い合わせ先：金子邦彦（かねこくにひこ） [image]