トップページ -> コンピュータ実習 -> オープンデータの活用 -> データのグループ化。(irisデータセット, titanicデータセットを使用)
[サイトマップへ], [サイト内検索へ],

データのグループ化。(irisデータセット, titanicデータセットを使用)

サイト構成 連絡先,業績など コンピュータ実習 データの扱い コンピュータ設定 教材(公開) サポートページ

金子邦彦研究室: データベース、人工知能(AI)、データサイエンスの融合により不可能を可能にする

前準備

前準備として,Pythonのインストールが終わっていること.

Python のインストール

※ Python のプログラム作成には、PyCharmなどが便利である.

以下,Windows に Python, git, cmake をインストール済みであるものとして説明を続ける.

spyder, numpy scipy h5py scikit-learn scikit-image matplotlib seaborn pandas pillow のインストール

conda install -y -c spyder-ide spyder
conda install -y numpy scipy h5py scikit-learn scikit-image matplotlib seaborn pandas pillow

irisデータセット, titanic データセットの読み込み

Python プログラムを動かしたい.

Anacondaに入っている開発環境 spyder を実行し,右下の ipython コンソールを使うのが簡単.

import pandas as pd
import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')


グループごとの数え上げ

列を1つ選ぶことで、グループを作り、各グループの要素数を求める

import pandas as pd
import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print( iris.groupby('species').size() )
print( titanic.groupby('embark_town').size() )


最大、最小、平均、中央値、和

列を1つ選ぶことで、グループを作り、各グループの最大、最小、平均、中央値、和を求める

import pandas as pd
import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print( iris.groupby('species').max() )
print( titanic.groupby('embark_town').max() )

print( iris.groupby('species').min() )
print( titanic.groupby('embark_town').min() )

print( iris.groupby('species').mean() )
print( titanic.groupby('embark_town').mean() )

print( iris.groupby('species').median() )
print( titanic.groupby('embark_town').median() )

print( iris.groupby('species').sum() )
print( titanic.groupby('embark_town').sum() )



問い合わせ先: 金子邦彦(かねこ くにひこ)