トップページ -> データベース関連技術 -> オープンデータの活用 -> データのグループ化。(irisデータセット, titanicデータセットを使用)
[サイトマップへ], [サイト内検索へ]

データのグループ化。(irisデータセット, titanicデータセットを使用)

サイト構成 データベース関連技術 データの扱い インストール,設定,利用 プログラミング 情報工学の講義実習資料 サポートページ 連絡先,業績など

[image] 金子邦彦研究室: データベース、人工知能(AI)、データサイエンスの融合により不可能を可能にする


前準備

Python のインストール

Python 用 numpy pandas seaborn matplotlib のインストール

Windows の場合

※ 「py」は,Windows のPythonランチャーAnaconda 3 内の Python などを間違って使ってしまわないように,Pythonランチャーを使って Python を起動している.Ubuntu では「py」でなく「python3」コマンドを使う.

※ 「pip install ...」は,Python パッケージをインストールするための操作.

py -m pip install --upgrade pip
py -m pip install -U numpy pandas seaborn matplotlib

Ubuntu の場合

sudo apt update
sudo apt -yV install python3-numpy python3-pandas python3-seaborn python3-matplotlib

irisデータセット, titanic データセットの読み込み

Python プログラムを動かしたい.

Anacondaに入っている開発環境 spyder を実行し,右下の ipython コンソールを使うのが簡単.

import pandas as pd
import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

[image]


グループごとの数え上げ

列を1つ選ぶことで、グループを作り、各グループの要素数を求める

import pandas as pd
import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print( iris.groupby('species').size() )
print( titanic.groupby('embark_town').size() )

[image]


最大、最小、平均、中央値、和

列を1つ選ぶことで、グループを作り、各グループの最大、最小、平均、中央値、和を求める

import pandas as pd
import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print( iris.groupby('species').max() )
print( titanic.groupby('embark_town').max() )

print( iris.groupby('species').min() )
print( titanic.groupby('embark_town').min() )

print( iris.groupby('species').mean() )
print( titanic.groupby('embark_town').mean() )

print( iris.groupby('species').median() )
print( titanic.groupby('embark_town').median() )

print( iris.groupby('species').sum() )
print( titanic.groupby('embark_town').sum() )

[image]

[image]

本サイトは金子邦彦研究室のWebページです.サイトマップは,サイトマップのページをご覧下さい. 本サイト内の検索は,サイト内検索のページをご利用下さい.

問い合わせ先: 金子邦彦(かねこ くにひこ) [image]