金子邦彦研究室プログラミングPythonPandas データフレームの集計集約(グループごとの数え上げ,最大,最小,平均,中央値,和)(Python, pandas, matplotlib, seaborn, Iris データセット, titanicデータセットを使用)(Google Colaboratroy へのリンク有り)

Pandas データフレームの集計集約(グループごとの数え上げ,最大,最小,平均,中央値,和)(Python, pandas, matplotlib, seaborn, Iris データセット, titanicデータセットを使用)(Google Colaboratroy へのリンク有り)

Python の pandas データフレームを用いた基本情報の表示,散布図、要約統計量、ヒストグラムについて, プログラム例などで説明する.

この資料の URL: https://www.kkaneko.jp/pro/od/group.html

目次

  1. 前準備
  2. Iris データセット, titanic データセットの準備
  3. グループごとの数え上げ
  4. グループごとの最大、最小、平均、中央値、和

Google Colaboratory のページ:

次のリンクをクリックすると,Google Colaboratoryノートブックが開く. そして,Google アカウントでログインすると,Google Colaboratory のノートブック内のコード等を編集したり再実行したりができる.編集した場合でも,他の人に影響が出たりということはない.そして,編集後のものを,各自の Google ドライブ内に保存することもできる.

https://colab.research.google.com/drive/1UxKjDODi08fFwuJu9MC9wiykD4zbmxHh?usp=sharing

1. 前準備

Python の準備(Windows,Ubuntu 上)

サイト内の関連ページ

関連する外部ページ

Python の公式ページ: https://www.python.org/

Python の numpy, pandas, seaborn, matplotlib, scikit-learn のインストール

2. Iris データセット, titanic データセットの準備

  1. iris, titanic データセットの読み込み
    import pandas as pd
    import seaborn as sns
    sns.set()
    iris = sns.load_dataset('iris')
    titanic = sns.load_dataset('titanic')
    

    [image]
  2. データの確認
    print(iris.head())
    print(titanic.head())
    

    [image]

3. グループごとの数え上げ

列を1つ選ぶことで、グループを作り、各グループの要素数を求める

pandas の groupby を使う場合

import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')
print( iris.groupby('species').size() )
print( titanic.groupby('embark_town').size() )

[image]

4. グループごとの最大、最小、平均、中央値、和

列を1つ選ぶことで、グループを作り、各グループの最大、最小、平均、中央値、和を求める

pandas の groupby を使う場合

import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')
print( iris.groupby('species').max() )
print( titanic.groupby('embark_town').max() )

print( iris.groupby('species').min() )
print( titanic.groupby('embark_town').min() )

print( iris.groupby('species').mean() )
print( titanic.groupby('embark_town').mean() )

print( iris.groupby('species').median() )
print( titanic.groupby('embark_town').median() )

print( iris.groupby('species').sum() )
print( titanic.groupby('embark_town').sum() )

[image]

[image]