Pandas データフレームの集計集約(グループごとの数え上げ,最大,最小,平均,中央値,和)(Python, pandas, matplotlib, seaborn, Iris データセット, titanicデータセットを使用)(Google Colaboratroy へのリンク有り)
Python の pandas データフレームを用いた基本情報の表示,散布図、要約統計量、ヒストグラムについて, プログラム例などで説明する.
この資料の URL: https://www.kkaneko.jp/pro/od/group.html
【目次】
Google Colaboratory のページ:
次のリンクをクリックすると,Google Colaboratory のノートブックが開く. そして,Google アカウントでログインすると,Google Colaboratory のノートブック内のコード等を編集したり再実行したりができる.編集した場合でも,他の人に影響が出たりということはない.そして,編集後のものを,各自の Google ドライブ内に保存することもできる.
https://colab.research.google.com/drive/1UxKjDODi08fFwuJu9MC9wiykD4zbmxHh?usp=sharing
1. 前準備
Python の準備(Windows,Ubuntu 上)
- Windows での Python 3.10,関連パッケージ,Python 開発環境のインストール(winget を使用しないインストール): 別ページ »で説明
- Ubuntu では,システム Pythonを使うことができる.Python3 開発用ファイル,pip, setuptools のインストール: 別ページ »で説明
【サイト内の関連ページ】
- Python のまとめ: 別ページ »にまとめ
- Google Colaboratory の使い方など: 別ページ »で説明
【関連する外部ページ】 Python の公式ページ: https://www.python.org/
Python の numpy, pandas, seaborn, matplotlib, scikit-learn のインストール
- Windows の場合
Windows では,コマンドプロンプトを管理者として実行し, 次のコマンドを実行する.
python -m pip install -U pip setuptools numpy pandas matplotlib seaborn scikit-learn scikit-learn-intelex
- Ubuntu の場合
端末で,次のコマンドを実行
sudo apt -y update sudo apt -y install python3-numpy python3-pandas python3-seaborn python3-matplotlib python3-sklearn
2. Iris データセット, titanic データセットの準備
- iris, titanic データセットの読み込み
import pandas as pd import seaborn as sns sns.set() iris = sns.load_dataset('iris') titanic = sns.load_dataset('titanic')
- データの確認
print(iris.head()) print(titanic.head())
3. グループごとの数え上げ
列を1つ選ぶことで、グループを作り、各グループの要素数を求める
pandas の groupby を使う場合
import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')
print( iris.groupby('species').size() )
print( titanic.groupby('embark_town').size() )

4. グループごとの最大、最小、平均、中央値、和
列を1つ選ぶことで、グループを作り、各グループの最大、最小、平均、中央値、和を求める
pandas の groupby を使う場合
import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')
print( iris.groupby('species').max() )
print( titanic.groupby('embark_town').max() )
print( iris.groupby('species').min() )
print( titanic.groupby('embark_town').min() )
print( iris.groupby('species').mean() )
print( titanic.groupby('embark_town').mean() )
print( iris.groupby('species').median() )
print( titanic.groupby('embark_town').median() )
print( iris.groupby('species').sum() )
print( titanic.groupby('embark_town').sum() )

