Python の pandas データフレームを用いた基本情報の表示,散布図、要約統計量、ヒストグラムについて, プログラム例などで説明する.
この資料の URL: https://www.kkaneko.jp/pro/od/group.html
【目次】
Google Colaboratory のページ:
次のリンクをクリックすると,Google Colaboratory のノートブックが開く. そして,Google アカウントでログインすると,Google Colaboratory のノートブック内のコード等を編集したり再実行したりができる.編集した場合でも,他の人に影響が出たりということはない.そして,編集後のものを,各自の Google ドライブ内に保存することもできる.
https://colab.research.google.com/drive/1UxKjDODi08fFwuJu9MC9wiykD4zbmxHh?usp=sharing
【サイト内の関連ページ】
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
Windows では,コマンドプロン プトを管理者として実行し, 次のコマンドを実行する.
python -m pip install -U pip setuptools numpy pandas matplotlib seaborn scikit-learn scikit-learn-intelex
端末で,次のコマンドを実行
sudo apt -y update sudo apt -y install python3-numpy python3-pandas python3-seaborn python3-matplotlib python3-sklearn
import pandas as pd import seaborn as sns sns.set() iris = sns.load_dataset('iris') titanic = sns.load_dataset('titanic')
print(iris.head()) print(titanic.head())
列を1つ選ぶことで、グループを作り、各グループの要素数を求める
pandas の groupby を使う場合
import pandas as pd import seaborn as sns sns.set() iris = sns.load_dataset('iris') titanic = sns.load_dataset('titanic') print( iris.groupby('species').size() ) print( titanic.groupby('embark_town').size() )
列を1つ選ぶことで、グループを作り、各グループの最大、最小、平均、中央値、和を求める
pandas の groupby を使う場合
import pandas as pd import seaborn as sns sns.set() iris = sns.load_dataset('iris') titanic = sns.load_dataset('titanic') print( iris.groupby('species').max() ) print( titanic.groupby('embark_town').max() ) print( iris.groupby('species').min() ) print( titanic.groupby('embark_town').min() ) print( iris.groupby('species').mean() ) print( titanic.groupby('embark_town').mean() ) print( iris.groupby('species').median() ) print( titanic.groupby('embark_town').median() ) print( iris.groupby('species').sum() ) print( titanic.groupby('embark_town').sum() )