データから要約統計量の算出、分布のプロット(Kaggle の titanic データセットを使用)
サイト内の関連 Web ページ:
前準備
Python の準備(Windows,Ubuntu 上)
- Windows での Python 3.10,関連パッケージ,Python 開発環境のインストール(winget を使用しないインストール): 別ページ »で説明
- Ubuntu では,システム Pythonを使うことができる.Python3 開発用ファイル,pip, setuptools のインストール: 別ページ »で説明
【サイト内の関連ページ】
- Python のまとめ: 別ページ »にまとめ
- Google Colaboratory の使い方など: 別ページ »で説明
【関連する外部ページ】 Python の公式ページ: https://www.python.org/
Python の scikit-learn のインストール
- Windows の場合
Windows では,コマンドプロンプトを管理者として実行し, 次のコマンドを実行する.
python -m pip install -U numpy pandas seaborn matplotlib
- Ubuntu の場合
端末で,次のコマンドを実行
sudo apt -y update sudo apt -y install python3-numpy python3-pandas python3-seaborn python3-matplotlib
Iris データセット, titanic データセットの準備
->Iris データセットの準備
【Python の利用】
Python は,次のコマンドで起動できる.
Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.
Python のまとめ: 別ページ »にまとめ
import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

属性間の相関 (correlation) (書きかけ)
sns.heatmap(train.corr()) https://www.kaggle.com/helgejo/an-interactive-data-science-tutorial https://www.kaggle.com/c/titanic#tutorials https://www.kaggle.com/sashr07/kaggle-titanic-tutorial https://www.kaggle.com/helgejo/an-interactive-data-science-tutorial https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python https://www.kaggle.com/jeffd23/scikit-learn-ml-from-start-to-finish https://gist.github.com/mwaskom/8224591文字列を数値に変換
簡単な例
import pandas as pd
x = pd.Series( ['apple', 'orange', 'apple', 'apple'] )
x.map( {'apple': 0, 'orange':1} )
