データから要約統計量の算出、分布のプロット(Kaggle の titanic データセットを使用)

サイト内の関連 Web ページ:

前準備

Python の準備(Windows,Ubuntu 上)

サイト内の関連ページ

関連する外部ページPython の公式ページ: https://www.python.org/

Python の scikit-learn のインストール

Iris データセット, titanic データセットの準備

->

Iris データセットの準備

【Python の利用】

Python は,次のコマンドで起動できる.

Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.

Python のまとめ: 別ページ »にまとめ

import pandas as pd
import seaborn as sns
sns.set()

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

属性間の相関 (correlation) (書きかけ)

sns.heatmap(train.corr()) https://www.kaggle.com/helgejo/an-interactive-data-science-tutorial https://www.kaggle.com/c/titanic#tutorials https://www.kaggle.com/sashr07/kaggle-titanic-tutorial https://www.kaggle.com/helgejo/an-interactive-data-science-tutorial https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python https://www.kaggle.com/jeffd23/scikit-learn-ml-from-start-to-finish https://gist.github.com/mwaskom/8224591

文字列を数値に変換

簡単な例

import pandas as pd
x = pd.Series( ['apple', 'orange', 'apple', 'apple'] )
x.map( {'apple': 0, 'orange':1} )