トップページ -> データベース関連技術 -> オープンデータの活用 -> irisデータセット、titanicデータセットの読み込み、散布図、要約統計量、ヒストグラム
[サイトマップへ], [サイト内検索へ]

irisデータセット、titanicデータセットの読み込み、散布図、要約統計量、ヒストグラム

サイト構成 データベース関連技術 データの扱い インストール,設定,利用 プログラミング 情報工学の講義実習資料 サポートページ 連絡先,業績など

[image] 金子邦彦研究室: データベース、人工知能(AI)、データサイエンスの融合により不可能を可能にする


前準備

Python のインストール

Python 用 numpy pandas seaborn matplotlib のインストール

Windows の場合

※ 「py」は,Windows のPythonランチャーAnaconda 3 内の Python などを間違って使ってしまわないように,Pythonランチャーを使って Python を起動している.Ubuntu では「py」でなく「python3」コマンドを使う.

※ 「pip install ...」は,Python パッケージをインストールするための操作.

py -m pip install --upgrade pip
py -m pip install -U numpy pandas seaborn matplotlib

Ubuntu の場合

sudo apt update
sudo apt -yV install python3-numpy python3-pandas python3-seaborn python3-matplotlib

irisデータセット, titanic データセットの読み込み

Python プログラムを動かしたい.

※ Python でグラフや図を表示したい. Windows では,スタートメニューの「IDLE (Python ...)」,spyder3コマンド,PyCharmが便利である.

  1. iris, titanic データの読み込み
    import pandas as pd
    import seaborn as sns
    
    iris = sns.load_dataset('iris')
    titanic = sns.load_dataset('titanic')
    
    

    [image]
  2. 読み込んだ iris データセットの表示
    print(iris) 
    

    [image]
  3. iris データセットのうち、1列目と 2列目の表示

    オブジェクト iris には 0, 1, 2, 3, 4列目がある.

    print(iris.iloc[:,1]) 
    print(iris.iloc[:,2]) 
    

    [image]
  4. iris データセットについて、1列目と 2列目の散布図

    plt.style.use('ggplot')」はグラフの書式の設定.「ro」は「赤い丸」という意味.

    import matplotlib.pyplot as plt
    plt.style.use('ggplot')
    plt.plot(iris.iloc[:,1], iris.iloc[:,2], 'ro')
    plt.show()
    

    [image]
  5. 基本的な情報の表示
    print(iris.head())
    print(iris.info())
    print(iris.shape)
    print(iris.ndim)
    print(iris.columns)
    
    print(titanic.head())
    print(titanic.info())
    print(titanic.shape)
    print(titanic.ndim)
    print(titanic.columns)
    

    [image]

各属性の要約統計量(総数、平均、標準偏差、最小、四分位点、中央値、最大)

import seaborn as sns

iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')


print(iris.describe())
print(titanic.describe())

[image]


ヒストグラムの表示

plt.style.use('ggplot')
plt.hist(iris.iloc[:,1])
plt.show()

plt.style.use('ggplot')
plt.hist(iris.iloc[:,2])
plt.show()

[image]

2次元ヒストグラム

plt.style.use('ggplot')
plt.hist2d(iris.iloc[:,1], iris.iloc[:,2])
plt.show()

[image]

本サイトは金子邦彦研究室のWebページです.サイトマップは,サイトマップのページをご覧下さい. 本サイト内の検索は,サイト内検索のページをご利用下さい.

問い合わせ先: 金子邦彦(かねこ くにひこ) [image]