Pandas データフレームの表示,形,次元数の確認(Python, pandas, Iris データセットを使用)(Google Colaboratory へのリンク有り)

1. エグゼクティブサマリー

本記事では,Python の pandas ライブラリと seaborn ライブラリを使用して,Iris データセットをデータフレームとして読み込み,その表示,形(shape),次元数(ndim)を確認する方法を扱う.さらに,データフレームの特定列の抽出,基本統計量の確認,データ型の確認までを段階的に示す.

Google Colaboratory のページ:
次のリンクをクリックすると,Google Colaboratoryノートブックが開く. そして,Google アカウントでログインすると,Google Colaboratory のノートブック内のコード等を編集したり再実行したりができる.編集した場合でも,他の人に影響が出たりということはない.そして,編集後のものを,各自の Google ドライブ内に保存することもできる.

https://colab.research.google.com/drive/12kH4Dcu501SffT60TjbnwUQA752hlyuD?usp=sharing

2. 前準備(必要ソフトウェアの入手)

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール(Windows 上) [クリックして展開]

以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。

方法1:winget によるインストール

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --scope machine --id Python.Python.3.12 -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_pip=1 Include_test=0 Include_launcher=1 InstallLauncherAllUsers=1"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

方法2:インストーラーによるインストール

  1. Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
  2. ダウンロードしたインストーラーを実行する。
  3. 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
  4. 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

AIエディタ Windsurf のインストール(Windows 上) [クリックして展開]

Pythonプログラムの編集・実行には、AIエディタの利用を推奨する。ここでは、Windsurfのインストールを説明する。Windsurf がインストール済みの場合、この手順は不要である。

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --scope machine --id Codeium.Windsurf -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --custom "/SP- /SUPPRESSMSGBOXES /NORESTART /CLOSEAPPLICATIONS /DIR=""C:\Program Files\Windsurf"" /MERGETASKS=!runcode,addtopath,associatewithfiles,!desktopicon"
powershell -Command "$env:Path=[System.Environment]::GetEnvironmentVariable('Path','Machine')+';'+[System.Environment]::GetEnvironmentVariable('Path','User'); windsurf --install-extension MS-CEINTL.vscode-language-pack-ja --force; windsurf --install-extension ms-python.python --force; windsurf --install-extension Codeium.windsurfPyright --force"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

必要なライブラリのインストール [クリックして展開]

管理者権限コマンドプロンプトで以下を実行する.管理者権限のコマンドプロンプトを起動するには,Windows キーまたはスタートメニューから「cmd」と入力し,表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する.

python -m pip install -U pip setuptools numpy pandas matplotlib seaborn scikit-learn scikit-learn-intelex

3. 実行のための準備とその確認手順(Windows 前提)

3.1 プログラムファイルの準備

第5章に掲載するソースコードをテキストエディタ(メモ帳,Windsurf 等)に貼り付け,iris_check.py として保存する(文字コード:UTF-8).

3.2 実行コマンド

コマンドプロンプトでファイルの保存先ディレクトリに移動し,以下を実行する.

python iris_check.py

3.3 動作確認チェックリスト

確認項目期待される結果
Iris データセットの読み込みエラーなく実行が完了し,データフレームが生成される
先頭5行の表示(head())sepal_length, sepal_width, petal_length, petal_width, species の5列が表示される
形の確認(shape)(150, 5) と表示される
次元数の確認(ndim)2 と表示される
0〜3列目の表示(iloc[:, 0:4])sepal_length, sepal_width, petal_length, petal_width の4列・150行が表示される
基本統計量の表示(describe())count, mean, std, min, 25%, 50%, 75%, max の統計量が表示される
データ型の確認(dtypes)各列のデータ型(float64, object 等)が表示される

4. 概要・使い方・実行上の注意

本プログラムでは,seaborn ライブラリに付属する Iris データセットをデータフレームとして読み込み,以下の操作を順に行う.

まず sns.load_dataset('iris') により Iris データセットを pandas のデータフレームとして取得する.次に head() メソッドで先頭5行を表示し,データの内容を確認する.

データフレームの形:サイズは 150 × 5.次元数は 2.最後の列(species)は花の種類を表すデータである.shape 属性でデータフレームの行数と列数を,ndim 属性で次元数を確認できる.

iloc[:, 0:4] を使用すると,データフレームの 0, 1, 2, 3 列目(sepal_length, sepal_width, petal_length, petal_width)のみを抽出して表示できる.

describe() メソッドにより,各数値列の基本統計量(件数,平均値,標準偏差,最小値,四分位数,最大値)を一覧で確認できる.dtypes 属性により,各列のデータ型を確認できる.

本プログラムは Google Colaboratory 上でも実行できる.Google Colaboratory を使用する場合は,Python や各ライブラリのインストールは不要である.

5. ソースコード

以下に,Iris データセットの読み込みからデータフレームの各種確認までを行うソースコード全体を示す.

import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')

print(iris.head())

print(iris.shape)
print(iris.ndim)

print(iris.iloc[:, 0:4])

print(iris.describe())

print(iris.dtypes)

6. まとめ

Iris データセットの読み込み

seaborn の load_dataset('iris') を使用することで,Iris データセットを pandas のデータフレームとして取得できる.

データフレームの先頭行の確認

head() メソッドにより,データフレームの先頭5行を表示してデータの内容を確認できる.

形と次元数の確認

データフレームの shape 属性でサイズ(150 × 5)を,ndim 属性で次元数(2)を確認できる.

特定列の抽出

iloc[:, 0:4] を使用すると,データフレームの 0, 1, 2, 3 列目を抽出して表示できる.

基本統計量とデータ型の確認

describe() で各数値列の基本統計量を,dtypes で各列のデータ型を確認できる.