Pandas データフレームの表示,形,次元数の確認(Python, pandas, Iris データセットを使用)(Google Colaboratory へのリンク有り)
1. エグゼクティブサマリー
本記事では,Python の pandas ライブラリと seaborn ライブラリを使用して,Iris データセットをデータフレームとして読み込み,その表示,形(shape),次元数(ndim)を確認する方法を扱う.さらに,データフレームの特定列の抽出,基本統計量の確認,データ型の確認までを段階的に示す.
https://colab.research.google.com/drive/12kH4Dcu501SffT60TjbnwUQA752hlyuD?usp=sharing
2. 前準備(必要ソフトウェアの入手)
ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。
Python 3.12 のインストール(Windows 上) [クリックして展開]
以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。
方法1:winget によるインストール
管理者権限のコマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。
winget install --scope machine --id Python.Python.3.12 -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_pip=1 Include_test=0 Include_launcher=1 InstallLauncherAllUsers=1"
--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。
方法2:インストーラーによるインストール
- Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
- ダウンロードしたインストーラーを実行する。
- 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから
pythonコマンドを実行できない。 - 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。
インストールの確認
コマンドプロンプトで以下を実行する。
python --version
バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。
AIエディタ Windsurf のインストール(Windows 上) [クリックして展開]
Pythonプログラムの編集・実行には、AIエディタの利用を推奨する。ここでは、Windsurfのインストールを説明する。Windsurf がインストール済みの場合、この手順は不要である。
管理者権限のコマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。
winget install --scope machine --id Codeium.Windsurf -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --custom "/SP- /SUPPRESSMSGBOXES /NORESTART /CLOSEAPPLICATIONS /DIR=""C:\Program Files\Windsurf"" /MERGETASKS=!runcode,addtopath,associatewithfiles,!desktopicon"
powershell -Command "$env:Path=[System.Environment]::GetEnvironmentVariable('Path','Machine')+';'+[System.Environment]::GetEnvironmentVariable('Path','User'); windsurf --install-extension MS-CEINTL.vscode-language-pack-ja --force; windsurf --install-extension ms-python.python --force; windsurf --install-extension Codeium.windsurfPyright --force"
--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。
【関連する外部ページ】
Windsurf の公式ページ: https://windsurf.com/
必要なライブラリのインストール [クリックして展開]
管理者権限のコマンドプロンプトで以下を実行する.管理者権限のコマンドプロンプトを起動するには,Windows キーまたはスタートメニューから「cmd」と入力し,表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する.
python -m pip install -U pip setuptools numpy pandas matplotlib seaborn scikit-learn scikit-learn-intelex
3. 実行のための準備とその確認手順(Windows 前提)
3.1 プログラムファイルの準備
第5章に掲載するソースコードをテキストエディタ(メモ帳,Windsurf 等)に貼り付け,iris_check.py として保存する(文字コード:UTF-8).
3.2 実行コマンド
コマンドプロンプトでファイルの保存先ディレクトリに移動し,以下を実行する.
python iris_check.py
3.3 動作確認チェックリスト
| 確認項目 | 期待される結果 |
|---|---|
| Iris データセットの読み込み | エラーなく実行が完了し,データフレームが生成される |
| 先頭5行の表示(head()) | sepal_length, sepal_width, petal_length, petal_width, species の5列が表示される |
| 形の確認(shape) | (150, 5) と表示される |
| 次元数の確認(ndim) | 2 と表示される |
| 0〜3列目の表示(iloc[:, 0:4]) | sepal_length, sepal_width, petal_length, petal_width の4列・150行が表示される |
| 基本統計量の表示(describe()) | count, mean, std, min, 25%, 50%, 75%, max の統計量が表示される |
| データ型の確認(dtypes) | 各列のデータ型(float64, object 等)が表示される |
4. 概要・使い方・実行上の注意
本プログラムでは,seaborn ライブラリに付属する Iris データセットをデータフレームとして読み込み,以下の操作を順に行う.
まず sns.load_dataset('iris') により Iris データセットを pandas のデータフレームとして取得する.次に head() メソッドで先頭5行を表示し,データの内容を確認する.
データフレームの形:サイズは 150 × 5.次元数は 2.最後の列(species)は花の種類を表すデータである.shape 属性でデータフレームの行数と列数を,ndim 属性で次元数を確認できる.
iloc[:, 0:4] を使用すると,データフレームの 0, 1, 2, 3 列目(sepal_length, sepal_width, petal_length, petal_width)のみを抽出して表示できる.
describe() メソッドにより,各数値列の基本統計量(件数,平均値,標準偏差,最小値,四分位数,最大値)を一覧で確認できる.dtypes 属性により,各列のデータ型を確認できる.
本プログラムは Google Colaboratory 上でも実行できる.Google Colaboratory を使用する場合は,Python や各ライブラリのインストールは不要である.
5. ソースコード
以下に,Iris データセットの読み込みからデータフレームの各種確認までを行うソースコード全体を示す.
import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')
print(iris.head())
print(iris.shape)
print(iris.ndim)
print(iris.iloc[:, 0:4])
print(iris.describe())
print(iris.dtypes)
6. まとめ
Iris データセットの読み込み
seaborn の load_dataset('iris') を使用することで,Iris データセットを pandas のデータフレームとして取得できる.
データフレームの先頭行の確認
head() メソッドにより,データフレームの先頭5行を表示してデータの内容を確認できる.
形と次元数の確認
データフレームの shape 属性でサイズ(150 × 5)を,ndim 属性で次元数(2)を確認できる.
特定列の抽出
iloc[:, 0:4] を使用すると,データフレームの 0, 1, 2, 3 列目を抽出して表示できる.
基本統計量とデータ型の確認
describe() で各数値列の基本統計量を,dtypes で各列のデータ型を確認できる.