Iris データセットの主成分分析プロット（Python，matplotlib，seaborn を使用）

1. サマリー

Iris データセットに主成分分析を適用し，第1主成分スコアと第2主成分スコアの散布図を作成する．Python の matplotlib，seaborn，scikit-learn を使用する．

主成分分析は次元削減の手法のひとつである．数値属性の個数を「次元」と呼ぶ．たとえば，「5.1 3.5 1.4 0.2」という4つの数値属性を持つ花のデータは4次元である．元のデータの類似性を保ったまま，より少ない個数の数値属性に変換することを次元削減という．

Google Colaboratory のページ:

次のリンクをクリックすると，Google Colaboratory のノートブックが開く．Google アカウントでログインすると，ノートブック内のコード等を編集・再実行できる．編集しても他の利用者には影響しない．編集後のものを各自の Google ドライブ内に保存することもできる．

https://colab.research.google.com/drive/1nWjnjxgPrldV75OCUcp3RFEV_baeCs4D?usp=sharing

Python 3.12 のインストール

Pythonのインストールを行い、Pythonのプログラムを実行する環境を整える。扱う環境は、Windows搭載パソコンである。金子研究室では、Python 3.12.10を推奨する。

[Windows での Python 3.12 のインストール手順を見るには、ここをクリック]

Windows での Python 3.12 のインストール

以下のいずれかの方法でPython 3.12をインストールする。Pythonがインストール済みの場合、この手順は不要である。

方法 1：winget によるインストール

【インストールコマンドの実行方法】

管理者権限でコマンドプロンプトを起動する（手順：Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」）。そして、コマンド全体をコマンドプロンプトにコピー＆ペーストする。

--scope machine を指定することで、システム全体（全ユーザー向け）にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動するとPATHが反映される。

REM Python 3.12 をシステム領域にインストール
winget install --id Python.Python.3.12 -e --scope machine --silent --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_test=0 Include_pip=1 Include_launcher=1 InstallLauncherAllUsers=1 TargetDir=\"C:\Program Files\Python312\""

REM Python と Scripts を PATH 先頭に追加
powershell -NoProfile -Command "$p='C:\Program Files\Python312'; $s=\"$p\Scripts\"; $c=[Environment]::GetEnvironmentVariable('Path','Machine'); if((Test-Path $p) -and (';'+$c+';' -notlike \"*;$p;*\") -and (';'+$c+';' -notlike \"*;$s;*\")){[Environment]::SetEnvironmentVariable('Path',\"$p;$s;$c\",'Machine')}"

方法 2：インストーラーによるインストール

Python公式サイト（https://www.python.org/downloads/）にアクセスし、「Download Python 3.x.x」ボタンからWindows用インストーラーをダウンロードする。
ダウンロードしたインストーラーを実行する。
初期画面の下部に表示される「Add python.exe to PATH」にチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号（例：Python 3.12.x）が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

Python の開発環境 Visual Studio Code のインストールと Python 用の設定

Python の開発環境Visual Studio Code（プログラムを編集するソフトウェア。以下、VS Code）を整える。

[Windows での Visual Studio Code のインストールと Python 用の設定手順を見るには、ここをクリック]

Windows での Visual Studio Code のインストールと Python 用の設定手順

1. VS Code と拡張機能のインストール

以下のコマンドにより，既存の VS Code を削除し，全ユーザー共有の設定で再インストールしたうえで，拡張機能（VS Code に機能を追加するソフトウェア）をまとめて導入する．

【インストールコマンドの実行方法】

管理者権限でコマンドプロンプトを起動する（手順：Windows キーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」）。そして，コマンド全体をコマンドプロンプトにコピー＆ペーストする。

インストールコマンド


REM ============================================================
REM Microsoft Visual Studio Code
REM ============================================================
winget uninstall -e --id Microsoft.VisualStudioCode --silent --disable-interactivity --accept-source-agreements
rmdir /s /q C:\ProgramData\vscode-extensions 2>nul
rmdir /s /q "%APPDATA%\Code" 2>nul
rmdir /s /q "%USERPROFILE%\.vscode" 2>nul
rmdir /s /q "%LOCALAPPDATA%\Microsoft\vscode-update" 2>nul

REM VS Code をシステム領域に新規インストール
winget install --scope machine --id Microsoft.VisualStudioCode -e --silent --accept-source-agreements --accept-package-agreements

REM 全ユーザー共有の拡張機能フォルダ
mkdir C:\ProgramData\vscode-extensions 2>nul
icacls "C:\ProgramData\vscode-extensions" /grant "Everyone:(OI)(CI)M" /T

REM スタートメニューのショートカットを --extensions-dir 付きで再作成
rmdir /s /q "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code" 2>nul
del "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code.lnk" 2>nul
powershell -NoProfile -Command "$s=New-Object -ComObject WScript.Shell; $lnk=$s.CreateShortcut('C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code.lnk'); $lnk.TargetPath='C:\Program Files\Microsoft VS Code\Code.exe'; $lnk.Arguments='--extensions-dir \"C:\ProgramData\vscode-extensions\"'; $lnk.Save()"
REM ショートカットの検証
powershell -NoProfile -Command "$s=New-Object -ComObject WScript.Shell; $lnk=$s.CreateShortcut('C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code.lnk'); Write-Host 'TargetPath:' $lnk.TargetPath; Write-Host 'Arguments:' $lnk.Arguments"

REM ファイル / フォルダ右クリックの「Code で開く」を登録
reg add "HKLM\SOFTWARE\Classes\*\shell\VSCode\command" /ve /d "\"C:\Program Files\Microsoft VS Code\Code.exe\" --extensions-dir \"C:\ProgramData\vscode-extensions\" \"%1\"" /f
reg add "HKLM\SOFTWARE\Classes\Directory\shell\VSCode\command" /ve /d "\"C:\Program Files\Microsoft VS Code\Code.exe\" --extensions-dir \"C:\ProgramData\vscode-extensions\" \"%1\"" /f
reg add "HKLM\SOFTWARE\Classes\Directory\Background\shell\VSCode\command" /ve /d "\"C:\Program Files\Microsoft VS Code\Code.exe\" --extensions-dir \"C:\ProgramData\vscode-extensions\" \"%V\"" /f

REM --extensions-dir 付きで起動する code.cmd ラッパを作成
REM （%* を echo で書くと対話的 cmd で失われるため、PowerShell で [char]37+'*' を書き出す）
powershell -NoProfile -Command "$pct=[char]37; $q=[char]34; $c='@echo off'+[char]13+[char]10+$q+'C:\Program Files\Microsoft VS Code\bin\code.cmd'+$q+' --extensions-dir '+$q+'C:\ProgramData\vscode-extensions'+$q+' '+$pct+'*'+[char]13+[char]10; [IO.File]::WriteAllText('C:\ProgramData\vscode-extensions\vscode.cmd',$c,[Text.Encoding]::ASCII)"

REM 拡張機能のインストール
set "CODE=C:\Program Files\Microsoft VS Code\bin\code.cmd"
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --uninstall-extension GitHub.copilot
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --uninstall-extension GitHub.copilot-chat
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension ms-python.python
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension ms-python.vscode-pylance
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension ms-python.debugpy
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension MS-CEINTL.vscode-language-pack-ja
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension saoudrizwan.claude-dev
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension rust-lang.rust-analyzer
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension tamasfe.even-better-toml
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension anthropic.claude-code
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension almenon.arepl
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --list-extensions --show-versions
echo === セットアップ完了 ===

2. Python インタプリタの選択

同一マシンに複数の Python がインストールされている場合，VS Code で使用する Python 本体（インタプリタ：Python プログラムを解釈・実行するソフトウェア）を選択する必要がある．

コマンドパレット（コマンド名で機能を呼び出す VS Code の入力欄）を開く（Ctrl+Shift+P）
Python: Select Interpreter と入力する
表示される一覧から，使用する Python（例：C:\Program Files\Python312\python.exe）を選択する．

Python プログラム実行手順

[Windows での Python プログラム実行手順を見るには、ここをクリック]

Windows での Python 実行手順（Visual Studio Codeを使用）

プログラムファイルの作成と保存

左サイドバーの「エクスプローラー」アイコン（Ctrl+Shift+E）をクリックする
「NO FOLDER OPENED」（作業対象フォルダが未選択の状態）と表示される場合は，「Open Folder」をクリックし，プログラムを保存するフォルダを選択する

続いて「フォルダを信用するか」を確認する画面（フォルダ内のコードを実行してよいか確認する VS Code の仕組み）が表示されるので，チェックして Yes を選択する
フォルダ名の右側に表示される「新しいファイル」アイコンをクリックする
ファイル名（例：aitask.py．ファイル名は何でも良い）を入力し Enter を押す．拡張子は .py（Python ファイルを示す拡張子）とする
実行したいコードを選択し，Ctrl+C でコピーする．VS Code のエディタ領域に Ctrl+V で貼り付ける
Ctrl+S で保存する

プログラムの実行

エディタ右上の三角形「▷」アイコン（Run Python File：現在開いている Python ファイルを実行するボタン）をクリックする．または，エディタ上で右クリックし「ターミナルで Python ファイルを実行」を選択する
VS Code 下部のターミナル（コマンドの入出力を表示する画面）に，実行結果（print 関数の出力等）が表示される
tkinter（Python 標準の GUI ライブラリ）のファイル選択ダイアログを使うプログラムを実行した場合は，ダイアログが開くので対象画像を選択する
VS Code 下部のターミナルで実行結果を確認する．OpenCV ウィンドウ（OpenCV が画像を表示するために開く専用ウィンドウ）が開いた場合はそちらも確認する．OpenCV ウィンドウは，マウスクリックでウィンドウをアクティブ（操作対象の状態）にしてからキーを押すと終了する

numpy，pandas，matplotlib，seaborn，scikit-learn のインストール [クリックして展開]

管理者権限のコマンドプロンプトで以下を実行する．管理者権限のコマンドプロンプトを起動するには，Windows キーまたはスタートメニューから「cmd」と入力し，表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する．

python -m pip install -U numpy pandas matplotlib seaborn scikit-learn scikit-learn-intelex

3. 実行のための準備とその確認手順（Windows 前提）

3.1 プログラムファイルの準備

第5章に掲載するソースコードをテキストエディタ（Visual Studio Codeやメモ帳など）に貼り付け，iris_pca.py として保存する（文字コード：UTF-8）．%matplotlib inline は Jupyter Notebook / Google Colaboratory 用のマジックコマンドであるため，Python スクリプトとして実行する場合はこの行を削除する．

3.2 実行コマンド

コマンドプロンプトでファイルの保存先ディレクトリに移動し，以下を実行する．

python iris_pca.py

3.3 動作確認チェックリスト

確認項目	期待される結果
Iris データセットの読み込み	`sns.load_dataset('iris')` により DataFrame が取得され，`iris.head()` で先頭5行が表示される
データの形の確認	`iris.shape` が `(150, 5)`，`iris.ndim` が `2` と表示される
0〜3列目の表示	`iris.iloc[:,0:4]` により sepal_length，sepal_width，petal_length，petal_width の4列150行分が表示される
主成分分析プロットの表示	`pcaplot(X, y, 0.4)` により，3種類の花が色分けされた散布図が表示され，軸ラベルに寄与率が付記される
寄与率の確認	各主成分の寄与率と累積寄与率が数値で表示される

4. 概要・使い方・実行上の注意

4.1 Iris データセットの概要

Iris データセットは150件の花のデータから構成される．各データは sepal_length，sepal_width，petal_length，petal_width の4つの数値属性と，花の種類を表す species 列を持つ．データの形は 150 行 × 5 列である．

4.2 主成分分析プロットの動作

Iris データセットの0, 1, 2, 3列目（4つの数値属性）について，主成分分析により 150 × 4 のデータを 150 × 2 のデータに変換する．変換後の第1主成分スコアと第2主成分スコアを散布図としてプロットする．散布図では花の種類（setosa，versicolor，virginica）ごとに色分けされ，各軸のラベルに寄与率が表示される．

4.3 寄与率

各主成分がデータ全体の分散をどの程度説明するかを示す値を寄与率（explained variance ratio）という．寄与率を確認することで，次元削減後にどの程度の情報が保持されているかを把握できる．

4.4 Google Colaboratory での実行

本記事のコードは Google Colaboratory 上でも実行できる．%matplotlib inline は Jupyter Notebook / Google Colaboratory 用のマジックコマンドであり，ノートブック内にグラフを表示するために使用する．

5. ソースコード

5.1 Iris データセットの読み込みと確認

import pandas as pd
import seaborn as sns
sns.set_theme()
iris = sns.load_dataset('iris')

print(iris.head())

print(iris.shape)

print( iris.iloc[:,0:4] )

5.2 主成分分析プロットの前準備

import numpy as np
import sklearn.decomposition
%matplotlib inline
import matplotlib.pyplot as plt

def pca_transform(A, n):
    """主成分分析により n 個の成分に次元削減する"""
    pca = sklearn.decomposition.PCA(n_components=n)
    transformed = pca.fit_transform(A)
    return transformed, pca

def scatter_label_plot(M, b, alpha, xlabel='PC1', ylabel='PC2'):
    """M の最初の2列を，b で色分けしてプロットする"""
    a12 = pd.DataFrame(M[:, 0:2], columns=['a1', 'a2'])
    codes, labels = pd.factorize(b)
    a12['target'] = codes
    g = sns.scatterplot(
        x='a1', y='a2', hue='target', data=a12,
        palette=sns.color_palette("hls", len(labels)),
        legend="full", alpha=alpha
    )
    for i, label in enumerate(labels):
        g.legend_.get_texts()[i].set_text(label)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.show()

def pcaplot(A, b, alpha):
    """主成分分析を行い，第1・第2主成分スコアをプロットする"""
    transformed, pca = pca_transform(A, 2)
    r = pca.explained_variance_ratio_
    scatter_label_plot(
        transformed, b, alpha,
        xlabel=f'PC1 ({r[0]:.2%})',
        ylabel=f'PC2 ({r[1]:.2%})'
    )

5.3 主成分分析プロットの実行

X = iris.iloc[:,0:4].to_numpy()
y = iris.iloc[:,4]

pcaplot(X, y, 0.4)

5.4 寄与率の確認

pca = sklearn.decomposition.PCA(n_components=2)
pca.fit(X)
print("各主成分の寄与率:", pca.explained_variance_ratio_)
print("累積寄与率:", np.sum(pca.explained_variance_ratio_))

6. まとめ

6.1 次元と次元削減

数値属性の個数を「次元」と呼ぶ．元のデータの類似性を保ったまま，より少ない個数の数値属性に変換することを次元削減という．

6.2 主成分分析

主成分分析は次元削減の手法のひとつである．本記事では Iris データセットの4つの数値属性（150 × 4）を，2つの主成分スコア（150 × 2）に変換した．

6.3 主成分分析プロット

第1・第2主成分スコアを散布図としてプロットすることで，データの分布構造を視覚的に確認できる．花の種類ごとに色分けすることで，種類間の分離の程度を把握できる．

6.4 寄与率

各主成分がデータ全体の分散をどの程度説明するかを示す値を寄与率（explained variance ratio）という．次元削減後にどの程度の情報が保持されているかを把握できる．

6.5 Iris データセット

Iris データセットは150件の花のデータから構成され，4つの数値属性と花の種類を表す species 列を持つ．主成分分析の動作確認に用いられるデータセットのひとつである．