Iris データセットの次元削減(t-SNE, Isomap, Spectral Embedding, LLE, kernel approximation 法)(Python, scikit-learn を使用)

  1. エグゼクティブサマリー
  2. 前準備(必要ソフトウェアの入手)
  3. 実行のための準備とその確認手順(Windows 前提)
  4. 概要・使い方・実行上の注意
  5. ソースコード
  6. まとめ

1. エグゼクティブサマリー

本記事では,Iris データセットの4次元特徴量を2次元に変換し,散布図で可視化する.使用する次元削減手法は,t-SNE,Isomap,Spectral Embedding,Locally Linear Embedding (LLE),kernel approximation(RBFSampler),PCA の6種類であり,いずれも Python の scikit-learn で実装する.

t-SNE,Isomap,Spectral Embedding,LLE は非線形手法であり,scikit-learn の manifold モジュールに含まれる.kernel approximation は RBF カーネルの近似特徴マップを利用する手法であり,kernel_approximation モジュールに含まれる.PCA は線形手法の代表であり,非線形手法との比較に用いる.scikit-learn の cheat sheet によれば,Isomap や Spectral Embedding で十分な結果が得られないときは LLE が候補になり,データ数が 10000 以上のときは kernel approximation が候補になる.

2. 前準備(必要ソフトウェアの入手)

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール(Windows 上) [クリックして展開]

以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。

方法1:winget によるインストール

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install -e --id Python.Python.3.12 --scope machine --silent --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 AssociateFiles=1 InstallLauncherAllUsers=1"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

方法2:インストーラーによるインストール

  1. Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
  2. ダウンロードしたインストーラーを実行する。
  3. 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
  4. 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

AIエディタ Windsurf のインストール(Windows 上) [クリックして展開]

Pythonプログラムの編集・実行には、AIエディタの利用を推奨する。ここでは、Windsurfのインストールを説明する。Windsurf がインストール済みの場合、この手順は不要である。

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install -e --id Codeium.Windsurf --scope machine --accept-source-agreements --accept-package-agreements --override "/VERYSILENT /NORESTART /MERGETASKS=!runcode,addtopath,associatewithfiles,!desktopicon"
powershell -Command "$env:Path=[System.Environment]::GetEnvironmentVariable('Path','Machine')+';'+[System.Environment]::GetEnvironmentVariable('Path','User'); windsurf --install-extension MS-CEINTL.vscode-language-pack-ja --force; windsurf --install-extension ms-python.python --force; windsurf --install-extension Codeium.windsurfPyright --force"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

必要なライブラリのインストール [クリックして展開]

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

python -m pip install -U pip setuptools numpy pandas matplotlib seaborn scikit-learn scikit-learn-intelex

3. 実行のための準備とその確認手順(Windows 前提)

3.1 プログラムファイルの準備

本記事のプログラムは Jupyter Notebook 形式でセルごとに逐次実行する構成である.第5章のソースコードを順番にセルへ入力して実行する.Windsurf 等のエディタで Jupyter Notebook を新規作成し,iris_dim_reduction.ipynb として保存する(文字コード:UTF-8).

3.2 実行コマンド

Windsurf や Jupyter Notebook の GUI からセルを順に実行する.コマンドプロンプトから起動する場合は,ファイルの保存先ディレクトリに移動し,以下を実行する.

jupyter notebook iris_dim_reduction.ipynb

3.3 動作確認チェックリスト

確認項目期待される結果
Iris データセットの読み込みiris.head() で sepal_length, sepal_width, petal_length, petal_width, species の5列が表示される
データの形と次元の確認iris.shape(150, 5)iris.ndim2 を返す
0, 1, 2, 3 列目の表示iris.iloc[:, 0:4] で 150 行 × 4 列の数値データが表示される
t-SNE による次元削減2次元配列が出力され,3種の花が色分けされた散布図が表示される
Isomap による次元削減同上
Spectral Embedding による次元削減同上
LLE による次元削減同上
kernel approximation による次元削減同上
PCA による次元削減同上

4. 概要・使い方・実行上の注意

4.1 Iris データセット

Iris データセットは seaborn の load_dataset 関数で読み込む.サイズは 150 × 5,次元数は 2 である.最後の列 species は花の種類を表すラベルデータである.次元削減の対象は 0~3 列目(sepal_length, sepal_width, petal_length, petal_width)の4つの数値特徴量であり,これを2次元に変換して散布図で可視化する.

4.2 散布図プロット関数

各手法の結果を可視化するため,共通の関数 scatter_label_plot を定義する.変換後の行列 M の先頭2列を散布図にプロットし,ラベル b で色分けする.

4.3 各次元削減手法

t-SNE:sklearn.manifold.TSNE を使用する.n_components=2 を指定し,fit_transform で変換する.

Isomap:sklearn.manifold.Isomap を使用する.n_components=2, n_neighbors=10 を指定し,fit_transform で変換する.

Spectral Embedding:sklearn.manifold.SpectralEmbedding を使用する.n_components=2, n_neighbors=10 を指定し,fit_transform で変換する.

LLE:sklearn.manifold.LocallyLinearEmbedding を使用する.n_components=2, n_neighbors=10 を指定し,fit_transform で変換する.scikit-learn の cheat sheet によれば,Isomap や Spectral Embedding で十分な結果が得られないときの候補である.

kernel approximation:sklearn.kernel_approximation.RBFSampler を使用する.gamma=1, n_components=2 を指定し,fit_transform で2次元に写像する.scikit-learn の cheat sheet によれば,データ数が 10000 以上のときの候補である.

PCA(線形手法との比較):上記はいずれも非線形手法である.比較のため,線形手法の代表である PCA(主成分分析)を用いる.PCA は分散が最大となる方向に射影する手法であり,計算コストが低く,結果の再現性がある.sklearn.decomposition.PCA を使用し,n_components=2 を指定する.

5. ソースコード

5.1 Iris データセットの読み込み

import pandas as pd
import seaborn as sns
sns.set()
iris = sns.load_dataset('iris')

5.2 データの確認

print(iris.head())

5.3 形と次元の確認

print(iris.shape)
print(iris.ndim)

5.4 Iris データセットの 0, 1, 2, 3 列目の表示

print( iris.iloc[:,0:4] )

5.5 散布図プロット関数の定義

import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt

def scatter_label_plot(M, b, alpha):
    a12 = pd.DataFrame(M[:, 0:2], columns=['a1', 'a2'])
    f = pd.factorize(b)
    a12['target'] = f[0]
    g = sns.scatterplot(x='a1', y='a2', hue='target', data=a12, palette=sns.color_palette("hls", np.max(f[0]) + 1), legend="full", alpha=alpha)
    for i, label in enumerate(f[1]):
        g.legend_.get_texts()[i].set_text(label)
    plt.show()

5.6 t-SNE 法による次元削減

from sklearn.manifold import TSNE
d = TSNE(n_components=2).fit_transform(iris.iloc[:, 0:4])
print(d)
scatter_label_plot(d, iris.iloc[:, 4], 1)

5.7 Isomap 法による次元削減

from sklearn.manifold import Isomap
d = Isomap(n_components=2, n_neighbors=10).fit_transform(iris.iloc[:, 0:4])
print(d)
scatter_label_plot(d, iris.iloc[:, 4], 1)

5.8 Spectral Embedding 法による次元削減

from sklearn.manifold import SpectralEmbedding
d = SpectralEmbedding(n_components=2, n_neighbors=10).fit_transform(iris.iloc[:, 0:4])
print(d)
scatter_label_plot(d, iris.iloc[:, 4], 1)

5.9 LLE 法による次元削減

from sklearn.manifold import LocallyLinearEmbedding
d = LocallyLinearEmbedding(n_components=2, n_neighbors=10).fit_transform(iris.iloc[:, 0:4])
print(d)
scatter_label_plot(d, iris.iloc[:, 4], 1)

5.10 kernel approximation 法による次元削減

from sklearn.kernel_approximation import RBFSampler
d = RBFSampler(gamma=1, n_components=2).fit_transform(iris.iloc[:, 0:4])
print(d)
scatter_label_plot(d, iris.iloc[:, 4], 1)

5.11 PCA 法による次元削減(線形手法との比較)

from sklearn.decomposition import PCA
d = PCA(n_components=2).fit_transform(iris.iloc[:, 0:4])
print(d)
scatter_label_plot(d, iris.iloc[:, 4], 1)

6. まとめ

t-SNE

TSNEn_components=2 を指定し,4次元の Iris データを2次元に変換する.局所的な構造を保持した散布図が得られる非線形手法である.

Isomap

Isomapn_components=2, n_neighbors=10 を指定して次元削減を行う.測地線距離を保持する非線形手法である.

Spectral Embedding と LLE

SpectralEmbeddingLocallyLinearEmbedding をそれぞれ n_components=2, n_neighbors=10 で使用する.Isomap や Spectral Embedding で十分な結果が得られないときは LLE が候補になる.

kernel approximation

RBFSamplergamma=1, n_components=2 を指定し,RBF カーネルの近似特徴マップで2次元に写像する.データ数が 10000 以上のときに候補となる.

PCA(線形手法との比較)

非線形手法との比較のために PCA を使用する.分散が最大となる方向に射影する手法であり,計算コストが低く,結果の再現性がある.