ポケモンデータセット(CSVファイル)の読み込みと散布図(Python, pandas, matplotlib, seaborn を使用)
1. エグゼクティブサマリー
ポケモンデータセット(CSVファイル)の読み込みと散布図の作成を,Python, pandas, matplotlib, seaborn で行う.
本記事で扱う内容は以下のとおりである.
- Pokemon データセット(CSV ファイル)のダウンロードと配置
- pandas による CSV ファイルの読み込みとデータフレームの基本操作(head, shape, ndim, columns, info, describe)
- seaborn による散布図の作成(Attack と Defense の関係を Type 1 で色分け)
- scikit-learn による主成分分析(PCA)プロット
2. 前準備(必要ソフトウェアの入手)
ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。
Python 3.12 のインストール(Windows 上) [クリックして展開]
以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。
方法1:winget によるインストール
管理者権限のコマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。
winget install --id Python.Python.3.12 -e --scope machine --silent --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_test=0 Include_pip=1 Include_launcher=1 InstallLauncherAllUsers=1 TargetDir=\"C:\Program Files\Python312\""
powershell -Command "$p='C:\Program Files\Python312'; $s=\"$p\Scripts\"; $m=[Environment]::GetEnvironmentVariable('Path','Machine'); if($m -notlike \"*$s*\") { [Environment]::SetEnvironmentVariable('Path', \"$p;$s;$m\", 'Machine') }"
--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。
方法2:インストーラーによるインストール
- Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
- ダウンロードしたインストーラーを実行する。
- 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから
pythonコマンドを実行できない。 - 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。
インストールの確認
コマンドプロンプトで以下を実行する。
python --version
バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。
AIエディタ Windsurf のインストール(Windows 上) [クリックして展開]
Pythonプログラムの編集・実行には、AIエディタの利用を推奨する。ここでは、Windsurfのインストールを説明する。Windsurf がインストール済みの場合、この手順は不要である。
管理者権限のコマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。
winget install --scope machine --id Codeium.Windsurf -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --custom "/SP- /SUPPRESSMSGBOXES /NORESTART /CLOSEAPPLICATIONS /DIR=""C:\Program Files\Windsurf"" /MERGETASKS=!runcode,addtopath,associatewithfiles,!desktopicon"
powershell -Command "$env:Path=[System.Environment]::GetEnvironmentVariable('Path','Machine')+';'+[System.Environment]::GetEnvironmentVariable('Path','User'); windsurf --install-extension MS-CEINTL.vscode-language-pack-ja --force; windsurf --install-extension ms-python.python --force; windsurf --install-extension Codeium.windsurfPyright --force"
--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。
【関連する外部ページ】
Windsurf の公式ページ: https://windsurf.com/
Git のインストール(Windows 上) [クリックして展開]
管理者権限のコマンドプロンプトで以下を実行する.管理者権限は,winget の --scope machine オプションでシステム全体にインストールするために必要となる.
REM Git をシステム領域にインストール
winget install --scope machine --id Git.Git -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --override "/VERYSILENT /NORESTART /NOCANCEL /SP- /CLOSEAPPLICATIONS /RESTARTAPPLICATIONS /COMPONENTS=""icons,ext\reg\shellhere,assoc,assoc_sh"" /o:PathOption=Cmd /o:CRLFOption=CRLFCommitAsIs /o:BashTerminalOption=MinTTY /o:DefaultBranchOption=main /o:EditorOption=VIM /o:SSHOption=OpenSSH /o:UseCredentialManager=Enabled /o:PerformanceTweaksFSCache=Enabled /o:EnableSymlinks=Disabled /o:EnableFSMonitor=Disabled"
必要なライブラリのインストール [クリックして展開]
pip install -U numpy pandas matplotlib seaborn scikit-learn
3. 実行のための準備とその確認手順(Windows 前提)
3.1 プログラムファイルの準備
第5章のソースコードをテキストエディタ(メモ帳,Windsurf 等)で pokemon_analysis.py として保存する(文字コード:UTF-8).Jupyter Notebook の場合は,各コードブロックを順にセルへ入力して実行する.
3.2 実行コマンド
コマンドプロンプトでファイルの保存先ディレクトリに移動し,以下を実行する.
python pokemon_analysis.py
コード中の %matplotlib inline は Jupyter Notebook 専用のマジックコマンドである.スクリプト実行時はこの行を削除またはコメントアウトする.
3.3 動作確認チェックリスト
| 確認項目 | 期待される結果 |
|---|---|
| CSV ファイルの配置 | C:\data\pokemon.csv が存在する |
| CSV ファイルの読み込み | pd.read_csv がエラーなく完了し,データフレーム pokemon が生成される |
pokemon.head() | 先頭5行のデータが表示される |
pokemon.shape | 行数と列数がタプルで表示される |
pokemon.describe() | 各数値属性の件数,平均,標準偏差,最小値,四分位数,最大値が表示される |
| seaborn 散布図 | Attack と Defense の関係を Type 1 で色分けした散布図が表示される |
| 主成分分析プロット | PCA の結果が Type 1 で色分けされた散布図として表示される |
4. 概要・使い方・実行上の注意
Pokemon データセットの準備
Windows では,次のように操作する.
- データディレクトリの作成
mkdir c:\data
- カレントディレクトリの移動とデータのダウンロード
cd C:\data git clone https://gist.github.com/armgilles/194bcff35001e7eb53a2a8b441e8b2c6 move 194bcff35001e7eb53a2a8b441e8b2c6\pokemon.csv .
CSV ファイル pokemon.csv がデータディレクトリに作成される.
データフレームの基本操作
pandas で読み込んだデータフレームでは,以下の属性・メソッドが使用できる.
- head: 先頭部分の表示
- shape: サイズ
- ndim: 次元数
- columns: 属性名
- info(): 各属性のデータ型
describe() で各数値属性の件数,平均,標準偏差,最小値,四分位数,最大値を確認できる.
散布図の作成
seaborn の scatterplot で,Attack(攻撃力)と Defense(防御力)の関係を Type 1(タイプ1)で色分けして表示する.
主成分分析プロット
scikit-learn の PCA で数値属性を2つの主成分に次元削減し,Type 1 で色分けした散布図として描画する.
5. ソースコード
CSV ファイルの読み込み
import pandas as pd
pokemon = pd.read_csv("C:/data/pokemon.csv")
データの確認
print(pokemon.head())
基本的な情報の表示
print(pokemon.head())
print(pokemon.info())
print(pokemon.shape)
print(pokemon.ndim)
print(pokemon.columns)
基本統計量の表示
print(pokemon.describe())
seaborn による散布図
import seaborn as sns
import matplotlib.pyplot as plt
sns.scatterplot(x='Attack', y='Defense', hue='Type 1', data=pokemon, alpha=0.6)
plt.title('Attack vs Defense by Type 1')
plt.show()
主成分分析プロットの前準備
import numpy as np
import seaborn as sns
import sklearn.decomposition
%matplotlib inline
import matplotlib.pyplot as plt
def prin(A, n):
pca = sklearn.decomposition.PCA(n_components=n)
return pca.fit_transform(A)
def prin2(A):
return prin(A, 2)
def scatter_label_plot(M, b, alpha):
a12 = pd.DataFrame(M[:, 0:2], columns=['a1', 'a2'])
f = pd.factorize(b)
a12['target'] = f[0]
g = sns.scatterplot(x='a1', y='a2', hue='target', data=a12, palette=sns.color_palette("hls", np.max(f[0]) + 1), legend="full", alpha=alpha)
labels = f[1]
for i, label in enumerate(labels):
g.legend_.get_texts()[i].set_text(label)
plt.show()
def pcaplot(A, b, alpha):
scatter_label_plot(prin2(A), b, alpha)
主成分分析プロット
X = pokemon.iloc[:, 4:7].to_numpy()
y = pokemon.iloc[:, 2]
pcaplot(X, y, 0.4)
6. まとめ
pandas による CSV ファイルの読み込み
pd.read_csv で CSV ファイルを読み込み,データフレームとして扱う.head, shape, ndim, columns, info(), describe() でデータの構造や基本統計量を確認できる.
seaborn による散布図
seaborn の scatterplot で,2つの数値属性の関係をカテゴリ(Type 1)で色分けして可視化する.
scikit-learn による主成分分析(PCA)
sklearn.decomposition.PCA で数値データを2つの主成分に次元削減し,散布図としてプロットする.
Pokemon データセット
Pokemon データセットは CSV 形式で提供され,各ポケモンの名前,タイプ,各種ステータス(HP, Attack, Defense, Sp. Atk, Sp. Def, Speed),世代,伝説かどうかの情報を含む.git clone で取得できる.