データ前処理の例:欠損値補完とMinMaxスケーリング
【概要】scikit-learnを使用。データ前処理として、欠損値補完とMinMaxスケーリングを実行し、データの変化を観察。機械学習での前処理の重要性を確認する。

目次
概要
基本概念: 欠損値とは観測されなかった値であり、分析結果に偏りを生じさせる可能性がある。MinMaxスケーリングとは変数を指定された範囲(通常0-1)に変換するスケーリング手法である。
前処理の必要性: 機械学習アルゴリズムは数値データを前提とし、欠損値や異なるスケールの変数が存在すると計算が不安定になるため、前処理が必要となる。
技術的特徴: scikit-learnのデータ前処理機能として、欠損値処理、スケーリングなどの機能が提供される。本実習では欠損値補完(平均値)とMinMaxスケーリング(0-1変換)を実装する。
適用条件: MinMaxScalerは外れ値に敏感であり、データに極端な値が含まれる場合は結果が歪む。そのような場合は他のスケーリング手法の使用を検討する。
学習目標: 欠損値の影響とスケーリング前後での数値分布の変化を数値的に確認し、異なるスケーリング手法の効果を比較検証する。
論文: Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825-2830.
事前準備
Python, Windsurfをインストールしていない場合の手順(インストール済みの場合は実行不要)。
- 管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。
- 以下のコマンドをそれぞれ実行する(winget コマンドは1つずつ実行)。
REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Windsurf をシステム領域にインストール
winget install --scope machine --id Codeium.Windsurf -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul
REM Windsurf のパス設定
set "WINDSURF_PATH=C:\Program Files\Windsurf"
if exist "%WINDSURF_PATH%" (
echo "%PATH%" | find /i "%WINDSURF_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%WINDSURF_PATH%" /M >nul
)
必要なライブラリのインストール
コマンドプロンプトを管理者として実行(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する:
pip install pandas numpy scikit-learn
プログラムコードと実行結果
# 欠損値補完とMinMaxスケーリングによるデータ前処理プログラム
# 特徴技術名: scikit-learn [機械学習のための前処理・モデリングライブラリ]
# 出典: F. Pedregosa et al., "Scikit-learn: Machine Learning in Python," Journal of Machine Learning Research, vol. 12, pp. 2825-2830, 2011.
# 特徴機能: MinMaxScaler [各特徴量を指定範囲(デフォルト0-1)に線形変換する正規化機能。最小値を0、最大値を1に変換することで、異なるスケールの特徴量を統一的に扱える]
# 学習済みモデル: 使用なし
# 方式設計:
# - 関連利用技術:
# - pandas (データ分析ライブラリ、欠損値処理のfillna()メソッドを提供)
# - numpy (数値計算ライブラリ、欠損値表現のnp.nanを提供)
# - 入力と出力: 入力: データ(ユーザは「0:CSVファイル,1:サンプルデータ」のメニューで選択.0:CSVファイルの場合はtkinterでファイル選択)、出力: コンソールへのテキスト表示およびresult.txtファイル
# - 処理手順: 1) データ取得(CSVまたはサンプル)、2) 各列の平均値で欠損値補完、3) MinMaxScalerで0-1範囲に正規化、4) 結果表示・保存
# - 前処理、後処理: 該当なし(MinMaxScaler自体が前処理機能)
# - 追加処理: 該当なし
# - 調整を必要とする設定値: feature_range(MinMaxScalerのスケーリング範囲、デフォルト(0,1))
# 将来方策: ユーザがfeature_rangeを対話的に設定できる機能の実装(例:input()で最小値・最大値を入力)
# その他の重要事項: 欠損値補完は平均値を使用。カテゴリカルデータには適用不可
# 前準備: pip install pandas numpy scikit-learn
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import tkinter as tk
from tkinter import filedialog
# 定数定義
RANDOM_SEED = 42 # 再現性のための乱数シード
FEATURE_RANGE = (0, 1) # MinMaxScalerのデフォルト範囲(最小値, 最大値)
# 再現性のための乱数シード設定
np.random.seed(RANDOM_SEED)
# プログラム概要表示
print('=== 欠損値補完とMinMaxスケーリングによるデータ前処理プログラム ===')
print('このプログラムは、データの欠損値を平均値で補完し、')
print('MinMaxScalerで指定範囲に正規化します。')
print()
# データ取得
print('0: CSVファイル')
print('1: サンプルデータ')
choice = input('選択: ')
# スケーリング範囲の設定
print()
print('MinMaxスケーリングの範囲を設定します(デフォルト: 0-1)')
use_default = input('デフォルト値を使用しますか? (y/n): ')
if use_default.lower() != 'y':
try:
min_val = float(input('最小値を入力してください: '))
max_val = float(input('最大値を入力してください: '))
if min_val >= max_val:
print('エラー: 最小値は最大値より小さくしてください')
exit()
FEATURE_RANGE = (min_val, max_val)
except ValueError:
print('エラー: 数値を入力してください')
exit()
if choice == '0':
root = tk.Tk()
root.withdraw()
path = filedialog.askopenfilename(filetypes=[('CSV files', '*.csv')])
if not path:
exit()
try:
data = pd.read_csv(path)
# 数値列のみ抽出
numeric_columns = data.select_dtypes(include=[np.number]).columns
data = data[numeric_columns]
if data.empty:
print('エラー: 数値データが含まれていません')
exit()
except Exception as e:
print(f'ファイル読み込みエラー: {e}')
exit()
elif choice == '1':
# サンプルデータの作成(欠損値含む)
data = pd.DataFrame({
'age': [25, 30, np.nan, 45, 50],
'income': [50000, 60000, 55000, np.nan, 65000],
'score': [200, 250, 240, 260, 220]
})
else:
print('無効な選択です')
exit()
# データ検証
if len(data) < 2:
print('エラー: データが2行以上必要です')
exit()
# メイン処理
# 欠損値を平均値で補完
filled_data = data.fillna(data.mean(numeric_only=True))
# MinMaxスケーリングによるデータスケーリング
scaler = MinMaxScaler(feature_range=FEATURE_RANGE)
scaled_data = pd.DataFrame(scaler.fit_transform(filled_data), columns=filled_data.columns)
# 結果出力
output = []
output.append('■ 元のデータ(欠損値含む)')
output.append('※ NaNは欠損値を表します')
output.append(str(data))
output.append('')
output.append('■ 欠損値補完後(平均値で補完)')
output.append('※ 各列の平均値で欠損値を置換しています')
output.append(str(filled_data.round(2)))
output.append('')
output.append(f'■ MinMaxスケーリング後({FEATURE_RANGE[0]}-{FEATURE_RANGE[1]}スケーリング)')
output.append(f'※ 全ての値が{FEATURE_RANGE[0]}-{FEATURE_RANGE[1]}の範囲に変換されています')
output.append(f'※ 最小値={FEATURE_RANGE[0]}、最大値={FEATURE_RANGE[1]}となります')
output.append(str(scaled_data.round(3)))
# 統計情報の追加
output.append('')
output.append('■ 統計情報')
for label, df in [('元データ', data), ('スケーリング後', scaled_data)]:
output.append(f'【{label}】')
output.append(f' 最小値: {df.min().to_dict()}')
output.append(f' 最大値: {df.max().to_dict()}')
if label == '元データ':
output.append(f' 平均値: {df.mean().round(2).to_dict()}')
output.append('')
# コンソール出力
for line in output:
print(line)
# ファイル保存
with open('result.txt', 'w', encoding='utf-8') as f:
for line in output:
f.write(line + '\n')
print()
print('result.txtに保存しました')
実行結果の解釈: スケーリング後の値0は元データの最小値、1は元データの最大値に対応する。変換後も元データの順序関係は保持される。各列で独立してスケーリングが適用されるため、列間の相対的な大きさの関係は変化する場合がある。
使用方法
- 上記のプログラムを実行
- 3段階の処理結果が表示され、データの変化を確認できる
実験のアイデア
スケーリング手法の比較:
- StandardScaler(標準化:平均0、分散1に変換)との比較
- RobustScaler(ロバストスケーリング:中央値と四分位範囲を使用)との比較
欠損値処理の比較:
- 中央値(
median()
)による補完 - 最頻値(
mode()
)による補完 - より多くの欠損値を含むデータでの処理結果の確認
発展的な検証:
- 外れ値の影響調査:極端に大きな値を含むデータでの各スケーラーの動作比較
- 統計量の変化:スケーリング前後での基本統計量(平均、分散等)の変化の数値的確認
- 実データでの検証:公開データセット(Boston住宅価格、Irisデータセット等)での前処理効果の確認