データ前処理の例:欠損値補完とMinMaxスケーリング

【概要】scikit-learnを使用。データ前処理として、欠損値補完とMinMaxスケーリングを実行し、データの変化を観察。機械学習での前処理の重要性を確認する。

目次

概要

基本概念: 欠損値とは観測されなかった値であり、分析結果に偏りを生じさせる可能性がある。MinMaxスケーリングとは変数を指定された範囲(通常0-1)に変換するスケーリング手法である。

前処理の必要性: 機械学習アルゴリズムは数値データを前提とし、欠損値や異なるスケールの変数が存在すると計算が不安定になるため、前処理が必要となる。

技術的特徴: scikit-learnのデータ前処理機能として、欠損値処理、スケーリングなどの機能が提供される。本実習では欠損値補完(平均値)とMinMaxスケーリング(0-1変換)を実装する。

適用条件: MinMaxScalerは外れ値に敏感であり、データに極端な値が含まれる場合は結果が歪む。そのような場合は他のスケーリング手法の使用を検討する。

学習目標: 欠損値の影響とスケーリング前後での数値分布の変化を数値的に確認し、異なるスケーリング手法の効果を比較検証する。

論文: Pedregosa, F., et al. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825-2830.

事前準備

Python, Windsurfをインストールしていない場合の手順(インストール済みの場合は実行不要)。

  1. 管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。
  2. 以下のコマンドをそれぞれ実行する(winget コマンドは1つずつ実行)。

REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Windsurf をシステム領域にインストール
winget install --scope machine --id Codeium.Windsurf -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul
REM Windsurf のパス設定
set "WINDSURF_PATH=C:\Program Files\Windsurf"
if exist "%WINDSURF_PATH%" (
    echo "%PATH%" | find /i "%WINDSURF_PATH%" >nul
    if errorlevel 1 setx PATH "%PATH%;%WINDSURF_PATH%" /M >nul
)

必要なライブラリのインストール

コマンドプロンプトを管理者として実行(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する:


pip install pandas numpy scikit-learn

プログラムコードと実行結果


# 欠損値補完とMinMaxスケーリングによるデータ前処理プログラム
# 特徴技術名: scikit-learn [機械学習のための前処理・モデリングライブラリ]
# 出典: F. Pedregosa et al., "Scikit-learn: Machine Learning in Python," Journal of Machine Learning Research, vol. 12, pp. 2825-2830, 2011.
# 特徴機能: MinMaxScaler [各特徴量を指定範囲(デフォルト0-1)に線形変換する正規化機能。最小値を0、最大値を1に変換することで、異なるスケールの特徴量を統一的に扱える]
# 学習済みモデル: 使用なし
# 方式設計:
#   - 関連利用技術:
#     - pandas (データ分析ライブラリ、欠損値処理のfillna()メソッドを提供)
#     - numpy (数値計算ライブラリ、欠損値表現のnp.nanを提供)
#   - 入力と出力: 入力: データ(ユーザは「0:CSVファイル,1:サンプルデータ」のメニューで選択.0:CSVファイルの場合はtkinterでファイル選択)、出力: コンソールへのテキスト表示およびresult.txtファイル
#   - 処理手順: 1) データ取得(CSVまたはサンプル)、2) 各列の平均値で欠損値補完、3) MinMaxScalerで0-1範囲に正規化、4) 結果表示・保存
#   - 前処理、後処理: 該当なし(MinMaxScaler自体が前処理機能)
#   - 追加処理: 該当なし
#   - 調整を必要とする設定値: feature_range(MinMaxScalerのスケーリング範囲、デフォルト(0,1))
# 将来方策: ユーザがfeature_rangeを対話的に設定できる機能の実装(例:input()で最小値・最大値を入力)
# その他の重要事項: 欠損値補完は平均値を使用。カテゴリカルデータには適用不可
# 前準備: pip install pandas numpy scikit-learn

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import tkinter as tk
from tkinter import filedialog

# 定数定義
RANDOM_SEED = 42  # 再現性のための乱数シード
FEATURE_RANGE = (0, 1)  # MinMaxScalerのデフォルト範囲(最小値, 最大値)

# 再現性のための乱数シード設定
np.random.seed(RANDOM_SEED)

# プログラム概要表示
print('=== 欠損値補完とMinMaxスケーリングによるデータ前処理プログラム ===')
print('このプログラムは、データの欠損値を平均値で補完し、')
print('MinMaxScalerで指定範囲に正規化します。')
print()

# データ取得
print('0: CSVファイル')
print('1: サンプルデータ')

choice = input('選択: ')

# スケーリング範囲の設定
print()
print('MinMaxスケーリングの範囲を設定します(デフォルト: 0-1)')
use_default = input('デフォルト値を使用しますか? (y/n): ')

if use_default.lower() != 'y':
    try:
        min_val = float(input('最小値を入力してください: '))
        max_val = float(input('最大値を入力してください: '))
        if min_val >= max_val:
            print('エラー: 最小値は最大値より小さくしてください')
            exit()
        FEATURE_RANGE = (min_val, max_val)
    except ValueError:
        print('エラー: 数値を入力してください')
        exit()

if choice == '0':
    root = tk.Tk()
    root.withdraw()
    path = filedialog.askopenfilename(filetypes=[('CSV files', '*.csv')])
    if not path:
        exit()
    try:
        data = pd.read_csv(path)
        # 数値列のみ抽出
        numeric_columns = data.select_dtypes(include=[np.number]).columns
        data = data[numeric_columns]
        if data.empty:
            print('エラー: 数値データが含まれていません')
            exit()
    except Exception as e:
        print(f'ファイル読み込みエラー: {e}')
        exit()
elif choice == '1':
    # サンプルデータの作成(欠損値含む)
    data = pd.DataFrame({
        'age': [25, 30, np.nan, 45, 50],
        'income': [50000, 60000, 55000, np.nan, 65000],
        'score': [200, 250, 240, 260, 220]
    })
else:
    print('無効な選択です')
    exit()

# データ検証
if len(data) < 2:
    print('エラー: データが2行以上必要です')
    exit()

# メイン処理
# 欠損値を平均値で補完
filled_data = data.fillna(data.mean(numeric_only=True))

# MinMaxスケーリングによるデータスケーリング
scaler = MinMaxScaler(feature_range=FEATURE_RANGE)
scaled_data = pd.DataFrame(scaler.fit_transform(filled_data), columns=filled_data.columns)

# 結果出力
output = []
output.append('■ 元のデータ(欠損値含む)')
output.append('※ NaNは欠損値を表します')
output.append(str(data))
output.append('')

output.append('■ 欠損値補完後(平均値で補完)')
output.append('※ 各列の平均値で欠損値を置換しています')
output.append(str(filled_data.round(2)))
output.append('')

output.append(f'■ MinMaxスケーリング後({FEATURE_RANGE[0]}-{FEATURE_RANGE[1]}スケーリング)')
output.append(f'※ 全ての値が{FEATURE_RANGE[0]}-{FEATURE_RANGE[1]}の範囲に変換されています')
output.append(f'※ 最小値={FEATURE_RANGE[0]}、最大値={FEATURE_RANGE[1]}となります')
output.append(str(scaled_data.round(3)))

# 統計情報の追加
output.append('')
output.append('■ 統計情報')
for label, df in [('元データ', data), ('スケーリング後', scaled_data)]:
    output.append(f'【{label}】')
    output.append(f'  最小値: {df.min().to_dict()}')
    output.append(f'  最大値: {df.max().to_dict()}')
    if label == '元データ':
        output.append(f'  平均値: {df.mean().round(2).to_dict()}')
    output.append('')

# コンソール出力
for line in output:
    print(line)

# ファイル保存
with open('result.txt', 'w', encoding='utf-8') as f:
    for line in output:
        f.write(line + '\n')

print()
print('result.txtに保存しました')

実行結果の解釈: スケーリング後の値0は元データの最小値、1は元データの最大値に対応する。変換後も元データの順序関係は保持される。各列で独立してスケーリングが適用されるため、列間の相対的な大きさの関係は変化する場合がある。

使用方法

  1. 上記のプログラムを実行
  2. 3段階の処理結果が表示され、データの変化を確認できる

実験のアイデア

スケーリング手法の比較:

欠損値処理の比較:

発展的な検証: