YOLOv11インスタンスセグメンテーションのためのデータオーグメンテーション

【概要】YOLO11セグメンテーションモデル用のデータオーグメンテーションの実装。COCO128データセットからの元画像128枚を回転・スケーリング・色調変更等により数千パターンに拡張し学習効果を向上させる。拡張画像は保存されず学習時のみ使用される。


目次

概要

主要技術
YOLOv11インスタンスセグメンテーションのためのデータオーグメンテーション

体験価値
データオーグメンテーション(学習の瞬間だけコンピュータが画像を変形させて使う機能)による学習効果の変化を目視で確認できる。元画像128枚から数千パターンの変形画像を生成する過程を確認する。変形した画像は保存されないため、ファイル数は変わらないが様々なパターンで学習が実行される。

事前準備

Python, Windsurfをインストールしていない場合の手順(インストール済みの場合は実行不要)。

  1. 管理者権限でコマンドプロンプトを起動する(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)。
  2. 以下のコマンドをそれぞれ実行する(winget コマンドは1つずつ実行)。
REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Windsurf をシステム領域にインストール
winget install --scope machine --id Codeium.Windsurf -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul
REM Windsurf のパス設定
set "WINDSURF_PATH=C:\Program Files\Windsurf"
if exist "%WINDSURF_PATH%" (
    echo "%PATH%" | find /i "%WINDSURF_PATH%" >nul
    if errorlevel 1 setx PATH "%PATH%;%WINDSURF_PATH%" /M >nul
)

必要なライブラリのインストール

コマンドプロンプトを管理者として実行(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する:

pip install ultralytics matplotlib opencv-python

データオーグメンテーションの仕組み

データオーグメンテーションとは学習の瞬間だけコンピュータが画像を変形させて使う機能である。変形した画像は保存されない。

具体的な処理例:

  1. 元画像「car.jpg」を読み込む
  2. その瞬間に「少し回転させたcar.jpg」として学習に使う
  3. 回転させた写真は保存されない
  4. 次回は「色を変えたcar.jpg」として使う
  5. 色を変えた写真も保存されない

結果:

COCO128-segデータセット

COCO128-segデータセット(Common Objects in Context、物体検出用の標準データセット)は自動ダウンロードされ、以下の構造で配置される:

coco128-seg/
  ├── train/
  │   ├── images/     # 学習用画像(128枚)
  │   └── labels/     # 学習用ラベル(.txt)
  ├── val/
  │   ├── images/     # 検証用画像
  │   └── labels/     # 検証用ラベル(.txt)
  └── coco128-seg.yaml # データセット設定ファイル

ファインチューニング

事前学習済みモデル(yolo11n-seg.pt)の重みを初期値として使用し、新しいデータセット(COCO128-seg)で追加学習を実行する手法である。

プログラムコード


# YOLO11データオーグメンテーション効果確認プログラム
#   COCO128データセットでのセグメンテーション学習時のデータ拡張結果可視化
#   論文: "Ultralytics YOLO11" (2024年9月リリース)
#   GitHub: https://github.com/ultralytics/ultralytics
#   特徴: YOLO11は最新のリアルタイム物体検出・セグメンテーションモデル
#         YOLOv8mより22%少ないパラメータで高いmAP実現、5種類のモデルサイズ
#   学習済みモデル: yolo11n-seg.pt(Nano版、軽量で高速なセグメンテーション用)
#   前準備: pip install ultralytics matplotlib opencv-python japanize-matplotlib

import matplotlib.pyplot as plt
import japanize_matplotlib
import cv2
from ultralytics import YOLO

# 利用可能なYOLO11セグメンテーション学習済みモデル:
# yolo11n-seg.pt - Nano: 軽量で高速、エッジデバイス向け(2.9Mパラメータ、mAP 38.9)
# yolo11s-seg.pt - Small: Nanoより精度向上、計算量増加(10.1Mパラメータ、mAP 46.6)
# yolo11m-seg.pt - Medium: 汎用用途、バランス型(22.4Mパラメータ、mAP 51.5)
# yolo11l-seg.pt - Large: 高精度、高計算量(27.6Mパラメータ、mAP 53.4)
# yolo11x-seg.pt - Extra-large: 最高精度、最大計算量(62.1Mパラメータ、mAP 54.7)

# 設定パラメータ
MODEL_NAME = "yolo11n-seg.pt"
DATASET_CONFIG = "coco128-seg.yaml"
EPOCHS = 1
ROTATION_DEGREES = 15.0
TRANSLATE_RATIO = 0.1
SCALE_FACTOR = 0.3
FLIP_PROBABILITY = 0.5
HSV_HUE = 0.015
HSV_SATURATION = 0.7
HSV_VALUE = 0.4
MOSAIC_PROBABILITY = 0.8
MIXUP_PROBABILITY = 0.0
FIGURE_SIZE = (12, 8)
RESULT_IMAGE_PATH = 'runs/segment/train/train_batch0.jpg'

# メイン処理
model = YOLO(MODEL_NAME)

model.train(
    data=DATASET_CONFIG,
    epochs=EPOCHS,
    degrees=ROTATION_DEGREES,
    translate=TRANSLATE_RATIO,
    scale=SCALE_FACTOR,
    fliplr=FLIP_PROBABILITY,
    hsv_h=HSV_HUE,
    hsv_s=HSV_SATURATION,
    hsv_v=HSV_VALUE,
    mosaic=MOSAIC_PROBABILITY,
    mixup=MIXUP_PROBABILITY,
    plots=True
)

# 結果表示
img = cv2.imread(RESULT_IMAGE_PATH)
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

plt.figure(figsize=FIGURE_SIZE)
plt.imshow(img_rgb)
plt.title('データオーグメンテーション結果')
plt.axis('off')
plt.show()

# 結果出力
print("データオーグメンテーション結果が表示されました")
print("画像には4つの元画像がモザイク結合され、回転・平行移動・スケーリング・色調整が適用されています")

使用方法

  1. 上記のプログラムを実行
  2. 実行過程の観察
    • COCO128-segデータセットの自動ダウンロード
    • データオーグメンテーション処理の実行
    • 学習済みモデルの保存
    • 拡張結果画像の表示
  3. 結果確認
    • runs/segment/train/weights/best.pt: 最適化されたモデル
    • runs/segment/train/train_batch0.jpg: 実際に使用された拡張画像バッチ

実行結果の詳細

実行前の状態:

実行後の変化:

実験・探求のアイデア

AIモデル選択実験

各モデルでの学習時間と精度の変化を比較する。

データオーグメンテーション パラメータ実験

基本的な変換:

注意が必要な変換:

体験・探求による発見

  1. 拡張画像の視覚確認
    train_batch0.jpgを開き、元画像がどのように変形されているかを確認する。回転、色調変更、スケーリングの実際の効果を確認する。
  2. 学習前後の精度比較
    # 学習前の推論
    results_before = YOLO("yolo11n-seg.pt").predict("test_image.jpg")
    # 学習後の推論
    results_after = YOLO("runs/segment/train/weights/best.pt").predict("test_image.jpg")