YOLOv11インスタンスセグメンテーションのためのデータオーグメンテーション
【概要】YOLO11セグメンテーションモデル用のデータオーグメンテーションの実装。COCO128データセットからの元画像128枚を回転・スケーリング・色調変更等により数千パターンに拡張し学習効果を向上させる。拡張画像は保存されず学習時のみ使用される。


目次
概要
主要技術
YOLOv11インスタンスセグメンテーションのためのデータオーグメンテーション
体験価値
データオーグメンテーション(学習の瞬間だけコンピュータが画像を変形させて使う機能)による学習効果の変化を目視で確認できる。元画像128枚から数千パターンの変形画像を生成する過程を確認する。変形した画像は保存されないため、ファイル数は変わらないが様々なパターンで学習が実行される。
事前準備
Python, Windsurfをインストールしていない場合の手順(インストール済みの場合は実行不要)。
- 管理者権限でコマンドプロンプトを起動する(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)。
- 以下のコマンドをそれぞれ実行する(winget コマンドは1つずつ実行)。
REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Windsurf をシステム領域にインストール
winget install --scope machine --id Codeium.Windsurf -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul
REM Windsurf のパス設定
set "WINDSURF_PATH=C:\Program Files\Windsurf"
if exist "%WINDSURF_PATH%" (
echo "%PATH%" | find /i "%WINDSURF_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%WINDSURF_PATH%" /M >nul
)
必要なライブラリのインストール
コマンドプロンプトを管理者として実行(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する:
pip install ultralytics matplotlib opencv-python
データオーグメンテーションの仕組み
データオーグメンテーションとは学習の瞬間だけコンピュータが画像を変形させて使う機能である。変形した画像は保存されない。
具体的な処理例:
- 元画像「car.jpg」を読み込む
- その瞬間に「少し回転させたcar.jpg」として学習に使う
- 回転させた写真は保存されない
- 次回は「色を変えたcar.jpg」として使う
- 色を変えた写真も保存されない
結果:
- 元々の画像:128枚
- 学習後の画像ファイル:128枚(同じ)
- 画像ファイルは1枚も増えない
- ファイル数は変わらないが、様々なパターンで学習
COCO128-segデータセット
COCO128-segデータセット(Common Objects in Context、物体検出用の標準データセット)は自動ダウンロードされ、以下の構造で配置される:
coco128-seg/
├── train/
│ ├── images/ # 学習用画像(128枚)
│ └── labels/ # 学習用ラベル(.txt)
├── val/
│ ├── images/ # 検証用画像
│ └── labels/ # 検証用ラベル(.txt)
└── coco128-seg.yaml # データセット設定ファイル
- ラベル形式: YOLOセグメンテーション形式(正規化されたポリゴン座標)
- coco128-seg.yaml: パス情報とCOCO80クラス名を定義
- 対象クラス: person, bicycle, car, motorcycle, airplane等80クラス
ファインチューニング
事前学習済みモデル(yolo11n-seg.pt)の重みを初期値として使用し、新しいデータセット(COCO128-seg)で追加学習を実行する手法である。
プログラムコード
# YOLO11データオーグメンテーション効果確認プログラム
# COCO128データセットでのセグメンテーション学習時のデータ拡張結果可視化
# 論文: "Ultralytics YOLO11" (2024年9月リリース)
# GitHub: https://github.com/ultralytics/ultralytics
# 特徴: YOLO11は最新のリアルタイム物体検出・セグメンテーションモデル
# YOLOv8mより22%少ないパラメータで高いmAP実現、5種類のモデルサイズ
# 学習済みモデル: yolo11n-seg.pt(Nano版、軽量で高速なセグメンテーション用)
# 前準備: pip install ultralytics matplotlib opencv-python japanize-matplotlib
import matplotlib.pyplot as plt
import japanize_matplotlib
import cv2
from ultralytics import YOLO
# 利用可能なYOLO11セグメンテーション学習済みモデル:
# yolo11n-seg.pt - Nano: 軽量で高速、エッジデバイス向け(2.9Mパラメータ、mAP 38.9)
# yolo11s-seg.pt - Small: Nanoより精度向上、計算量増加(10.1Mパラメータ、mAP 46.6)
# yolo11m-seg.pt - Medium: 汎用用途、バランス型(22.4Mパラメータ、mAP 51.5)
# yolo11l-seg.pt - Large: 高精度、高計算量(27.6Mパラメータ、mAP 53.4)
# yolo11x-seg.pt - Extra-large: 最高精度、最大計算量(62.1Mパラメータ、mAP 54.7)
# 設定パラメータ
MODEL_NAME = "yolo11n-seg.pt"
DATASET_CONFIG = "coco128-seg.yaml"
EPOCHS = 1
ROTATION_DEGREES = 15.0
TRANSLATE_RATIO = 0.1
SCALE_FACTOR = 0.3
FLIP_PROBABILITY = 0.5
HSV_HUE = 0.015
HSV_SATURATION = 0.7
HSV_VALUE = 0.4
MOSAIC_PROBABILITY = 0.8
MIXUP_PROBABILITY = 0.0
FIGURE_SIZE = (12, 8)
RESULT_IMAGE_PATH = 'runs/segment/train/train_batch0.jpg'
# メイン処理
model = YOLO(MODEL_NAME)
model.train(
data=DATASET_CONFIG,
epochs=EPOCHS,
degrees=ROTATION_DEGREES,
translate=TRANSLATE_RATIO,
scale=SCALE_FACTOR,
fliplr=FLIP_PROBABILITY,
hsv_h=HSV_HUE,
hsv_s=HSV_SATURATION,
hsv_v=HSV_VALUE,
mosaic=MOSAIC_PROBABILITY,
mixup=MIXUP_PROBABILITY,
plots=True
)
# 結果表示
img = cv2.imread(RESULT_IMAGE_PATH)
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.figure(figsize=FIGURE_SIZE)
plt.imshow(img_rgb)
plt.title('データオーグメンテーション結果')
plt.axis('off')
plt.show()
# 結果出力
print("データオーグメンテーション結果が表示されました")
print("画像には4つの元画像がモザイク結合され、回転・平行移動・スケーリング・色調整が適用されています")
使用方法
- 上記のプログラムを実行
- 実行過程の観察
- COCO128-segデータセットの自動ダウンロード
- データオーグメンテーション処理の実行
- 学習済みモデルの保存
- 拡張結果画像の表示
- 結果確認
runs/segment/train/weights/best.pt
: 最適化されたモデルruns/segment/train/train_batch0.jpg
: 実際に使用された拡張画像バッチ
実行結果の詳細
実行前の状態:
- 事前学習済みYOLOv11n-segモデル(COCO 80クラス対応)
実行後の変化:
- person, car, bicycle等のクラスのマスク検出精度が向上
- runs/segment/train/weights/best.ptに最適化されたモデルが保存(学習済みモデルの保存を確認)
- runs/segment/train/train_batch0.jpgに学習時に実際に使用された拡張後の画像バッチが保存される(拡張効果を視覚確認)
- 拡張結果が1つの画面に表示される
実験・探求のアイデア
AIモデル選択実験
- yolo11n-seg.pt(軽量版)
- yolo11s-seg.pt(標準版)
- yolo11m-seg.pt(中規模版)
- yolo11l-seg.pt(大規模版)
各モデルでの学習時間と精度の変化を比較する。
データオーグメンテーション パラメータ実験
基本的な変換:
- 水平反転: fliplr=0.5(デフォルト値、50%確率で適用)
- 回転: degrees=15.0(±15度の範囲、デフォルトは0.0、物体の自然な回転範囲を想定)
- スケーリング: scale=0.3(0.7-1.3倍の範囲、デフォルトは0.5で0.5-1.5倍)
- 色調変更: hsv_h=0.015, hsv_s=0.7, hsv_v=0.4(公式デフォルト値)
注意が必要な変換:
- 平行移動: translate=0.1(デフォルト値、画像端の物体が部分的に切れる場合がある)
- Mosaic拡張: mosaic=0.8(デフォルトは1.0だが、複雑な形状では品質維持のため確率を下げる)
- MixUp: mixup=0.0(デフォルト値、無効のまま)
体験・探求による発見
- 拡張画像の視覚確認
train_batch0.jpg
を開き、元画像がどのように変形されているかを確認する。回転、色調変更、スケーリングの実際の効果を確認する。 - 学習前後の精度比較
# 学習前の推論 results_before = YOLO("yolo11n-seg.pt").predict("test_image.jpg") # 学習後の推論 results_after = YOLO("runs/segment/train/weights/best.pt").predict("test_image.jpg")