EfficientNetV2による画像分類
【概要】EfficientNetV2-Sを使用してリアルタイム画像分類を実行する。改良されたアーキテクチャとTraining-Aware Neural Architecture Searchにより画像全体のクラス分類を学習し、YOLO11-clsを上回る精度と効率性を実現。Windows環境での実行手順、プログラムコード、実験アイデアを含む。

目次
概要
技術名:EfficientNetV2(Efficient Neural Architecture Scaling Version 2)
発表:2021年4月、Google Research により "EfficientNetV2: Smaller Models and Faster Training" として発表
出典:Tan, M., & Le, Q. V. (2021). EfficientNetV2: Smaller Models and Faster Training. In International Conference on Machine Learning (ICML 2021)
新規性・特徴:EfficientNetV2は、Training-Aware Neural Architecture Search(訓練認識型ニューラルアーキテクチャ探索)を採用した画像分類技術である。YOLO11-clsと比較して、22%少ないパラメータで同等以上の精度を実現し、訓練速度も大幅に向上している。
アーキテクチャ構成:
- Fused-MBConv:初期層でのFused Mobile Inverted Bottleneck Convolutionによる高速化
- MBConv:従来のMobile Inverted Bottleneck Convolutionによる効率的特徴抽出
- Progressive Learning:画像サイズと正則化を段階的に増加させる訓練手法
- Compound Scaling:深度、幅、解像度の効率的スケーリング
これらの構成要素により、EfficientNetV2は従来手法より高速な訓練と優れたパラメータ効率を実現している。
アプリケーション例:医療画像診断、品質管理、食品分類、動物種別識別、植物分類、工業製品検査、コンテンツ管理、自動分類システム
画像分類とは
画像分類(Image Classification)は、入力画像全体を見て、その画像が何のクラス(カテゴリ)に属するかを判定する技術である。画像内の物体の位置は特定せず、画像全体に対して最も適切なクラスラベルを1つ(または複数)予測する。
他の手法との主な違い:
- 画像分類:画像全体のクラスのみを予測、位置情報なし
- 物体検出:物体の位置(バウンディングボックス)とクラスを同時に予測
- セマンティックセグメンテーション:画像の各ピクセルにクラスラベルを割り当て
従来の画像分類手法との比較:ResNet(残差接続による深層学習)は高精度だが計算コストが高い、YOLO11-cls(物体検出技術応用)は高速処理が特徴、EfficientNetV2は効率的スケーリングとFused-MBConvによる最適なバランスを実現している。
適用分野:画像の内容判定、カテゴリ分け、品質判定等で有効である。
使用する学習済みモデル
EfficientNetV2事前学習済みモデル:
- 学習データセット:ImageNet(1000クラス、約120万枚の訓練画像、5万枚の検証画像)
- 分類可能クラス:動物約400クラス、植物約100クラス、人工物約500クラス
- 出力形式:クラス確率分布(1000次元ベクトル)
- 入力解像度:224×224ピクセル(デフォルト)
- モデルサイズ:Small版(軽量)からExtra Large版(高精度)まで5種類
- 性能:EfficientNetV2-Sで約75-80%のImageNet Top-1精度(YOLO11n-clsの70.0%を上回る)
- データセット制約:主に欧米の画像で学習されており、日本特有の物体では分類精度が低下する場合がある
Python開発環境,ライブラリ類
ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。
Python 3.12 のインストール
インストール済みの場合は実行不要。
管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。
REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
AI エディタ Windsurf のインストール
Pythonプログラムの編集・実行には、AI エディタの利用を推奨する。ここでは,Windsurfのインストールを説明する。
管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行して、Windsurfをシステム全体にインストールする。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。
winget install --scope machine Codeium.Windsurf -e --silent
【関連する外部ページ】
Windsurf の公式ページ: https://windsurf.com/
必要なライブラリのインストール
管理者権限でコマンドプロンプトを起動し、以下のコマンドを実行する:
pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install timm opencv-python pillow requests
EfficientNetV2による画像分類プログラム
AI能力の説明
このプログラムはカメラや動画ファイルから入力された画像に対して、ImageNetの1000クラスから最も適合するカテゴリを特定する。
主要技術
-
EfficientNetV2:
Google Brainが開発した畳み込みニューラルネットワーク[1]。Progressive Learningと呼ばれる段階的学習手法により、学習時の画像サイズを徐々に増加させながら正則化を適応的に調整することで、学習速度の向上と精度の両立を図っている。[1]。
参考文献
- [1] Tan, M., & Le, Q. (2021). EfficientNetV2: Smaller models and faster training. In Proceedings of the 38th International Conference on Machine Learning (pp. 10096-10106). PMLR.
# EfficientNetV2による画像分類プログラム
# 特徴技術名: EfficientNetV2
# 出典: Tan, M., & Le, Q. V. (2021). EfficientNetV2: Smaller models and faster training.
# In International Conference on Machine Learning (pp. 10096-10106). PMLR.
# 特徴機能: Progressive Learning(段階的学習)- 学習時の画像サイズを段階的に増加させつつ
# 正則化を適応的に調整することで、高速学習と高精度を両立
# 学習済みモデル: efficientnetv2_rw_s.ra2_in1k(timm実装版、ImageNet-1k事前学習済み、約20Mパラメータ)
# URL: https://huggingface.co/timm/efficientnetv2_rw_s.ra2_in1k
# 方式設計
# - 関連利用技術:
# * timm(PyTorch Image Models): 学習済みモデル提供
# * OpenCV: 動画・カメラ入力とリアルタイム表示
# * PIL/Pillow: 画像前処理と日本語フォント描画
# * tkinter: ファイル選択UI
# - 入力と出力:
# 入力: 動画(ユーザは「0:動画ファイル、1:カメラ、2:サンプル動画」のメニューで選択。0:動画ファイルの場合はtkinterでファイル選択。1の場合はOpenCVでカメラが開く。2の場合はhttps://github.com/opencv/opencv/blob/master/samples/data/vtest.aviを使用)
# 出力: OpenCV画面でリアルタイム表示、1秒間隔でprint()による分類結果表示、プログラム終了時result.txtファイル保存
# - 処理手順:
# 1. 動画入力の取得・前処理(RGB変換、timm標準変換)
# 2. EfficientNetV2モデルによる推論実行
# 3. Top-5分類結果の算出・日本語表示
# 4. リアルタイム画面描画・結果保存
# - 前処理: timm標準データ変換(正規化、リサイズ)によるImageNet互換形式変換
# - 後処理: ソフトマックス確率変換、Top-k選択、日本語フォント描画
# - 追加処理: フレームバッファクリア(最新フレーム取得)、日本語結果表示(PIL/OpenCV併用)
# - 調整を必要とする設定値: MODEL_NAME(学習済みモデル選択)、FONT_SIZE(表示サイズ)
# 将来方策: プログラム内でのモデル性能比較機能(複数EfficientNetV2モデルの精度・速度測定)
# その他の重要事項: Windows環境対応、DirectShowバックエンド使用
# 前準備: pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# pip install timm opencv-python pillow requests
import cv2
import numpy as np
import torch
import timm
import torch.nn.functional as F
import tkinter as tk
from tkinter import filedialog
from PIL import Image, ImageDraw, ImageFont
import requests
import urllib.request
import os
import time
# 定数定義
MODEL_NAME = 'efficientnetv2_rw_s.ra2_in1k'
FONT_PATH = 'C:/Windows/Fonts/msgothic.ttc'
FONT_SIZE = 18
RANDOM_SEED = 42
TOP_K = 5
SUPPORTED_VIDEO_FORMATS = ['.mp4', '.avi', '.mov', '.mkv', '.wmv', '.flv', '.webm', '.m4v', '.mpg', '.mpeg']
# ImageNet クラス名リスト
IMAGENET_CLASSES = [
'tench', 'goldfish', 'great white shark', 'tiger shark', 'hammerhead', 'electric ray', 'stingray', 'cock', 'hen', 'ostrich',
'brambling', 'goldfinch', 'house finch', 'junco', 'indigo bunting', 'robin', 'bulbul', 'jay', 'magpie', 'chickadee',
'water ouzel', 'kite', 'bald eagle', 'vulture', 'great grey owl', 'European fire salamander', 'common newt', 'eft', 'spotted salamander', 'axolotl',
'bullfrog', 'tree frog', 'tailed frog', 'loggerhead', 'leatherback turtle', 'mud turtle', 'terrapin', 'box turtle', 'banded gecko', 'common iguana',
'American chameleon', 'whiptail', 'agama', 'frilled lizard', 'alligator lizard', 'Gila monster', 'green lizard', 'African chameleon', 'Komodo dragon', 'African crocodile',
'American alligator', 'triceratops', 'thunder snake', 'ringneck snake', 'hognose snake', 'green snake', 'king snake', 'garter snake', 'water snake', 'vine snake',
'night snake', 'boa constrictor', 'rock python', 'Indian cobra', 'green mamba', 'sea snake', 'horned viper', 'diamondback', 'sidewinder', 'trilobite',
'harvestman', 'scorpion', 'black and gold garden spider', 'barn spider', 'garden spider', 'black widow', 'tarantula', 'wolf spider', 'tick', 'centipede',
'black grouse', 'ptarmigan', 'ruffed grouse', 'prairie chicken', 'peacock', 'quail', 'partridge', 'African grey', 'macaw', 'sulphur-crested cockatoo',
'lorikeet', 'coucal', 'bee eater', 'hornbill', 'hummingbird', 'jacamar', 'toucan', 'drake', 'red-breasted merganser', 'goose',
'black swan', 'tusker', 'echidna', 'platypus', 'wallaby', 'koala', 'wombat', 'jellyfish', 'sea anemone', 'brain coral',
'flatworm', 'nematode', 'conch', 'snail', 'slug', 'sea slug', 'chiton', 'chambered nautilus', 'Dungeness crab', 'rock crab',
'fiddler crab', 'king crab', 'American lobster', 'spiny lobster', 'crayfish', 'hermit crab', 'isopod', 'white stork', 'black stork', 'spoonbill',
'flamingo', 'little blue heron', 'American egret', 'bittern', 'crane', 'limpkin', 'European gallinule', 'American coot', 'bustard', 'ruddy turnstone',
'red-backed sandpiper', 'redshank', 'dowitcher', 'oystercatcher', 'pelican', 'king penguin', 'albatross', 'grey whale', 'killer whale', 'dugong',
'sea lion', 'Chihuahua', 'Japanese spaniel', 'Maltese dog', 'Pekinese', 'Shih-Tzu', 'Blenheim spaniel', 'papillon', 'toy terrier', 'Rhodesian ridgeback',
'Afghan hound', 'basset', 'beagle', 'bloodhound', 'bluetick', 'black-and-tan coonhound', 'Walker hound', 'English foxhound', 'redbone', 'borzoi',
'Irish wolfhound', 'Italian greyhound', 'whippet', 'Ibizan hound', 'Norwegian elkhound', 'otterhound', 'Saluki', 'Scottish deerhound', 'Weimaraner', 'Staffordshire bullterrier',
'American Staffordshire terrier', 'Bedlington terrier', 'Border terrier', 'Kerry blue terrier', 'Irish terrier', 'Norfolk terrier', 'Norwich terrier', 'Yorkshire terrier', 'wire-haired fox terrier', 'Lakeland terrier',
'Sealyham terrier', 'Airedale', 'cairn', 'Australian terrier', 'Dandie Dinmont', 'Boston bull', 'miniature schnauzer', 'giant schnauzer', 'standard schnauzer', 'Scotch terrier',
'Tibetan terrier', 'silky terrier', 'soft-coated wheaten terrier', 'West Highland white terrier', 'Lhasa', 'flat-coated retriever', 'curly-coated retriever', 'golden retriever', 'Labrador retriever', 'Chesapeake Bay retriever',
'German short-haired pointer', 'vizsla', 'English setter', 'Irish setter', 'Gordon setter', 'Brittany spaniel', 'clumber', 'English springer', 'Welsh springer spaniel', 'cocker spaniel',
'Sussex spaniel', 'Irish water spaniel', 'kuvasz', 'schipperke', 'groenendael', 'malinois', 'briard', 'kelpie', 'komondor', 'Old English sheepdog',
'Shetland sheepdog', 'collie', 'Border collie', 'Bouvier des Flandres', 'Rottweiler', 'German shepherd', 'Doberman', 'miniature pinscher', 'Greater Swiss Mountain dog', 'Bernese mountain dog',
'Appenzeller', 'EntleBucher', 'boxer', 'bull mastiff', 'Tibetan mastiff', 'French bulldog', 'Great Dane', 'Saint Bernard', 'Eskimo dog', 'malamute',
'Siberian husky', 'dalmatian', 'affenpinscher', 'basenji', 'pug', 'Leonberg', 'Newfoundland', 'Great Pyrenees', 'Samoyed', 'Pomeranian',
'chow', 'keeshond', 'Brabancon griffon', 'Pembroke', 'Cardigan', 'toy poodle', 'miniature poodle', 'standard poodle', 'Mexican hairless', 'timber wolf',
'white wolf', 'red wolf', 'coyote', 'dingo', 'dhole', 'African hunting dog', 'hyena', 'red fox', 'kit fox', 'Arctic fox',
'grey fox', 'tabby', 'tiger cat', 'Persian cat', 'Siamese cat', 'Egyptian cat', 'cougar', 'lynx', 'leopard', 'snow leopard',
'jaguar', 'lion', 'tiger', 'cheetah', 'brown bear', 'American black bear', 'ice bear', 'sloth bear', 'mongoose', 'meerkat',
'tiger beetle', 'ladybug', 'ground beetle', 'long-horned beetle', 'leaf beetle', 'dung beetle', 'rhinoceros beetle', 'weevil', 'fly', 'bee',
'ant', 'grasshopper', 'cricket', 'walking stick', 'cockroach', 'mantis', 'cicada', 'leafhopper', 'lacewing', 'dragonfly',
'damselfly', 'admiral', 'ringlet', 'monarch', 'cabbage butterfly', 'sulphur butterfly', 'lycaenid', 'starfish', 'sea urchin', 'sea cucumber',
'wood rabbit', 'hare', 'Angora', 'hamster', 'porcupine', 'fox squirrel', 'marmot', 'beaver', 'guinea pig', 'sorrel',
'zebra', 'hog', 'wild boar', 'warthog', 'hippopotamus', 'ox', 'water buffalo', 'bison', 'ram', 'bighorn',
'ibex', 'hartebeest', 'impala', 'gazelle', 'Arabian camel', 'llama', 'weasel', 'mink', 'polecat', 'black-footed ferret',
'otter', 'skunk', 'badger', 'armadillo', 'three-toed sloth', 'orangutan', 'gorilla', 'chimpanzee', 'gibbon', 'siamang',
'guenon', 'patas', 'baboon', 'macaque', 'langur', 'colobus', 'proboscis monkey', 'marmoset', 'capuchin', 'howler monkey',
'titi', 'spider monkey', 'squirrel monkey', 'Madagascar cat', 'indri', 'Indian elephant', 'African elephant', 'lesser panda', 'giant panda', 'barracouta',
'eel', 'coho', 'rock beauty', 'anemone fish', 'sturgeon', 'gar', 'lionfish', 'puffer', 'abacus', 'abaya',
'academic gown', 'accordion', 'acoustic guitar', 'aircraft carrier', 'airliner', 'airship', 'altar', 'ambulance', 'amphibian', 'analog clock',
'apiary', 'apron', 'ashcan', 'assault rifle', 'backpack', 'bakery', 'balance beam', 'balloon', 'ballpoint', 'Band Aid',
'banjo', 'bannister', 'barbell', 'barber chair', 'barbershop', 'barn', 'barometer', 'barrel', 'barrow', 'baseball',
'basketball', 'bassinet', 'bassoon', 'bathing cap', 'bath towel', 'bathtub', 'beach wagon', 'beacon', 'beaker', 'bearskin',
'beer bottle', 'beer glass', 'bell cote', 'bib', 'bicycle-built-for-two', 'bikini', 'binder', 'binoculars', 'birdhouse', 'boathouse',
'bobsled', 'bolo tie', 'bonnet', 'bookcase', 'bookshop', 'bottlecap', 'bow', 'bow tie', 'brass', 'brassiere',
'breakwater', 'breastplate', 'broom', 'bucket', 'buckle', 'bulletproof vest', 'bullet train', 'butcher shop', 'cab', 'caldron',
'candle', 'cannon', 'canoe', 'can opener', 'cardigan', 'car mirror', 'carousel', 'carpenter\'s kit', 'carton', 'car wheel',
'cash machine', 'cassette', 'cassette player', 'castle', 'catamaran', 'CD player', 'cello', 'cellular telephone', 'chain', 'chainlink fence',
'chain mail', 'chain saw', 'chest', 'chiffonier', 'chime', 'china cabinet', 'Christmas stocking', 'church', 'cinema', 'cleaver',
'cliff dwelling', 'cloak', 'clog', 'cocktail shaker', 'coffee mug', 'coffeepot', 'coil', 'combination lock', 'computer keyboard', 'confectionery',
'container ship', 'convertible', 'corkscrew', 'cornet', 'cowboy boot', 'cowboy hat', 'cradle', 'crane', 'crash helmet', 'crate',
'crib', 'Crock Pot', 'croquet ball', 'crutch', 'cuirass', 'dam', 'desk', 'desktop computer', 'dial telephone', 'diaper',
'digital clock', 'digital watch', 'dining table', 'dishrag', 'dishwasher', 'disk brake', 'dock', 'dogsled', 'dome', 'doormat',
'drilling platform', 'drum', 'drumstick', 'dumbbell', 'Dutch oven', 'electric fan', 'electric guitar', 'electric locomotive', 'entertainment center', 'envelope',
'espresso maker', 'face powder', 'feather boa', 'file', 'fireboat', 'fire engine', 'fire screen', 'flagpole', 'flute', 'folding chair',
'football helmet', 'forklift', 'fountain', 'fountain pen', 'four-poster', 'freight car', 'French horn', 'frying pan', 'fur coat', 'garbage truck',
'gasmask', 'gas pump', 'goblet', 'go-kart', 'golf ball', 'golfcart', 'gondola', 'gong', 'gown', 'grand piano',
'greenhouse', 'grille', 'grocery store', 'guillotine', 'hair slide', 'hair spray', 'half track', 'hammer', 'hamper', 'hand blower',
'hand-held computer', 'handkerchief', 'hard disc', 'harmonica', 'harp', 'harvester', 'hatchet', 'holster', 'home theater', 'honeycomb',
'hook', 'hoopskirt', 'horizontal bar', 'horse cart', 'hourglass', 'iPod', 'iron', 'jack-o\'-lantern', 'jean', 'jeep',
'jersey', 'jigsaw puzzle', 'jinrikisha', 'joystick', 'kimono', 'knee pad', 'knot', 'lab coat', 'ladle', 'lampshade',
'laptop', 'lawn mower', 'lens cap', 'letter opener', 'library', 'lifeboat', 'lighter', 'limousine', 'liner', 'lipstick',
'Loafer', 'lotion', 'loudspeaker', 'loupe', 'lumbermill', 'magnetic compass', 'mailbag', 'mailbox', 'maillot', 'maillot',
'manhole cover', 'maraca', 'marimba', 'mask', 'matchstick', 'maypole', 'maze', 'measuring cup', 'medicine chest', 'megalith',
'microphone', 'microwave', 'military uniform', 'milk can', 'minibus', 'miniskirt', 'minivan', 'missile', 'mitten', 'mixing bowl',
'mobile home', 'Model T', 'modem', 'monastery', 'monitor', 'moped', 'mortar', 'mortarboard', 'mosque', 'mosquito net',
'motor scooter', 'mountain bike', 'mountain tent', 'mouse', 'mousetrap', 'moving van', 'muzzle', 'nail', 'neck brace', 'necklace',
'nipple', 'notebook', 'obelisk', 'oboe', 'ocarina', 'odometer', 'oil filter', 'organ', 'oscilloscope', 'overskirt',
'oxcart', 'oxygen mask', 'packet', 'paddle', 'paddlewheel', 'padlock', 'paintbrush', 'pajama', 'palace', 'panpipe',
'paper towel', 'parachute', 'parallel bars', 'park bench', 'parking meter', 'passenger car', 'patio', 'pay-phone', 'pedestal', 'pencil box',
'pencil sharpener', 'perfume', 'Petri dish', 'photocopier', 'pick', 'pickelhaube', 'picket fence', 'pickup', 'pier', 'piggy bank',
'pill bottle', 'pillow', 'ping-pong ball', 'pinwheel', 'pirate', 'pitcher', 'plane', 'planetarium', 'plastic bag', 'plate rack',
'plow', 'plunger', 'Polaroid camera', 'pole', 'police van', 'poncho', 'pool table', 'pop bottle', 'pot', 'potter\'s wheel',
'power drill', 'prayer rug', 'printer', 'prison', 'projectile', 'projector', 'puck', 'punching bag', 'purse', 'quill',
'quilt', 'racer', 'racket', 'radiator', 'radio', 'radio telescope', 'rain barrel', 'recreational vehicle', 'reel', 'reflex camera',
'refrigerator', 'remote control', 'restaurant', 'revolver', 'rifle', 'rocking chair', 'rotisserie', 'rubber eraser', 'rugby ball', 'rule',
'running shoe', 'safe', 'safety pin', 'saltshaker', 'sandal', 'sarong', 'sax', 'scabbard', 'scale', 'school bus',
'schooner', 'scoreboard', 'screen', 'screw', 'screwdriver', 'seat belt', 'sewing machine', 'shield', 'shoe shop', 'shoji',
'shopping basket', 'shopping cart', 'shovel', 'shower cap', 'shower curtain', 'ski', 'ski mask', 'sleeping bag', 'slide rule', 'sliding door',
'slot', 'snorkel', 'snowmobile', 'snowplow', 'soap dispenser', 'soccer ball', 'sock', 'solar dish', 'sombrero', 'soup bowl',
'space bar', 'space heater', 'space shuttle', 'spatula', 'speedboat', 'spider web', 'spindle', 'sports car', 'spotlight', 'stage',
'steam locomotive', 'steel arch bridge', 'steel drum', 'stethoscope', 'stole', 'stone wall', 'stopwatch', 'stove', 'strainer', 'streetcar',
'stretcher', 'studio couch', 'stupa', 'submarine', 'suit', 'sundial', 'sunglass', 'sunglasses', 'sunscreen', 'suspension bridge',
'swab', 'sweatshirt', 'swimming trunks', 'swing', 'switch', 'syringe', 'table lamp', 'tank', 'tape player', 'teapot',
'teddy', 'television', 'tennis ball', 'thatch', 'theater curtain', 'thimble', 'thresher', 'throne', 'tile roof', 'toaster',
'tobacco shop', 'toilet seat', 'torch', 'totem pole', 'tow truck', 'toyshop', 'tractor', 'trailer truck', 'tray', 'trench coat',
'tricycle', 'trimaran', 'tripod', 'triumphal arch', 'trolleybus', 'trombone', 'tub', 'turnstile', 'typewriter keyboard', 'umbrella',
'unicycle', 'upright', 'vacuum', 'vase', 'vault', 'velvet', 'vending machine', 'vestment', 'viaduct', 'violin',
'volleyball', 'waffle iron', 'wall clock', 'wallet', 'wardrobe', 'warplane', 'washbasin', 'washer', 'water bottle', 'water jug',
'water tower', 'whiskey jug', 'whistle', 'wig', 'window screen', 'window shade', 'Windsor tie', 'wine bottle', 'wing', 'wok',
'wooden spoon', 'wool', 'worm fence', 'wreck', 'yawl', 'yurt', 'web site', 'comic book', 'crossword puzzle', 'street sign',
'traffic light', 'book jacket', 'menu', 'plate', 'guacamole', 'consomme', 'hot pot', 'trifle', 'ice cream', 'ice lolly',
'French loaf', 'bagel', 'pretzel', 'cheeseburger', 'hotdog', 'mashed potato', 'head cabbage', 'broccoli', 'cauliflower', 'zucchini',
'spaghetti squash', 'acorn squash', 'butternut squash', 'cucumber', 'artichoke', 'bell pepper', 'cardoon', 'mushroom', 'Granny Smith', 'strawberry',
'orange', 'lemon', 'fig', 'pineapple', 'banana', 'jackfruit', 'custard apple', 'pomegranate', 'hay', 'carbonara',
'chocolate sauce', 'dough', 'meat loaf', 'pizza', 'potpie', 'burrito', 'red wine', 'espresso', 'cup', 'eggnog',
'alp', 'bubble', 'cliff', 'coral reef', 'geyser', 'lakeside', 'promontory', 'sandbar', 'seashore', 'valley',
'volcano', 'ballplayer', 'groom', 'scuba diver', 'rapeseed', 'daisy', 'yellow lady\'s slipper', 'corn', 'acorn', 'hip',
'buckeye', 'coral fungus', 'agaric', 'gyromitra', 'stinkhorn', 'earthstar', 'hen-of-the-woods', 'bolete', 'ear', 'toilet tissue'
]
# グローバル変数
model = None
transforms = None
imagenet_classes = []
device = None
results_log = []
last_print_time = None
total_frames_processed = 0
def get_confidence_color(prob):
"""確信度に応じた色を返す"""
if prob >= 0.7:
return (0, 255, 0) # 緑(高信頼度)
elif prob >= 0.5:
return (0, 255, 255) # 黄(中信頼度)
elif prob >= 0.3:
return (0, 165, 255) # オレンジ(低中信頼度)
else:
return (0, 0, 255) # 赤(低信頼度)
def video_processing(frame):
global model, transforms, imagenet_classes, device, results_log, last_print_time, total_frames_processed
# 総フレーム数をカウント
total_frames_processed += 1
# 画像前処理(timm標準変換)
pil_image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
input_tensor = transforms(pil_image).unsqueeze(0).to(device)
# EfficientNetV2による分類実行
with torch.no_grad():
outputs = model(input_tensor)
probabilities = F.softmax(outputs, dim=1)
topk_prob, topk_indices = torch.topk(probabilities, TOP_K)
topk_prob = topk_prob.cpu().numpy()[0]
topk_indices = topk_indices.cpu().numpy()[0]
# 日本語でトップK結果を表示(OpenCV+Pillow併用)
font = ImageFont.truetype(FONT_PATH, FONT_SIZE)
img_pil = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
draw = ImageDraw.Draw(img_pil)
draw.text((10, 30), f'画像分類結果 (上位{TOP_K}位):', font=font, fill=(0, 255, 0))
# 分類結果表示と記録
current_result = []
for i, (class_index, confidence) in enumerate(zip(topk_indices, topk_prob)):
if class_index < len(IMAGENET_CLASSES):
class_name = IMAGENET_CLASSES[class_index]
result_text = f'{i+1}位: {class_name} ({confidence:.3f})'
current_result.append(result_text)
# 確信度に応じた色で表示
color = get_confidence_color(confidence)
draw.text((10, 60 + i * 25), result_text, font=font, fill=color)
# 1秒間隔でprint出力
current_time = time.time()
if last_print_time is None or current_time - last_print_time >= 1.0:
frame_counter = len(results_log) + 1
print(f'記録フレーム {frame_counter}: {current_result[0] if current_result else "分類なし"}')
results_log.append(f'記録フレーム {frame_counter}: {", ".join(current_result)}')
last_print_time = current_time
# BGR色順序変換して返す
return cv2.cvtColor(np.array(img_pil), cv2.COLOR_RGB2BGR)
print('EfficientNetV2画像分類プログラムを開始します')
print('EfficientNetV2-S: ImageNet 1000クラス分類')
print('特徴機能: Progressive Learning(段階的学習)による高速・高精度分類')
print('操作方法: qキーで終了')
print('結果保存: プログラム終了時にresult.txtに保存されます')
print(f'サポート動画形式: {", ".join(SUPPORTED_VIDEO_FORMATS)}')
print(f'Top-{TOP_K} 分類結果を表示')
print()
print('0: 動画ファイル')
print('1: カメラ')
print('2: サンプル動画')
choice = input('選択: ')
temp_file = None
if choice == '0':
root = tk.Tk()
root.withdraw()
path = filedialog.askopenfilename(
title='動画ファイルを選択',
filetypes=[('動画ファイル', ' '.join(f'*{ext}' for ext in SUPPORTED_VIDEO_FORMATS)), ('すべてのファイル', '*.*')]
)
if not path:
exit()
cap = cv2.VideoCapture(path)
elif choice == '1':
cap = cv2.VideoCapture(0, cv2.CAP_DSHOW)
cap.set(cv2.CAP_PROP_BUFFERSIZE, 1)
elif choice == '2':
# サンプル動画ダウンロード・処理
url = 'https://github.com/opencv/opencv/raw/master/samples/data/vtest.avi'
filename = 'vtest.avi'
try:
print('サンプル動画をダウンロード中...')
urllib.request.urlretrieve(url, filename)
temp_file = filename
cap = cv2.VideoCapture(filename)
print('サンプル動画の読み込み完了')
except Exception as e:
print(f'動画のダウンロードに失敗しました: {url}')
print(f'エラー: {e}')
exit()
else:
print('無効な選択です')
exit()
# 乱数シード設定
np.random.seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)
# デバイス設定
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'使用デバイス: {device}')
# メイン処理
try:
# モデル読み込み
print(f'EfficientNetV2-Sモデル \'{MODEL_NAME}\' をロード中...')
model = timm.create_model(MODEL_NAME, pretrained=True)
model = model.to(device)
model.eval()
# timm標準のデータ変換設定
data_config = timm.data.resolve_model_data_config(model)
transforms = timm.data.create_transform(**data_config, is_training=False)
# ImageNetクラス名はIMAGENET_CLASSESを使用
imagenet_classes = IMAGENET_CLASSES
print(f'EfficientNetV2-Sモデル \'{MODEL_NAME}\' をロードしました')
print('ImageNet 1000クラス分類を開始')
last_print_time = time.time()
while True:
cap.grab()
ret, frame = cap.retrieve()
if not ret:
break
processed_frame = video_processing(frame)
cv2.imshow('EfficientNetV2-S ImageNet画像分類', processed_frame)
if cv2.waitKey(1) & 0xFF == ord('q'):
break
finally:
cap.release()
cv2.destroyAllWindows()
# result.txtファイルに保存
try:
with open('result.txt', 'w', encoding='utf-8') as f:
f.write('EfficientNetV2-S ImageNet画像分類結果\n')
f.write('=' * 50 + '\n')
f.write(f'処理した総フレーム数: {total_frames_processed}\n')
f.write(f'記録したフレーム数: {len(results_log)}\n')
f.write(f'使用モデル: {MODEL_NAME}\n')
f.write(f'使用デバイス: {device}\n')
f.write(f'Top-{TOP_K} 分類結果\n')
f.write('\n分類結果:\n')
for result in results_log:
f.write(result + '\n')
print('result.txtに保存しました')
except Exception as e:
print(f'結果の保存に失敗しました: {e}')
# 一時ファイルの削除
if temp_file and os.path.exists(temp_file):
try:
os.remove(temp_file)
print('一時ファイルを削除しました')
except OSError:
print('一時ファイルの削除に失敗しました')
print('プログラムを終了しました')
使用方法
- プログラムを実行すると、カメラが起動し、リアルタイムで画像分類が開始される
- カメラに向かって様々な物体を映すと、画像全体の分類結果がトップ5で表示される
- 各分類結果にはクラス名と信頼度が表示される
- EfficientNetV2のFused-MBConvとProgressive Learning技術により、YOLO11-clsより高精度な分類を実現
- フレーム情報でTraining-Aware NASの動作状況を確認できる
- 'q'キーを押すとプログラムが終了する
実験・探求のアイデア
EfficientNetV2モデル選択実験
プログラム冒頭のMODEL_NAMEを変更することで、異なるEfficientNetV2モデルを比較できる:
efficientnetv2_rw_s
:Small版(高速、実用性重視、約20Mパラメータ)efficientnetv2_rw_m
:Medium版(バランス型、約54Mパラメータ)efficientnetv2_rw_l
:Large版(高精度重視、約120Mパラメータ)efficientnetv2_xl
:Extra Large版(最高精度、約208Mパラメータ)
分類精度の検証実験
Fused-MBConvとProgressive Learningの効果を評価する:
- 画像品質による分類精度:明度、コントラスト、ノイズが分類結果に与える影響測定
- 複数物体画像での分類:複数の物体が写った画像での主要物体分類能力の評価
- 角度変化対応:同一物体を様々な角度から撮影した場合の分類一貫性
- 背景複雑度の影響:背景が複雑な環境での分類精度
リアルタイム応用実験
- 医療画像診断:X線、CT画像での疾患分類
- 品質管理:製品の良品・不良品分類
- 食品分類:料理の種類自動判定
- 動植物識別:野生動物や植物の種類分類
性能評価実験
効率的スケーリング能力の実験:Compound Scalingによる異なるサイズの画像での分類性能を評価する
信頼度閾値実験:様々な信頼度閾値での分類精度と検出率の変化を測定する
比較実験
従来手法との比較:EfficientNetV2以外の画像分類手法(YOLO11-cls、ResNet、ConvNeXt等)との性能比較
パラメータ効率性の検証:同等パラメータ数での他手法との精度比較