EfficientNetV2による画像分類

【概要】EfficientNetV2-Sを使用してリアルタイム画像分類を実行する。改良されたアーキテクチャとTraining-Aware Neural Architecture Searchにより画像全体のクラス分類を学習し、YOLO11-clsを上回る精度と効率性を実現。Windows環境での実行手順、プログラムコード、実験アイデアを含む。

EfficientNetV2画像分類の例

目次

概要

技術名:EfficientNetV2(Efficient Neural Architecture Scaling Version 2)

発表:2021年4月、Google Research により "EfficientNetV2: Smaller Models and Faster Training" として発表

出典:Tan, M., & Le, Q. V. (2021). EfficientNetV2: Smaller Models and Faster Training. In International Conference on Machine Learning (ICML 2021)

新規性・特徴:EfficientNetV2は、Training-Aware Neural Architecture Search(訓練認識型ニューラルアーキテクチャ探索)を採用した画像分類技術である。YOLO11-clsと比較して、22%少ないパラメータで同等以上の精度を実現し、訓練速度も大幅に向上している。

アーキテクチャ構成:

これらの構成要素により、EfficientNetV2は従来手法より高速な訓練と優れたパラメータ効率を実現している。

アプリケーション例:医療画像診断、品質管理、食品分類、動物種別識別、植物分類、工業製品検査、コンテンツ管理、自動分類システム

画像分類とは

画像分類(Image Classification)は、入力画像全体を見て、その画像が何のクラス(カテゴリ)に属するかを判定する技術である。画像内の物体の位置は特定せず、画像全体に対して最も適切なクラスラベルを1つ(または複数)予測する。

他の手法との主な違い:

従来の画像分類手法との比較:ResNet(残差接続による深層学習)は高精度だが計算コストが高い、YOLO11-cls(物体検出技術応用)は高速処理が特徴、EfficientNetV2は効率的スケーリングとFused-MBConvによる最適なバランスを実現している。

適用分野:画像の内容判定、カテゴリ分け、品質判定等で有効である。

使用する学習済みモデル

EfficientNetV2事前学習済みモデル:

Python開発環境,ライブラリ類

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール

インストール済みの場合は実行不要。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。

REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul

関連する外部ページ

Python の公式ページ: https://www.python.org/

AI エディタ Windsurf のインストール

Pythonプログラムの編集・実行には、AI エディタの利用を推奨する。ここでは,Windsurfのインストールを説明する。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行して、Windsurfをシステム全体にインストールする。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。

winget install --scope machine Codeium.Windsurf -e --silent

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

必要なライブラリのインストール

管理者権限でコマンドプロンプトを起動し、以下のコマンドを実行する:


pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
pip install timm opencv-python pillow requests

EfficientNetV2による画像分類プログラム

AI能力の説明

このプログラムはカメラや動画ファイルから入力された画像に対して、ImageNetの1000クラスから最も適合するカテゴリを特定する。

主要技術

参考文献


# EfficientNetV2による画像分類プログラム
# 特徴技術名: EfficientNetV2
# 出典: Tan, M., & Le, Q. V. (2021). EfficientNetV2: Smaller models and faster training.
#       In International Conference on Machine Learning (pp. 10096-10106). PMLR.
# 特徴機能: Progressive Learning(段階的学習)- 学習時の画像サイズを段階的に増加させつつ
#           正則化を適応的に調整することで、高速学習と高精度を両立
# 学習済みモデル: efficientnetv2_rw_s.ra2_in1k(timm実装版、ImageNet-1k事前学習済み、約20Mパラメータ)
#                URL: https://huggingface.co/timm/efficientnetv2_rw_s.ra2_in1k
# 方式設計
#   - 関連利用技術:
#     * timm(PyTorch Image Models): 学習済みモデル提供
#     * OpenCV: 動画・カメラ入力とリアルタイム表示
#     * PIL/Pillow: 画像前処理と日本語フォント描画
#     * tkinter: ファイル選択UI
#   - 入力と出力:
#     入力: 動画(ユーザは「0:動画ファイル、1:カメラ、2:サンプル動画」のメニューで選択。0:動画ファイルの場合はtkinterでファイル選択。1の場合はOpenCVでカメラが開く。2の場合はhttps://github.com/opencv/opencv/blob/master/samples/data/vtest.aviを使用)
#     出力: OpenCV画面でリアルタイム表示、1秒間隔でprint()による分類結果表示、プログラム終了時result.txtファイル保存
#   - 処理手順:
#     1. 動画入力の取得・前処理(RGB変換、timm標準変換)
#     2. EfficientNetV2モデルによる推論実行
#     3. Top-5分類結果の算出・日本語表示
#     4. リアルタイム画面描画・結果保存
#   - 前処理: timm標準データ変換(正規化、リサイズ)によるImageNet互換形式変換
#   - 後処理: ソフトマックス確率変換、Top-k選択、日本語フォント描画
#   - 追加処理: フレームバッファクリア(最新フレーム取得)、日本語結果表示(PIL/OpenCV併用)
#   - 調整を必要とする設定値: MODEL_NAME(学習済みモデル選択)、FONT_SIZE(表示サイズ)
# 将来方策: プログラム内でのモデル性能比較機能(複数EfficientNetV2モデルの精度・速度測定)
# その他の重要事項: Windows環境対応、DirectShowバックエンド使用
# 前準備: pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
#         pip install timm opencv-python pillow requests

import cv2
import numpy as np
import torch
import timm
import torch.nn.functional as F
import tkinter as tk
from tkinter import filedialog
from PIL import Image, ImageDraw, ImageFont
import requests
import urllib.request
import os
import time

# 定数定義
MODEL_NAME = 'efficientnetv2_rw_s.ra2_in1k'
FONT_PATH = 'C:/Windows/Fonts/msgothic.ttc'
FONT_SIZE = 18
RANDOM_SEED = 42
TOP_K = 5
SUPPORTED_VIDEO_FORMATS = ['.mp4', '.avi', '.mov', '.mkv', '.wmv', '.flv', '.webm', '.m4v', '.mpg', '.mpeg']

# ImageNet クラス名リスト
IMAGENET_CLASSES = [
    'tench', 'goldfish', 'great white shark', 'tiger shark', 'hammerhead', 'electric ray', 'stingray', 'cock', 'hen', 'ostrich',
    'brambling', 'goldfinch', 'house finch', 'junco', 'indigo bunting', 'robin', 'bulbul', 'jay', 'magpie', 'chickadee',
    'water ouzel', 'kite', 'bald eagle', 'vulture', 'great grey owl', 'European fire salamander', 'common newt', 'eft', 'spotted salamander', 'axolotl',
    'bullfrog', 'tree frog', 'tailed frog', 'loggerhead', 'leatherback turtle', 'mud turtle', 'terrapin', 'box turtle', 'banded gecko', 'common iguana',
    'American chameleon', 'whiptail', 'agama', 'frilled lizard', 'alligator lizard', 'Gila monster', 'green lizard', 'African chameleon', 'Komodo dragon', 'African crocodile',
    'American alligator', 'triceratops', 'thunder snake', 'ringneck snake', 'hognose snake', 'green snake', 'king snake', 'garter snake', 'water snake', 'vine snake',
    'night snake', 'boa constrictor', 'rock python', 'Indian cobra', 'green mamba', 'sea snake', 'horned viper', 'diamondback', 'sidewinder', 'trilobite',
    'harvestman', 'scorpion', 'black and gold garden spider', 'barn spider', 'garden spider', 'black widow', 'tarantula', 'wolf spider', 'tick', 'centipede',
    'black grouse', 'ptarmigan', 'ruffed grouse', 'prairie chicken', 'peacock', 'quail', 'partridge', 'African grey', 'macaw', 'sulphur-crested cockatoo',
    'lorikeet', 'coucal', 'bee eater', 'hornbill', 'hummingbird', 'jacamar', 'toucan', 'drake', 'red-breasted merganser', 'goose',
    'black swan', 'tusker', 'echidna', 'platypus', 'wallaby', 'koala', 'wombat', 'jellyfish', 'sea anemone', 'brain coral',
    'flatworm', 'nematode', 'conch', 'snail', 'slug', 'sea slug', 'chiton', 'chambered nautilus', 'Dungeness crab', 'rock crab',
    'fiddler crab', 'king crab', 'American lobster', 'spiny lobster', 'crayfish', 'hermit crab', 'isopod', 'white stork', 'black stork', 'spoonbill',
    'flamingo', 'little blue heron', 'American egret', 'bittern', 'crane', 'limpkin', 'European gallinule', 'American coot', 'bustard', 'ruddy turnstone',
    'red-backed sandpiper', 'redshank', 'dowitcher', 'oystercatcher', 'pelican', 'king penguin', 'albatross', 'grey whale', 'killer whale', 'dugong',
    'sea lion', 'Chihuahua', 'Japanese spaniel', 'Maltese dog', 'Pekinese', 'Shih-Tzu', 'Blenheim spaniel', 'papillon', 'toy terrier', 'Rhodesian ridgeback',
    'Afghan hound', 'basset', 'beagle', 'bloodhound', 'bluetick', 'black-and-tan coonhound', 'Walker hound', 'English foxhound', 'redbone', 'borzoi',
    'Irish wolfhound', 'Italian greyhound', 'whippet', 'Ibizan hound', 'Norwegian elkhound', 'otterhound', 'Saluki', 'Scottish deerhound', 'Weimaraner', 'Staffordshire bullterrier',
    'American Staffordshire terrier', 'Bedlington terrier', 'Border terrier', 'Kerry blue terrier', 'Irish terrier', 'Norfolk terrier', 'Norwich terrier', 'Yorkshire terrier', 'wire-haired fox terrier', 'Lakeland terrier',
    'Sealyham terrier', 'Airedale', 'cairn', 'Australian terrier', 'Dandie Dinmont', 'Boston bull', 'miniature schnauzer', 'giant schnauzer', 'standard schnauzer', 'Scotch terrier',
    'Tibetan terrier', 'silky terrier', 'soft-coated wheaten terrier', 'West Highland white terrier', 'Lhasa', 'flat-coated retriever', 'curly-coated retriever', 'golden retriever', 'Labrador retriever', 'Chesapeake Bay retriever',
    'German short-haired pointer', 'vizsla', 'English setter', 'Irish setter', 'Gordon setter', 'Brittany spaniel', 'clumber', 'English springer', 'Welsh springer spaniel', 'cocker spaniel',
    'Sussex spaniel', 'Irish water spaniel', 'kuvasz', 'schipperke', 'groenendael', 'malinois', 'briard', 'kelpie', 'komondor', 'Old English sheepdog',
    'Shetland sheepdog', 'collie', 'Border collie', 'Bouvier des Flandres', 'Rottweiler', 'German shepherd', 'Doberman', 'miniature pinscher', 'Greater Swiss Mountain dog', 'Bernese mountain dog',
    'Appenzeller', 'EntleBucher', 'boxer', 'bull mastiff', 'Tibetan mastiff', 'French bulldog', 'Great Dane', 'Saint Bernard', 'Eskimo dog', 'malamute',
    'Siberian husky', 'dalmatian', 'affenpinscher', 'basenji', 'pug', 'Leonberg', 'Newfoundland', 'Great Pyrenees', 'Samoyed', 'Pomeranian',
    'chow', 'keeshond', 'Brabancon griffon', 'Pembroke', 'Cardigan', 'toy poodle', 'miniature poodle', 'standard poodle', 'Mexican hairless', 'timber wolf',
    'white wolf', 'red wolf', 'coyote', 'dingo', 'dhole', 'African hunting dog', 'hyena', 'red fox', 'kit fox', 'Arctic fox',
    'grey fox', 'tabby', 'tiger cat', 'Persian cat', 'Siamese cat', 'Egyptian cat', 'cougar', 'lynx', 'leopard', 'snow leopard',
    'jaguar', 'lion', 'tiger', 'cheetah', 'brown bear', 'American black bear', 'ice bear', 'sloth bear', 'mongoose', 'meerkat',
    'tiger beetle', 'ladybug', 'ground beetle', 'long-horned beetle', 'leaf beetle', 'dung beetle', 'rhinoceros beetle', 'weevil', 'fly', 'bee',
    'ant', 'grasshopper', 'cricket', 'walking stick', 'cockroach', 'mantis', 'cicada', 'leafhopper', 'lacewing', 'dragonfly',
    'damselfly', 'admiral', 'ringlet', 'monarch', 'cabbage butterfly', 'sulphur butterfly', 'lycaenid', 'starfish', 'sea urchin', 'sea cucumber',
    'wood rabbit', 'hare', 'Angora', 'hamster', 'porcupine', 'fox squirrel', 'marmot', 'beaver', 'guinea pig', 'sorrel',
    'zebra', 'hog', 'wild boar', 'warthog', 'hippopotamus', 'ox', 'water buffalo', 'bison', 'ram', 'bighorn',
    'ibex', 'hartebeest', 'impala', 'gazelle', 'Arabian camel', 'llama', 'weasel', 'mink', 'polecat', 'black-footed ferret',
    'otter', 'skunk', 'badger', 'armadillo', 'three-toed sloth', 'orangutan', 'gorilla', 'chimpanzee', 'gibbon', 'siamang',
    'guenon', 'patas', 'baboon', 'macaque', 'langur', 'colobus', 'proboscis monkey', 'marmoset', 'capuchin', 'howler monkey',
    'titi', 'spider monkey', 'squirrel monkey', 'Madagascar cat', 'indri', 'Indian elephant', 'African elephant', 'lesser panda', 'giant panda', 'barracouta',
    'eel', 'coho', 'rock beauty', 'anemone fish', 'sturgeon', 'gar', 'lionfish', 'puffer', 'abacus', 'abaya',
    'academic gown', 'accordion', 'acoustic guitar', 'aircraft carrier', 'airliner', 'airship', 'altar', 'ambulance', 'amphibian', 'analog clock',
    'apiary', 'apron', 'ashcan', 'assault rifle', 'backpack', 'bakery', 'balance beam', 'balloon', 'ballpoint', 'Band Aid',
    'banjo', 'bannister', 'barbell', 'barber chair', 'barbershop', 'barn', 'barometer', 'barrel', 'barrow', 'baseball',
    'basketball', 'bassinet', 'bassoon', 'bathing cap', 'bath towel', 'bathtub', 'beach wagon', 'beacon', 'beaker', 'bearskin',
    'beer bottle', 'beer glass', 'bell cote', 'bib', 'bicycle-built-for-two', 'bikini', 'binder', 'binoculars', 'birdhouse', 'boathouse',
    'bobsled', 'bolo tie', 'bonnet', 'bookcase', 'bookshop', 'bottlecap', 'bow', 'bow tie', 'brass', 'brassiere',
    'breakwater', 'breastplate', 'broom', 'bucket', 'buckle', 'bulletproof vest', 'bullet train', 'butcher shop', 'cab', 'caldron',
    'candle', 'cannon', 'canoe', 'can opener', 'cardigan', 'car mirror', 'carousel', 'carpenter\'s kit', 'carton', 'car wheel',
    'cash machine', 'cassette', 'cassette player', 'castle', 'catamaran', 'CD player', 'cello', 'cellular telephone', 'chain', 'chainlink fence',
    'chain mail', 'chain saw', 'chest', 'chiffonier', 'chime', 'china cabinet', 'Christmas stocking', 'church', 'cinema', 'cleaver',
    'cliff dwelling', 'cloak', 'clog', 'cocktail shaker', 'coffee mug', 'coffeepot', 'coil', 'combination lock', 'computer keyboard', 'confectionery',
    'container ship', 'convertible', 'corkscrew', 'cornet', 'cowboy boot', 'cowboy hat', 'cradle', 'crane', 'crash helmet', 'crate',
    'crib', 'Crock Pot', 'croquet ball', 'crutch', 'cuirass', 'dam', 'desk', 'desktop computer', 'dial telephone', 'diaper',
    'digital clock', 'digital watch', 'dining table', 'dishrag', 'dishwasher', 'disk brake', 'dock', 'dogsled', 'dome', 'doormat',
    'drilling platform', 'drum', 'drumstick', 'dumbbell', 'Dutch oven', 'electric fan', 'electric guitar', 'electric locomotive', 'entertainment center', 'envelope',
    'espresso maker', 'face powder', 'feather boa', 'file', 'fireboat', 'fire engine', 'fire screen', 'flagpole', 'flute', 'folding chair',
    'football helmet', 'forklift', 'fountain', 'fountain pen', 'four-poster', 'freight car', 'French horn', 'frying pan', 'fur coat', 'garbage truck',
    'gasmask', 'gas pump', 'goblet', 'go-kart', 'golf ball', 'golfcart', 'gondola', 'gong', 'gown', 'grand piano',
    'greenhouse', 'grille', 'grocery store', 'guillotine', 'hair slide', 'hair spray', 'half track', 'hammer', 'hamper', 'hand blower',
    'hand-held computer', 'handkerchief', 'hard disc', 'harmonica', 'harp', 'harvester', 'hatchet', 'holster', 'home theater', 'honeycomb',
    'hook', 'hoopskirt', 'horizontal bar', 'horse cart', 'hourglass', 'iPod', 'iron', 'jack-o\'-lantern', 'jean', 'jeep',
    'jersey', 'jigsaw puzzle', 'jinrikisha', 'joystick', 'kimono', 'knee pad', 'knot', 'lab coat', 'ladle', 'lampshade',
    'laptop', 'lawn mower', 'lens cap', 'letter opener', 'library', 'lifeboat', 'lighter', 'limousine', 'liner', 'lipstick',
    'Loafer', 'lotion', 'loudspeaker', 'loupe', 'lumbermill', 'magnetic compass', 'mailbag', 'mailbox', 'maillot', 'maillot',
    'manhole cover', 'maraca', 'marimba', 'mask', 'matchstick', 'maypole', 'maze', 'measuring cup', 'medicine chest', 'megalith',
    'microphone', 'microwave', 'military uniform', 'milk can', 'minibus', 'miniskirt', 'minivan', 'missile', 'mitten', 'mixing bowl',
    'mobile home', 'Model T', 'modem', 'monastery', 'monitor', 'moped', 'mortar', 'mortarboard', 'mosque', 'mosquito net',
    'motor scooter', 'mountain bike', 'mountain tent', 'mouse', 'mousetrap', 'moving van', 'muzzle', 'nail', 'neck brace', 'necklace',
    'nipple', 'notebook', 'obelisk', 'oboe', 'ocarina', 'odometer', 'oil filter', 'organ', 'oscilloscope', 'overskirt',
    'oxcart', 'oxygen mask', 'packet', 'paddle', 'paddlewheel', 'padlock', 'paintbrush', 'pajama', 'palace', 'panpipe',
    'paper towel', 'parachute', 'parallel bars', 'park bench', 'parking meter', 'passenger car', 'patio', 'pay-phone', 'pedestal', 'pencil box',
    'pencil sharpener', 'perfume', 'Petri dish', 'photocopier', 'pick', 'pickelhaube', 'picket fence', 'pickup', 'pier', 'piggy bank',
    'pill bottle', 'pillow', 'ping-pong ball', 'pinwheel', 'pirate', 'pitcher', 'plane', 'planetarium', 'plastic bag', 'plate rack',
    'plow', 'plunger', 'Polaroid camera', 'pole', 'police van', 'poncho', 'pool table', 'pop bottle', 'pot', 'potter\'s wheel',
    'power drill', 'prayer rug', 'printer', 'prison', 'projectile', 'projector', 'puck', 'punching bag', 'purse', 'quill',
    'quilt', 'racer', 'racket', 'radiator', 'radio', 'radio telescope', 'rain barrel', 'recreational vehicle', 'reel', 'reflex camera',
    'refrigerator', 'remote control', 'restaurant', 'revolver', 'rifle', 'rocking chair', 'rotisserie', 'rubber eraser', 'rugby ball', 'rule',
    'running shoe', 'safe', 'safety pin', 'saltshaker', 'sandal', 'sarong', 'sax', 'scabbard', 'scale', 'school bus',
    'schooner', 'scoreboard', 'screen', 'screw', 'screwdriver', 'seat belt', 'sewing machine', 'shield', 'shoe shop', 'shoji',
    'shopping basket', 'shopping cart', 'shovel', 'shower cap', 'shower curtain', 'ski', 'ski mask', 'sleeping bag', 'slide rule', 'sliding door',
    'slot', 'snorkel', 'snowmobile', 'snowplow', 'soap dispenser', 'soccer ball', 'sock', 'solar dish', 'sombrero', 'soup bowl',
    'space bar', 'space heater', 'space shuttle', 'spatula', 'speedboat', 'spider web', 'spindle', 'sports car', 'spotlight', 'stage',
    'steam locomotive', 'steel arch bridge', 'steel drum', 'stethoscope', 'stole', 'stone wall', 'stopwatch', 'stove', 'strainer', 'streetcar',
    'stretcher', 'studio couch', 'stupa', 'submarine', 'suit', 'sundial', 'sunglass', 'sunglasses', 'sunscreen', 'suspension bridge',
    'swab', 'sweatshirt', 'swimming trunks', 'swing', 'switch', 'syringe', 'table lamp', 'tank', 'tape player', 'teapot',
    'teddy', 'television', 'tennis ball', 'thatch', 'theater curtain', 'thimble', 'thresher', 'throne', 'tile roof', 'toaster',
    'tobacco shop', 'toilet seat', 'torch', 'totem pole', 'tow truck', 'toyshop', 'tractor', 'trailer truck', 'tray', 'trench coat',
    'tricycle', 'trimaran', 'tripod', 'triumphal arch', 'trolleybus', 'trombone', 'tub', 'turnstile', 'typewriter keyboard', 'umbrella',
    'unicycle', 'upright', 'vacuum', 'vase', 'vault', 'velvet', 'vending machine', 'vestment', 'viaduct', 'violin',
    'volleyball', 'waffle iron', 'wall clock', 'wallet', 'wardrobe', 'warplane', 'washbasin', 'washer', 'water bottle', 'water jug',
    'water tower', 'whiskey jug', 'whistle', 'wig', 'window screen', 'window shade', 'Windsor tie', 'wine bottle', 'wing', 'wok',
    'wooden spoon', 'wool', 'worm fence', 'wreck', 'yawl', 'yurt', 'web site', 'comic book', 'crossword puzzle', 'street sign',
    'traffic light', 'book jacket', 'menu', 'plate', 'guacamole', 'consomme', 'hot pot', 'trifle', 'ice cream', 'ice lolly',
    'French loaf', 'bagel', 'pretzel', 'cheeseburger', 'hotdog', 'mashed potato', 'head cabbage', 'broccoli', 'cauliflower', 'zucchini',
    'spaghetti squash', 'acorn squash', 'butternut squash', 'cucumber', 'artichoke', 'bell pepper', 'cardoon', 'mushroom', 'Granny Smith', 'strawberry',
    'orange', 'lemon', 'fig', 'pineapple', 'banana', 'jackfruit', 'custard apple', 'pomegranate', 'hay', 'carbonara',
    'chocolate sauce', 'dough', 'meat loaf', 'pizza', 'potpie', 'burrito', 'red wine', 'espresso', 'cup', 'eggnog',
    'alp', 'bubble', 'cliff', 'coral reef', 'geyser', 'lakeside', 'promontory', 'sandbar', 'seashore', 'valley',
    'volcano', 'ballplayer', 'groom', 'scuba diver', 'rapeseed', 'daisy', 'yellow lady\'s slipper', 'corn', 'acorn', 'hip',
    'buckeye', 'coral fungus', 'agaric', 'gyromitra', 'stinkhorn', 'earthstar', 'hen-of-the-woods', 'bolete', 'ear', 'toilet tissue'
]

# グローバル変数
model = None
transforms = None
imagenet_classes = []
device = None
results_log = []
last_print_time = None
total_frames_processed = 0


def get_confidence_color(prob):
    """確信度に応じた色を返す"""
    if prob >= 0.7:
        return (0, 255, 0)    # 緑(高信頼度)
    elif prob >= 0.5:
        return (0, 255, 255)  # 黄(中信頼度)
    elif prob >= 0.3:
        return (0, 165, 255)  # オレンジ(低中信頼度)
    else:
        return (0, 0, 255)    # 赤(低信頼度)


def video_processing(frame):
    global model, transforms, imagenet_classes, device, results_log, last_print_time, total_frames_processed

    # 総フレーム数をカウント
    total_frames_processed += 1

    # 画像前処理(timm標準変換)
    pil_image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
    input_tensor = transforms(pil_image).unsqueeze(0).to(device)

    # EfficientNetV2による分類実行
    with torch.no_grad():
        outputs = model(input_tensor)
        probabilities = F.softmax(outputs, dim=1)
        topk_prob, topk_indices = torch.topk(probabilities, TOP_K)
        topk_prob = topk_prob.cpu().numpy()[0]
        topk_indices = topk_indices.cpu().numpy()[0]

    # 日本語でトップK結果を表示(OpenCV+Pillow併用)
    font = ImageFont.truetype(FONT_PATH, FONT_SIZE)
    img_pil = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
    draw = ImageDraw.Draw(img_pil)
    draw.text((10, 30), f'画像分類結果 (上位{TOP_K}位):', font=font, fill=(0, 255, 0))

    # 分類結果表示と記録
    current_result = []
    for i, (class_index, confidence) in enumerate(zip(topk_indices, topk_prob)):
        if class_index < len(IMAGENET_CLASSES):
            class_name = IMAGENET_CLASSES[class_index]
            result_text = f'{i+1}位: {class_name} ({confidence:.3f})'
            current_result.append(result_text)
            # 確信度に応じた色で表示
            color = get_confidence_color(confidence)
            draw.text((10, 60 + i * 25), result_text, font=font, fill=color)

    # 1秒間隔でprint出力
    current_time = time.time()
    if last_print_time is None or current_time - last_print_time >= 1.0:
        frame_counter = len(results_log) + 1
        print(f'記録フレーム {frame_counter}: {current_result[0] if current_result else "分類なし"}')
        results_log.append(f'記録フレーム {frame_counter}: {", ".join(current_result)}')
        last_print_time = current_time

    # BGR色順序変換して返す
    return cv2.cvtColor(np.array(img_pil), cv2.COLOR_RGB2BGR)


print('EfficientNetV2画像分類プログラムを開始します')
print('EfficientNetV2-S: ImageNet 1000クラス分類')
print('特徴機能: Progressive Learning(段階的学習)による高速・高精度分類')
print('操作方法: qキーで終了')
print('結果保存: プログラム終了時にresult.txtに保存されます')
print(f'サポート動画形式: {", ".join(SUPPORTED_VIDEO_FORMATS)}')
print(f'Top-{TOP_K} 分類結果を表示')
print()

print('0: 動画ファイル')
print('1: カメラ')
print('2: サンプル動画')

choice = input('選択: ')
temp_file = None

if choice == '0':
    root = tk.Tk()
    root.withdraw()
    path = filedialog.askopenfilename(
        title='動画ファイルを選択',
        filetypes=[('動画ファイル', ' '.join(f'*{ext}' for ext in SUPPORTED_VIDEO_FORMATS)), ('すべてのファイル', '*.*')]
    )
    if not path:
        exit()
    cap = cv2.VideoCapture(path)
elif choice == '1':
    cap = cv2.VideoCapture(0, cv2.CAP_DSHOW)
    cap.set(cv2.CAP_PROP_BUFFERSIZE, 1)
elif choice == '2':
    # サンプル動画ダウンロード・処理
    url = 'https://github.com/opencv/opencv/raw/master/samples/data/vtest.avi'
    filename = 'vtest.avi'
    try:
        print('サンプル動画をダウンロード中...')
        urllib.request.urlretrieve(url, filename)
        temp_file = filename
        cap = cv2.VideoCapture(filename)
        print('サンプル動画の読み込み完了')
    except Exception as e:
        print(f'動画のダウンロードに失敗しました: {url}')
        print(f'エラー: {e}')
        exit()
else:
    print('無効な選択です')
    exit()

# 乱数シード設定
np.random.seed(RANDOM_SEED)
torch.manual_seed(RANDOM_SEED)

# デバイス設定
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'使用デバイス: {device}')

# メイン処理
try:
    # モデル読み込み
    print(f'EfficientNetV2-Sモデル \'{MODEL_NAME}\' をロード中...')
    model = timm.create_model(MODEL_NAME, pretrained=True)
    model = model.to(device)
    model.eval()

    # timm標準のデータ変換設定
    data_config = timm.data.resolve_model_data_config(model)
    transforms = timm.data.create_transform(**data_config, is_training=False)

    # ImageNetクラス名はIMAGENET_CLASSESを使用
    imagenet_classes = IMAGENET_CLASSES

    print(f'EfficientNetV2-Sモデル \'{MODEL_NAME}\' をロードしました')
    print('ImageNet 1000クラス分類を開始')

    last_print_time = time.time()

    while True:
        cap.grab()
        ret, frame = cap.retrieve()
        if not ret:
            break

        processed_frame = video_processing(frame)
        cv2.imshow('EfficientNetV2-S ImageNet画像分類', processed_frame)

        if cv2.waitKey(1) & 0xFF == ord('q'):
            break

finally:
    cap.release()
    cv2.destroyAllWindows()

    # result.txtファイルに保存
    try:
        with open('result.txt', 'w', encoding='utf-8') as f:
            f.write('EfficientNetV2-S ImageNet画像分類結果\n')
            f.write('=' * 50 + '\n')
            f.write(f'処理した総フレーム数: {total_frames_processed}\n')
            f.write(f'記録したフレーム数: {len(results_log)}\n')
            f.write(f'使用モデル: {MODEL_NAME}\n')
            f.write(f'使用デバイス: {device}\n')
            f.write(f'Top-{TOP_K} 分類結果\n')
            f.write('\n分類結果:\n')
            for result in results_log:
                f.write(result + '\n')
        print('result.txtに保存しました')
    except Exception as e:
        print(f'結果の保存に失敗しました: {e}')

    # 一時ファイルの削除
    if temp_file and os.path.exists(temp_file):
        try:
            os.remove(temp_file)
            print('一時ファイルを削除しました')
        except OSError:
            print('一時ファイルの削除に失敗しました')

print('プログラムを終了しました')

使用方法

  1. プログラムを実行すると、カメラが起動し、リアルタイムで画像分類が開始される
  2. カメラに向かって様々な物体を映すと、画像全体の分類結果がトップ5で表示される
  3. 各分類結果にはクラス名と信頼度が表示される
  4. EfficientNetV2のFused-MBConvとProgressive Learning技術により、YOLO11-clsより高精度な分類を実現
  5. フレーム情報でTraining-Aware NASの動作状況を確認できる
  6. 'q'キーを押すとプログラムが終了する

実験・探求のアイデア

EfficientNetV2モデル選択実験

プログラム冒頭のMODEL_NAMEを変更することで、異なるEfficientNetV2モデルを比較できる:

分類精度の検証実験

Fused-MBConvとProgressive Learningの効果を評価する:

リアルタイム応用実験

性能評価実験

効率的スケーリング能力の実験:Compound Scalingによる異なるサイズの画像での分類性能を評価する

信頼度閾値実験:様々な信頼度閾値での分類精度と検出率の変化を測定する

比較実験

従来手法との比較:EfficientNetV2以外の画像分類手法(YOLO11-cls、ResNet、ConvNeXt等)との性能比較

パラメータ効率性の検証:同等パラメータ数での他手法との精度比較