COCO 2017 データセットのダウンロードとカテゴリ情報や画像情報の確認(Windows 上)
【要約】 COCO 2017データセットは,Microsoftによって公開された画像データセットである.物体検出やセグメンテーションなどのタスクに利用され,80のカテゴリに対応している.数十万枚以上の画像とアノテーションが含まれ,各画像には詳細な情報が付属している.COCO 2017データセットをダウンロードするためには,COCO公式ページから必要なファイルをダウンロードして展開する.Pythonプログラムを使用して,カテゴリ情報や画像情報を確認することができる.選択したカテゴリに関連する画像の詳細が表示される.以上が,COCO 2017データセットのダウンロードと情報の確認手順である.
【目次】
COCO (Common Object in Context) データセット
COCO(Common Object in Context)データセットは,物体検出やセグメンテーション,キーポイント検出,姿勢推定,画像分類,キャプショニング等の多様なタスクに対応可能な画像データセットとして,2014年にMicrosoftにより公開された.これは,人間や自動車,家具,食品等,多岐にわたるカテゴリのオブジェクトを含む数十万枚以上の画像から構成され,それぞれの画像は,80種類のカテゴリに対応する形でアノテーションが施されている. COCO は次の URL で公開されているデータセット(オープンデータ)である.
COCO は,以下の特徴がある.
- 328,000枚の画像,うち,200,000枚以上がラベル付け済み.
- 1,500,000 個のオブジェクト
- オブジェクトのカテゴリ数:80
- オブジェクトのバウンディングボックス,セグメンテーション結果
- 画像ごとのキャプション数: 5
- 250,000 名の人物に,キーポイントが付いている.(左目、鼻、右腰、右足首などの 17のキーポイント)
- 39,000枚以上の画像と56,000個以上の人物に対する Dense pose アノテーション.
- 2014, 2017 などの種類がある.2014 と比べると,2017 では,訓練,検証,テストの分割が異なる,panoptic segmenation についてのアノテーションが追加されているなどの違いがある.
COCO の 80 のクラスのラベルは次の通りである.
['person', 'bicycle', 'car', 'motorcycle', 'airplane', 'bus', 'train', 'truck', 'boat', 'traffic light', 'fire hydrant', 'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse', 'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack', 'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis', 'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove', 'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass', 'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake', 'chair', 'couch', 'potted plant', 'bed', 'dining table', 'toilet', 'tv', 'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush']
【文献】
Tsung-Yi Lin, Michael Maire, Serge Belongie, Lubomir Bourdev, Ross Girshick, James Hays, Pietro Perona, Deva Ramanan, C. Lawrence Zitnick, Piotr Dollr, Microsoft COCO: Common Objects in Context, CoRR, abs/1405.0312, 2014.
https://arxiv.org/pdf/1405.0312v3.pdf
【関連する外部ページ】
- Papers With Code の COCO データセットのページ: https://paperswithcode.com/dataset/coco
- PyTorch の COCO データセット: https://pytorch.org/vision/stable/datasets.html#torchvision.datasets.CocoDetection
- TensorFlow データセット の COCO データセット: https://www.tensorflow.org/datasets/catalog/coco
前準備
Python のインストール(Windows上)
注:既にPython(バージョン3.12を推奨)がインストール済みの場合は,この手順は不要である.
winget(Windowsパッケージマネージャー)を使用してインストールを行う
- Windowsで,コマンドプロンプトを管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
- winget(Windowsパッケージマネージャー)が利用可能か確認する:
winget --version
- Pythonのインストール(下のコマンドにより Python 3.12 がインストールされる).
- Python詳細ガイド:Pythonまとめ »
【関連する外部サイト】
【サイト内の関連ページ】
Build Tools for Visual Studio 2022 (ビルドツール for Visual Studio 2022)または Visual Studio 2022 のインストール(Windows 上)
CUDAツールキットは、GPU上でコードをコンパイルするためにC++コンパイラを必要とします。そのため、事前にMicrosoft C++ Build Tools または Visual Studio (C++開発ワークロードを含む) をインストールしておく必要があります。
【インストールの判断】 Build Tools for Visual Studio は,C++コンパイラなどを含む開発ツールセットです. Visual Studio は統合開発環境であり,いくつかのエディションがあり,Build Tools for Visual Studioの機能を含むか連携して使用します.インストールは以下の基準で判断してください:
- コマンドラインからのビルドなど、C++コンパイラ機能のみが必要な場合:
- Visual Studioのエディタやデバッガなどの統合開発環境機能が必要な場合、あるいは、どちらをインストールすべきかよく分からない場合:
Visual Studio Community (または他のエディション) をインストール します.
Visual Studio 2022 をインストールする際に,「C++ によるデスクトップ開発」ワークロードを選択することで,必要なBuild Toolsの機能も一緒にインストールされます.
不明な点がある場合は,Visual Studio 全体をインストール する方が、後で機能を追加する手間が省ける場合があります.
Build Tools for Visual Studio 2022 のインストール(Windows 上)
- Windows で,コマンドプロンプトを管理者権限で起動します(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)。
以下の
winget
コマンドを実行します。winget
はWindows標準のパッケージマネージャーです。--scope machine
オプションはシステム全体にインストールすることを意味します。次のコマンドは,Build Tools for Visual Studio 2022と、多くのプログラムで必要とされるVC++ 2015以降の再頒布可能パッケージをインストールします.
- Build Tools for Visual Studio 2022 で C++ によるデスクトップ開発関連コンポーネントのインストール
CUDA開発には、標準のC++開発ツールに加えて、特定のコンポーネントが必要になる場合があります。
- Visual Studio Installer を起動します。
起動方法: スタートメニューから「Visual Studio Installer」を探して実行します.
- Visual Studio Build Tools 2022 の項目で「変更」ボタンをクリックします.
- 「ワークロード」タブで「C++ によるデスクトップ開発」をクリックして選択します。画面右側の「インストールの詳細」で、必要に応じて「v143 ビルドツール用 C++/CLI サポート(最新)」、「ATL」、「MFC」などをチェックします(これらは一般的なC++開発や特定のプロジェクトタイプで必要になる場合があります)。その後、「変更」をクリックしてインストールまたは変更を適用します.
- Visual Studio Installer を起動します。
Visual Studio Community 2022 のインストール(Windows 上)
- Windows で,コマンドプロンプトを管理者権限で起動します。
- インストールコマンドの実行
以下の
winget
コマンドを実行します。--override "--add ..."
部分で、インストールするワークロードやコンポーネントを指定しています。winget install Microsoft.VisualStudio.2022.Community --scope machine --override "--add Microsoft.VisualStudio.Workload.NativeDesktop Microsoft.VisualStudio.ComponentGroup.NativeDesktop.Core Microsoft.VisualStudio.Component.VC.CLI.Support Microsoft.VisualStudio.Component.CoreEditor Microsoft.VisualStudio.Component.NuGet Microsoft.VisualStudio.Component.Roslyn.Compiler Microsoft.VisualStudio.Component.TextTemplating Microsoft.VisualStudio.Component.Windows.SDK.Latest Microsoft.VisualStudio.Component.VC.Tools.x86.x64 Microsoft.VisualStudio.Component.VC.ATL Microsoft.VisualStudio.Component.VC.ATLMFC" winget install Microsoft.VisualStudio.2022.Community --scope machine Microsoft.VCRedist.2015+.x64
インストールされる主要なコンポーネントの説明:
NativeDesktop
(C++によるデスクトップ開発): CUDA開発に必要なC++コンパイラ(VC.Tools.x86.x64
)やWindows SDK (Windows.SDK.Latest
)など、基本的な開発ツール一式を含みます。CoreEditor
: Visual Studioの基本的なコードエディタ機能を提供します。VC.CLI.Support
: C++/CLIを用いた開発サポート(通常、純粋なCUDA C++開発では不要な場合もあります)。NuGet
: .NETライブラリ管理用(C++プロジェクトでも利用されることがあります)。VC.ATL
/VC.ATLMFC
: 特定のWindowsアプリケーション開発フレームワーク(通常、CUDA開発自体には直接必要ありません)。
システム要件と注意事項:
- 管理者権限でのインストールが必須です。
- 必要ディスク容量:10GB以上(選択するコンポーネントにより変動)。
- 推奨メモリ:8GB以上のRAM。
- インストール過程でシステムの再起動が要求される可能性があります。
- 安定したインターネット接続環境が必要です。
後から追加のコンポーネントが必要になった場合は,Visual Studio Installerを使用して個別にインストールすることが可能です.
- インストール完了の確認
インストールが成功したか確認するには、管理者権限のコマンドプロンプトで以下のコマンドを実行します。
winget list Microsoft.VisualStudio.2022.Community
リストに表示されればインストールされています。
トラブルシューティング:
インストール失敗時は,以下のログファイルを確認すると原因究明の手がかりになります:
%TEMP%\dd_setup_
.log %TEMP%\dd_bootstrapper_ .log (
は実行日時に対応する文字列) - (オプション) Visual Studio Installer での確認と変更
winget
でのインストール後も、Visual Studio Installerを使ってインストール内容を確認・変更できます。- Visual Studio Installer を起動します。
- Visual Studio Community 2022 の項目で「変更」をクリックします。
- 「ワークロード」タブで「C++ によるデスクトップ開発」がチェックされていることを確認します。必要であれば、「個別のコンポーネント」タブで特定のツール(例: 特定バージョンのMSVCコンパイラ、CMakeツールなど)を追加・削除できます。「インストールの詳細」で「v143 ビルドツール用 C++/CLI サポート(最新)」などが選択されているかも確認できます。変更後、「変更」または「インストール」をクリックします。
7-Zip のインストール(Windows 上)
7-Zipは,ファイル圧縮・展開(解凍)ツール
- Windows で,コマンドプロンプトを管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
- 次のコマンドを実行
次のコマンドは,7-Zipをインストールするものである.
winget install --scope machine 7zip.7zip powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\7-Zip\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"
【関連する外部ページ】
- 7-Zip の公式ページ: https://7-zip.opensource.jp/
ダウンロード手順
- COCO データセットの公式ページから,
2017 Train images, 2017 Val images, 2017 Train/Val annotations をダウンロード
コマンドプロンプトを管理者として開き ダウンロードと展開のため,次のコマンドを実行
参考Webページ: https://gist.github.com/mkocabas/a6177fc00315403d31572e17700d7fd9
cd /d c:%HOMEPATH% mkdir coco2017 mkdir coco2017\coco mkdir coco2017\coco\images cd /d c:%HOMEPATH%\coco2017 ECHO labels curl -O -L https://github.com/ultralytics/yolov5/releases/download/v1.0/coco2017labels-segments.zip ECHO 19G, 118k images curl -O http://images.cocodataset.org/zips/train2017.zip ECHO 1G, 5k images curl -O http://images.cocodataset.org/zips/test2017.zip ECHO 7G, 41k images (optional) curl -O http://images.cocodataset.org/zips/val2017.zip ECHO unlabeled curl -O http://images.cocodataset.org/zips/unlabeled2017.zip ECHO curl -O http://images.cocodataset.org/annotations/annotations_trainval2017.zip curl -O http://images.cocodataset.org/annotations/stuff_annotations_trainval2017.zip curl -O http://images.cocodataset.org/annotations/image_info_test2017.zip curl -O http://images.cocodataset.org/annotations/image_info_unlabeled2017.zip REM curl -O http://images.cocodataset.org/annotations/stuff_annotations_trainval2017.zip ECHO cd /d c:%HOMEPATH%\coco2017 "c:\Program Files\7-Zip\7z.exe" x coco2017labels-segments.zip cd /d c:%HOMEPATH%\coco2017\coco\images "c:\Program Files\7-Zip\7z.exe" x ..\..\train2017.zip "c:\Program Files\7-Zip\7z.exe" x ..\..\test2017.zip "c:\Program Files\7-Zip\7z.exe" x ..\..\val2017.zip "c:\Program Files\7-Zip\7z.exe" x ..\..\unlabeled2017.zip REM cd /d c:%HOMEPATH%\coco2017\coco REM "c:\Program Files\7-Zip\7z.exe" x ..\stuff_annotations_trainval2017.zip
- ファイルの配置は次のようになる.
└─%HOMEPATH%\coco2017\coco ├── annotations/ ├── captions_train2017.json ├── captions_val2017.json ├── image_info_test-dev2017.json ├── image_info_test2017.json ├── image_info_unlabeled2017.json ├── instances_train2017.json ├── instances_val2017.json ├── person_keypoints_train2017.json ├── person_keypoints_val2017.json ├── stuff_train2017.json └── stuff_val2017.json ├── images/ ├─test2017/ ├─train2017/ ├─unlabeled2017/ └─val2017/ ├── labels/ ├─train2017/ └─val2017/ ├─test-dev2017.txt ├─train2017.txt └─val2017.txt
カテゴリ情報や画像情報の確認(Python プログラム)(Windows 上)
pycocotools のインストール
- Windows で,コマンドプロンプトを管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
- pycocotools, COCO 2018 Panoptic Segmentation Task API のインストール
COCOデータセットをPythonで扱うためには,pycocotools を使う. pycocotools を使うことで,COCOデータセットのアノテーションを扱いやすくなる.
次のコマンドを実行
python -m pip install -U --ignore-installed pip python -m pip install -U cython python -m pip install "git+https://github.com/philferriere/cocoapi.git#egg=pycocotools&subdirectory=PythonAPI" python -m pip install git+https://github.com/cocodataset/panopticapi.git
カテゴリの情報の取得と表示
COCO (Common Objects in Context) データセットから 全てのカテゴリの情報を取得を表示
- エディタを起動
cd /d c:%HOMEPATH%\coco2017 notepad a.py
- エディタで,次のプログラムを保存
from pycocotools.coco import COCO annotation_file = 'coco/annotations/instances_val2017.json' coco = COCO(annotation_file) category = coco.loadCats(coco.getCatIds()) for i in category: print(i)
- Python プログラムの実行
Python プログラムの実行
- Windows では python (Python ランチャーは py)
- Ubuntu では python3
【サイト内の関連ページ】 Python のまとめ: 別ページ »
プログラムを a.pyのようなファイル名で保存したので, 「python a.py」のようなコマンドで行う.
python a.py
- 結果の確認
(以下省略)
画像情報の取得と表示
画面表示され,COCOデータセットのカテゴリがリストボックスに表示される. 選択したカテゴリに対して,関連する画像の情報が表示される.
- エディタを起動
cd /d c:%HOMEPATH%\coco2017 notepad b.py
- エディタで,次のプログラムを保存
アノテーションの情報も表示したいときは,「 # print(" annotation:", annotations)」の「# 」を消す.
from pycocotools.coco import COCO import tkinter as tk annotation_file = 'coco/annotations/instances_val2017.json' def get_selection(): selected_items = listbox.curselection() for i in selected_items: value = listbox.get(i) cat_names.append(value) root = tk.Tk() # リストボックスの作成 listbox = tk.Listbox(root, selectmode=tk.MULTIPLE) listbox.pack() # リストの要素を追加 coco = COCO(annotation_file) categories = coco.loadCats(coco.getCatIds()) for category in categories: listbox.insert(tk.END, category['name']) cat_names = [] # 閉じるボタンが押されたときの処理 root.protocol("WM_DELETE_WINDOW", lambda: [get_selection(), root.destroy()]) root.mainloop() # 選択されたカテゴリについて、image ID とファイル名を表示 for cat_name in cat_names: cat_id = coco.getCatIds(catNms=[cat_name])[0] print("category ID:", cat_id, "category name:", cat_name) image_ids = coco.getImgIds(catIds=[cat_id]) images = coco.loadImgs(image_ids) for image in images: print(" image ID:", image['id'], ", file name:", image['file_name']) annotation_ids = coco.getAnnIds(imgIds=[image['id']], catIds=[cat_id], iscrowd=None) annotations = coco.loadAnns(annotation_ids) # アノテーションの表示 # print(" annotation:", annotations)
- Python プログラムの実行
Python プログラムの実行
- Windows では python (Python ランチャーは py)
- Ubuntu では python3
【サイト内の関連ページ】 Python のまとめ: 別ページ »
プログラムを b.pyのようなファイル名で保存したので, 「python b.py」のようなコマンドで行う.
python b.py
メニューから選ぶ.複数選択可能.メニューはスクロールできることに注意.選び終わったら,右上の x をクリックするなどで閉じること.
- 結果の確認
(省略)