AIプログラミング実践ガイド：環境構築から探求へ

【概要】第1章では、Windows環境にPython、GPU計算基盤、AIエディタを導入し、開発環境を構築する。第2章では、構築した環境でAIプログラムを実行し、パラメータ変更による効果を観察する探求手法を学ぶ。たとえば学習率を0.1から0.01や0.5に変更し、損失の収束過程がどう変化するかをグラフで確認する。仮説を立て、プログラムを実行し、結果を観察するサイクルを通じて、AIの動作原理を体験的に理解できる。第3章では、探求を研究に発展させる方法を扱う。探求対象の特定、仮説立案、結果観察、記録整理という4つのステップを学び、予想外の結果からも知見を得る柔軟な思考を身につける。さらに、再現性の確保や研究倫理の遵守といった、研究者としての基本も習得する。

資料（教科書の体裁）: Word 版、PDF 版

概要プレゼン: パワーポイント

【この記事の対象読者】Windows環境でAIプログラミングや研究活動を始めたい人。PythonやGPU計算基盤の構築から始め、プログラムのパラメータ変更を通じた技術の探求、さらには本格的な研究計画の立案までを体系的に学びたい学生や技術者を対象としている。

【重要概念】

winget (Windows Package Manager): Windowsの公式パッケージ管理ツール。管理者権限のコマンドプロンプトからコマンドを入力することで、Python、CUDA、VS Codeなどの環境構築に必要なソフトウェアを一括してシステムにインストールできる。
AI駆動開発: AIがコード生成や修正を自律的に支援する開発手法。AI機能を統合したエージェント型IDEである「Windsurf」などを活用し、効率的なコーディングと実験を行う。
勾配降下法: 機械学習において、損失関数の値を最小化するためにパラメータ（重みやバイアス）を逐次調整する最適化手法。ここでは、学習率の変更がこの収束過程にどう影響するかを、Pythonプログラムを実行してグラフで確認する。
探求プロセス: 「探求対象の特定」「仮説の立案」「結果の観察」「記録と整理」の4ステップからなる学習プロセス。単にプログラムを動かすだけでなく、パラメータ変更による挙動の変化から動作原理を理解するなど、実験から得られた知見を研究へと発展させるための枠組み。

開発環境とビルドツールの準備
Pythonプログラム実行による探求
探求プロセス

第1章開発環境とビルドツールの準備

目標

本章の目標は、自身のパソコンでAIプログラミングの実行と実験が可能な環境を構築することである。本章を完了すると、さまざまなAIプログラムを動作させ、ソースコードの確認や修正ができる環境が整う。

1.1 概要

Windows環境でAIプログラミングを始めるための開発環境を構築する。Python、GPU計算基盤、AIエディタを導入することで、機械学習モデルの実行や実験、AIによるコード生成支援を活用した開発が可能になる。各ソフトウェアはコマンドラインから一括でインストールでき、パスの設定も自動化されるため、環境構築の手間を軽減できる。

本ガイドでは以下のソフトウェアをインストールする。

開発環境とビルドツール

ソフトウェア	説明	用途
Python 3.12	汎用プログラミング言語。3.12では型ヒント（変数や引数の型を明示する記法）の強化、インタープリタの最適化、サブインタープリタ（独立したPython実行環境）による並列処理の基盤を導入。	AI開発、データ解析、Web開発
VS Build Tools	MSVC（Microsoft Visual C++コンパイラ）、リンカ、Windows SDKを含む。C/C++のビルドやPython拡張ライブラリのコンパイルに使用する。	C/C++ビルド
Rust	システムプログラミング言語。所有権システム（メモリ管理機構）によりメモリ安全性をコンパイル時に保証する。VS Build Toolsが必要。	システム開発、高速化
Git	分散型バージョン管理システム（ソースコードの変更履歴を管理するツール）。変更履歴をDAG（有向非巡回グラフ：履歴の分岐と統合を表現するデータ構造）として管理し、共同開発を支援する。	ソースコード管理
CMake	クロスプラットフォームのビルド自動化ツール。定義ファイルからOSやコンパイラに応じたビルド構成を生成する。	ビルド構成の自動生成
7-Zip	圧縮・解凍ツール。LZMA/LZMA2（高圧縮アルゴリズム）による.7z形式のほか、tar.gz等のUnix系形式にも対応する。	ファイル圧縮・解凍
CUDA	NVIDIA GPU用の並列計算基盤。GPUをGPGPU（汎用GPU計算：グラフィックス処理以外の計算にGPUを利用する技術）として活用し、行列演算などを高速に処理する。	GPU並列計算
PyTorch	pipでインストール。Metaが開発した機械学習フレームワーク。動的計算グラフ（実行時にグラフを構築する方式）による柔軟な記述ができる。	機械学習モデル開発
Windsurf	AI機能を統合したエージェント型IDE（AIが主体的にタスクを遂行する開発環境）。コード生成や修正をAIが自律的に実行する。	AI駆動開発
Visual Studio Code	LSP（Language Server Protocol：言語サーバー規格、エディタと言語解析機能を分離する仕組み）対応のコードエディタ。拡張機能により各種言語の開発環境として使用できる。	コード編集
Cline	VS Code拡張機能。AIによるファイル操作、ターミナル実行、複数ファイルの編集ができる。MCP（Model Context Protocol：AIと外部ツールの連携規格）に対応。	AI駆動開発
GitHub Copilot Free	AIによるコード補完ツール。既存のコードを基に、関数の実装や次の行を予測して提示する。	コード補完
JupyterLab	pipでインストール。対話的プログラミング環境。コードと実行結果を一つのノートブックに記録しながら分析できる。	対話的データ分析

1.2 実行前の確認事項

ディスク空き容量が20GB以上あることを確認する
すでにPythonがインストール済みの場合は、基本的にそのまま使用する

1.3 ソフトウェアのインストール（Windows）

Windowsでは、wingetというWindowsの公式パッケージ管理ツールを用いて多くのソフトウェアをインストールできる。管理者権限で実行し、システム全体にインストールすることを推奨する。

なお，下にあるコマンドの詳細説明と，ここでインストールされるAIエディタの概要説明は，別ページ（Windows Python 開発環境とビルドツール構築ガイド）にあるので，必要に応じてアクセスしてほしい．

管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー → cmdと入力 → 右クリック → 「管理者として実行」）し、以下を実行する。wingetの--scope machineオプションでシステム全体にインストールするには、管理者権限が必要である。

REM 開発環境セットアップスクリプト（管理者権限で実行）

REM 管理者権限チェック
net session >nul 2>&1
if errorlevel 1 (
    echo 管理者権限で実行してください
    exit /b 1
)

REM Python 3.12 をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent --accept-source-agreements --accept-package-agreements

REM パス長制限の解除
reg add "HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem" /v LongPathsEnabled /t REG_DWORD /d 1 /f
reg query "HKLM\SYSTEM\CurrentControlSet\Control\FileSystem" /v LongPathsEnabled

REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
if exist "%PYTHON_PATH%" setx PYTHON_PATH "%PYTHON_PATH%" /M >nul
if exist "%PYTHON_SCRIPTS_PATH%" setx PYTHON_SCRIPTS_PATH "%PYTHON_SCRIPTS_PATH%" /M >nul
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
echo "%SYSTEM_PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PYTHON_PATH%;%PYTHON_SCRIPTS_PATH%;%SYSTEM_PATH%" /M >nul

REM Visual Studio 2022 Build Toolsとランタイムをシステム領域にインストール
winget install --scope machine --wait --accept-source-agreements --accept-package-agreements Microsoft.VisualStudio.2022.BuildTools Microsoft.VCRedist.2015+.x64

REM インストーラーとインストールパスの設定
set "VS_INSTALLER=C:\Program Files (x86)\Microsoft Visual Studio\Installer\vs_installer.exe"
set "VS_PATH=C:\Program Files\Microsoft Visual Studio\2022\BuildTools"

REM C++開発ワークロードのインストール
"%VS_INSTALLER%" modify --installPath "%VS_PATH%" --add Microsoft.VisualStudio.Workload.VCTools --includeRecommended --quiet --norestart
"%VS_INSTALLER%" modify --installPath "%VS_PATH%" --add Microsoft.VisualStudio.Component.VC.Tools.x86.x64 --includeRecommended --quiet --norestart

REM Rust をシステム全体にインストール
curl -o rustup-init.exe https://static.rust-lang.org/rustup/dist/x86_64-pc-windows-msvc/rustup-init.exe
set "RUSTUP_HOME=C:\Rust\rustup"
set "CARGO_HOME=C:\Rust\cargo"
setx RUSTUP_HOME "%RUSTUP_HOME%" /M
setx CARGO_HOME "%CARGO_HOME%" /M
rustup-init.exe -y
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
setx PATH "%CARGO_HOME%\bin;%SYSTEM_PATH%" /M
del rustup-init.exe

REM Git をシステム領域にインストール
winget install --scope machine --id Git.Git -e --silent --accept-source-agreements --accept-package-agreements

REM Git のパス設定
set "GIT_PATH=C:\Program Files\Git\cmd"
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
if exist "%GIT_PATH%" (
    echo "%SYSTEM_PATH%" | find /i "%GIT_PATH%" >nul
    if errorlevel 1 setx PATH "%GIT_PATH%;%SYSTEM_PATH%" /M >nul
)

REM CMakeをシステム領域にインストール
winget install --scope machine --id Kitware.CMake -e --silent

REM CMakeのパス設定
set "CMAKE_PATH=C:\Program Files\CMake\bin"
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
if exist "%CMAKE_PATH%" (
    echo "%SYSTEM_PATH%" | find /i "%CMAKE_PATH%" >nul
    if errorlevel 1 setx PATH "%CMAKE_PATH%;%SYSTEM_PATH%" /M >nul
)

REM 7-Zip をシステム領域にインストール
winget install --scope machine --id 7zip.7zip -e --silent --accept-source-agreements --accept-package-agreements

REM 7-Zip のパス設定
set "SEVENZIP_PATH=C:\Program Files\7-Zip"
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
if exist "%SEVENZIP_PATH%" (
    echo "%SYSTEM_PATH%" | find /i "%SEVENZIP_PATH%" >nul
    if errorlevel 1 setx PATH "%SEVENZIP_PATH%;%SYSTEM_PATH%" /M >nul
)

REM CUDAをシステム領域にインストール
winget install --scope machine --id Nvidia.CUDA --version 12.6 -e --silent --accept-package-agreements --accept-source-agreements
winget install --scope machine --id Microsoft.VCRedist.2015+.x64 -e --silent --accept-package-agreements --accept-source-agreements

REM CUDA のパス設定
set "CUDA_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6"
set "CUDNN_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6"
if exist "%CUDA_PATH%" setx CUDA_PATH "%CUDA_PATH%" /M >nul
if exist "%CUDNN_PATH%" setx CUDNN_PATH "%CUDNN_PATH%" /M >nul
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
if exist "%CUDA_PATH%\bin" (
    echo "%SYSTEM_PATH%" | find /i "%CUDA_PATH%\bin" >nul
    if errorlevel 1 setx PATH "%CUDA_PATH%\bin;%SYSTEM_PATH%" /M >nul
)

REM 環境変数TEMP, TMPの設定
mkdir C:\TEMP
set "TEMP_PATH=C:\TEMP"
setx TEMP "%TEMP_PATH%" /M >nul
setx TMP "%TEMP_PATH%" /M >nul

REM PyTorch をインストール
set "PYTHON_PATH=C:\Program Files\Python312"
"%PYTHON_PATH%\Scripts\pip" install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

REM JupyterLab をインストール
set "PYTHON_PATH=C:\Program Files\Python312"
"%PYTHON_PATH%\Scripts\pip" install -U jupyterlab

REM Windsurf をシステム領域にインストール
winget install --scope machine --id Codeium.Windsurf -e --silent --accept-source-agreements --accept-package-agreements
if exist "C:\Program Files\Windsurf\bin" "C:\Program Files\Windsurf\bin\windsurf" --install-extension MS-CEINTL.vscode-language-pack-ja

REM Microsoft VS Code をシステム領域にインストール
winget install --scope machine --id Microsoft.VisualStudioCode -e --silent --accept-source-agreements --accept-package-agreements

REM VS Code 拡張機能のインストール（Python環境、日本語化、Cline、GitHub Copilot）
if exist "C:\Program Files\Microsoft VS Code\bin" cd "C:\Program Files\Microsoft VS Code\bin"
if exist "C:\Program Files\Microsoft VS Code\bin" code --install-extension ms-python.python
if exist "C:\Program Files\Microsoft VS Code\bin" code --install-extension ms-python.vscode-pylance
if exist "C:\Program Files\Microsoft VS Code\bin" code --install-extension MS-CEINTL.vscode-language-pack-ja
if exist "C:\Program Files\Microsoft VS Code\bin" code --install-extension dongli.python-preview
if exist "C:\Program Files\Microsoft VS Code\bin" code --install-extension saoudrizwan.claude-dev
if exist "C:\Program Files\Microsoft VS Code\bin" code --install-extension GitHub.copilot

echo セットアップ完了

実行時のヒント

コマンドの途中で止まった場合は、まずEnterキーを1回押す。それでも進まない場合は、エラー内容をよく読む
Pythonのインストール時に「Modify Repair Uninstall」画面が出た場合は、Pythonがインストール済みであるため「Cancel」をクリックする

1.4 確認

次のプログラムを実行し、Pythonのバージョン、Gitのバージョン、PyTorchのバージョン、GPUの動作を確認する。Python 3.12、NVIDIA CUDA、Git、PyTorchのインストールに問題がないかも確認できる。

import sys
import subprocess
import torch

print(sys.version)
print(subprocess.check_output(['git', '--version'], text=True).strip())
print(torch.__version__)
print(torch.cuda.is_available())

第2章 Pythonプログラム実行による探求

目標

第1章で構築した環境を使用して、実際にAIプログラムを実行し、パラメータ変更による効果を観察する。本章では、pipを使用したPythonライブラリのインストール方法と、プログラムの変更および再実行による探求手法を習得する。本章における「探求」とは、プログラムのパラメータを変更し、その結果を観察・考察するサイクルを指す。

2.1 Windsurfでのプログラム実行手順

新規Pythonファイルの作成

メニューから File → New File を選択する
ファイル名を入力する（例：a.py）
保存したいフォルダ（ディレクトリ）を選び、Create File をクリックする

左側のメニューから既存のファイルを開くことも可能である。

コードの入力と実行

作成したファイルの画面で、コードを作成および編集する
画面上部の実行ボタン（再生マークのアイコン）をクリックしてプログラムを実行する
実行結果は画面下部のターミナルまたは出力ウィンドウに表示される

Windsurfの主な機能

Cascadeチャットの起動：Ctrl+L を押すと、Cascadeチャットを起動できる
Python実行環境（インタープリター）の設定確認：プログラムが正常に動作しない場合は、以下の手順で設定を確認する
1. Ctrl+Shift+P を押し、コマンドパレットを開く
2. "Python: Select Interpreter" と入力し、表示される候補から選択する
3. システムにインストールされたPython 3.12が選択されていることを確認する（選択されていなければ変更する）

2.2 必要なライブラリのインストール

Pythonプログラムはそれぞれ異なるライブラリを必要とする場合がある（例：後述のプログラムはmatplotlibライブラリを必要とする）。必要なライブラリがインストールされていない場合は、以下の手順でインストールする。

手順

管理者権限でコマンドプロンプトを起動する
- Windowsキーからcmdと入力し、右クリックして「管理者として実行」を選択する
pipコマンドでライブラリをインストールする

必要なライブラリはプログラムによって異なる。以下は代表的な例である。

pip install numpy pandas matplotlib pillow requests

インストール完了後、正常に終了したことを確認する。

主要なPythonライブラリ

Pythonには、さまざまな分野で活用できるライブラリがある。機械学習やデータサイエンス分野では、以下のライブラリが使用される。

PyTorch：Metaが開発したオープンソースの機械学習ライブラリである。深層学習モデルの構築と訓練に使用され、柔軟性と高速なGPU計算をサポートする。後述のプログラムでも使用する
timm：PyTorch上で動作する画像認識モデルのライブラリである。多数のSOTA（State-of-the-Art：最高性能）モデルが実装されており、転移学習などに活用される
NumPy：数値計算を行うためのライブラリである。多次元配列の操作が可能であり、科学計算の基盤となる
Pandas：データ分析を行うためのライブラリである。表形式データの操作や加工を得意とし、データの前処理に使用される
Matplotlib：グラフ描画ライブラリである。データの可視化に利用され、後述のプログラムでも損失の推移をグラフで表示するために使用する

2.3 プログラム実行による探求の基本手順

プログラム実行による探求は以下のサイクルで行う。

仮説設定：プログラムの動作について予想を立てる
コード変更：パラメータや値を変更する
実行：プログラムを実行して結果を得る
結果観察：出力やグラフを観察する
考察：結果から何が分かったかを整理し、次の仮説を立てる

このサイクルを繰り返すことで、プログラムの動作原理を理解する。次節で扱う学習率の変更は探求の一例であり、さまざまなパラメータや設定を対象とした探求が可能である。

2.4 学習率の変更と効果

本節では、学習率がモデルの学習速度に与える影響を観察する。

用語説明

損失関数：予測値と正解値の差を数値化する関数である。この値が小さいほど予測精度が高い
勾配降下法：損失を最小化するために、損失の傾き（勾配）を利用してパラメータを調整する最適化手法である

サンプルプログラム

import torch
import matplotlib.pyplot as plt

# 入力データと目標値を定義
x = torch.tensor([1., 2., 3., 4.])
y = torch.tensor([3., 5., 7., 9.])

# 学習する重み 'a' とバイアス 'b' を初期化。requires_grad=True により勾配計算を有効にする
a = torch.tensor(0.5, requires_grad=True)
b = torch.tensor(0.0, requires_grad=True)

# 各反復での損失を記録するためのリスト
losses = []

# 勾配降下法による学習ループ
for _ in range(10):
    # 予測値と目標値の差の二乗平均を損失として計算
    loss = ((a * x + b - y) ** 2).mean()

    # 損失値をリストに追加（.item() でテンソルからPythonの数値に変換）
    losses.append(loss.item())

    # 損失の勾配を計算
    loss.backward()

    # 勾配降下法による重み 'a' とバイアス 'b' の更新
    # .data を直接変更することで、この操作が勾配計算に影響しないようにする
    a.data -= 0.1 * a.grad
    b.data -= 0.1 * b.grad

    # 勾配をゼロにリセット（次の反復のために必要）
    a.grad.zero_()
    b.grad.zero_()

# 学習後の重み 'a'、バイアス 'b' と最終的な損失値を出力
print(f"a={a:.2f}, b={b:.2f}, loss={loss:.3f}")

# 損失の推移をグラフで表示
plt.plot(losses)
plt.xlabel('Iteration')
plt.ylabel('Loss')
plt.title('Training Loss')
plt.show()

このプログラムは、線形関数y=ax+b（一次関数）の重みaとバイアスbを勾配降下法で学習するPyTorchの実装である。入力データ[1,2,3,4]と目標値[3,5,7,9]から、初期重みa=0.5、初期バイアスb=0.0を10回の反復で最適化し、各ステップの損失値をリストに記録してグラフ表示する。重みaやバイアスbの初期値、または学習率0.1を変更することで、収束過程の違いを観察できる。

変更手順

a.pyファイルを開き、コードを表示する
以下の行を探す

a.data -= 0.1 * a.grad
b.data -= 0.1 * b.grad

この行の0.1を別の数値に書き換える
- 例：0.01（学習率を小さくする）
- 例：0.5（学習率を大きくする）
コードを変更した後、ファイルを保存する（Ctrl+SまたはメニューのFile → Save）
画面上部の実行ボタンをクリックしてプログラムを再実行する

期待される効果

学習率を変更すると、表示される損失のグラフに以下のような違いが見られる。

学習率を小さくした場合（例：0.01）：損失はゆっくりと減少する。重みaとbの更新量が小さいため、10回の反復では損失が十分に下がらない場合がある
学習率を大きくした場合（例：0.5）：損失は急激に変化する。適切な範囲内であれば速やかに収束するが、学習率が大きすぎると更新量が過大となり、損失が振動または発散することがある

実行結果の確認方法

プログラムが正常に実行されると、以下の結果が得られる。

コンソールに「a=2.00, b=1.00, loss=0.000」のような出力が表示される
損失のグラフが表示され、損失値が反復回数とともに減少する曲線が描かれる

グラフの横軸は反復回数（0から9まで）、縦軸は損失値を表す。正常な学習では、グラフの線が左上から右下に向かって下降する。学習率が適切な場合、滑らかな減少曲線を描いて最終的に損失がほぼ0に収束する。学習率が大きすぎると振動や発散を示し、小さすぎると変化が緩慢になる。

さまざまな学習率を試して損失のグラフがどのように変化するかを観察することで、学習率がモデルの収束に与える影響を理解できる。

演習

上記のプログラムを実行し、損失のグラフを確認する
学習率を0.01に変更して実行し、グラフの変化を観察する
学習率を0.5に変更して実行し、グラフの変化を観察する
それぞれの実行結果を比較し、学習率が収束過程に与える影響を考察する

この演習は一例である。内容に応じた考察、結果の記録、次の仮説設定を行うことが重要である。

発展ガイド

別ページに多数のAIプログラムと説明を記載しており、AI技術の多様性を確認できる。多数のAIプログラムの実行や探求が可能であり、本章の内容が参考となる。人工知能のプログラム実行体験と探求（Windows上）のページを参照されたい。 https://www.kkaneko.jp/ai/labo/index.html

第3章探求プロセス

3.1 学習目標

本章では、第2章で習得したプログラム探求の手法を発展させ、より広範囲の探求活動や研究計画の立案に応用できる汎用的なスキルを習得する。第2章の「探求」がパラメータ変更と結果観察のサイクルを指すのに対し、本章ではそれを基盤として、仮説立案から研究成果の発表までを含む包括的な探求プロセスを扱う。

具体的な到達目標は以下のとおりである。

探求プロセスの全体像を理解する
具体的な探求手順を実践できる
研究計画の立案から実践までの一連のプロセスを理解する
失敗や予想外の結果を学習機会として活用できる柔軟な思考を身につける

3.2 探求プロセスの実践手法

探求プロセスの概要

探求は以下の4つのステップで構成される。

探求対象の特定：実装されたPythonプログラムの確認などを通して、調整や変更が可能な部分を特定する
仮説の立案：変更による影響を予測する
結果の観察：仮説検証に適した方法で結果を確認する
記録と整理：探求結果を整理し、次の探求に活用する

具体例：オープンボキャブラリ型物体検出を用いた探求

ここでは、物体検出を研究テーマとした例を用いて、探求プロセスの各ステップを説明する。

オープンボキャブラリ型物体検出（Open-Vocabulary Object Detection, OVD）は、事前に定義されたカテゴリを超えて、任意のテキスト入力で記述された物体を検出する技術である。従来手法では訓練時に使用した限定的なカテゴリ（例：COCOデータセットの80クラス）のみを検出できたが、OVDでは訓練時に見たことのない新規カテゴリ（ノベルクラス）に対してもゼロショット検出が可能である。この技術は事前学習済みの視覚言語モデル（例：CLIP）を活用することで、視覚情報とテキスト記述を統合した物体検出を実現する。実用面では、新しい物体カテゴリに対してモデルの再学習を必要とせず、テキストプロンプトによる柔軟な検索条件指定が可能である。

この技術を題材として、探求プロセスの各ステップを以下に示す。なお、プログラム中では英語の単語および文章で指定する。

1. 探求対象の特定

実装されたPythonプログラムの確認などを通して、調整や変更が可能な部分を特定する。

テキストプロンプト（物体の名称、属性記述）（例：car、red backpack、person wearing hat）
信頼度閾値の設定（例：0.1、0.3、0.5、0.7）

2. 仮説の立案

変更による影響を予測し、検証可能な仮説を設定する。

ベースクラスとノベルクラスの検出性能比較：「訓練済みクラス（ベースクラス）の方が未訓練クラス（ノベルクラス）より高いAPを示す」
テキスト記述の抽象度による影響：「具体的記述（bicycle）の方が抽象的記述（two-wheeled vehicle）より高い検出精度を示す」
信頼度閾値の最適化：「ベースクラスとノベルクラスでは最適な信頼度閾値が異なる」

3. 結果の観察

仮説検証に適した方法で結果を確認する。

ベースクラスとノベルクラスの性能差：LVIS等のベンチマークでベースクラス、ノベルクラス、全体のAPを比較する
テキスト記述による検出精度変化：同一物体に対する異なる記述方法（carとred sports car）でのAP比較を行う
閾値変化による精度-再現率トレードオフ：信頼度閾値を0.1から0.9まで変化させた際のPrecision-Recallカーブの変化を観察する

4. 記録と整理

探求結果を整理し、次の探求に活用する。

テキストプロンプトとAP値の対応記録（例：bicycle→AP 0.45、mountain bike→AP 0.38）
ベースクラスとノベルクラス間のAPギャップの定量化
テキストプロンプトの記述方法がゼロショット検出性能に与える影響の分析
視覚言語モデルの特性や限界に関する知見の蓄積

探求から研究への発展

探求プロセスの最終段階として、プログラム実験を学術的研究に発展させることができる。発展の段階は以下のとおりである。

プログラム実験段階：個別のプログラムパラメータを変更し、結果を観察する
パターン発見段階：複数の実験結果から規則性や傾向を特定する
仮説形成段階：観察されたパターンの背景にある原理を推測する
体系的検証段階：仮説を検証するための計画的な実験を設計する
学術的位置づけ段階：既存の学術研究との関連性を明確化する

探求成果を研究として位置づける際の指針は以下のとおりである。

単発の実験結果ではなく、複数の実験から導かれた知見であること
他の研究者が同じ条件で実験を行えば同じ結果が得られる再現性があること
技術分野や社会に対する貢献の可能性が説明できること

3.3 探求における柔軟な思考

探求プロセスでは、ある方法でうまくいかなかった場合は、別の方法で目的達成を試みることが重要である。また、ある方法の精度が低い場合でも、それは失敗ではなく、モデルの特性や限界を理解するための重要な発見となりうる。

たとえば、OVDの探求において「抽象的記述の方が具体的記述より検出精度が高い」という予想に反する結果が得られたとする。この結果は、視覚言語モデルが具体的な視覚特徴と言語表現をどのように関連付けているかについての知見を与える。予想どおりの結果だけでなく、予想外の結果からも学ぶことができる点が探求の本質である。

探求プロセスにおいては、予想外の結果や期待と異なる結果も含めて、すべての結果が学習の機会となる。結果の良し悪しではなく、そこから何を学び取れるかが重要である。期待どおりでない結果からも、技術の限界、適用条件、改善の方向性などの知見を得ることができる。このような柔軟な思考が、継続的な探求と学習を可能にする。

3.4 研究計画の立案

研究計画の立案は、探求を成功に導くための準備段階である。自分の技術レベルや利用可能なリソースで解決可能な課題を設定し、現実的な目標設定を行うことが重要である。

研究テーマの選定

興味と関心：自分が本当に知りたいと思う問題を選ぶことが、継続的な取り組みの基盤となる
技術的実現可能性：現在の知識とスキルで取り組める範囲内の問題を設定する

研究目標の設定

目標設定においては、以下の点を確認する。

具体的：何を明らかにするかを明確に記述する
測定可能：達成度を客観的に評価できる指標を設定する
達成可能：現実的に実現可能な目標とする

目標の階層化として、最終目標までを段階的に達成できる中間目標を設定する。これにより、道筋を確認しながら進めることができる。

研究手法の選択

研究目標に適した手法を選択し、その手法を習得するための学習計画も含める。具体的な取り組み内容は以下のとおりである。

研究手法の調査：研究目標を達成するための技術や関連する先行事例を調査し、自分の研究に適用可能な手法を特定する
手法の選定：新しい手法の開発は慎重に検討し、まず既存手法の組み合わせや改良で目標達成が可能かを検討する
開発環境の構築：必要なソフトウェアやハードウェアを準備する
実験データの準備：プロトタイプやサンプル実装を通じて、技術的な障壁を早期に発見する
実験の実施と記録：小さな発見でも探求成果となりうるため、実験過程を詳細に記録する
結果の分析と考察：実験結果を分析し、仮説との整合性を検討する
文書化：実験データ、実験手順説明、考察、参考文献リストを含む文書として整理する

研究計画の作成と共有

研究計画を文書化することで、研究の方向性を明確にし、指導教員や同僚との議論に役立てることができる。学期の中盤など適切な時期に仲間や教員と共有し、意見を求めることが重要である。文書には以下の構成を含める。

背景
研究目標
取り組み
将来計画
参考文献

再現性の確保

研究の信頼性を担保するために、再現性の確保は不可欠である。具体的には、実験環境（ソフトウェアのバージョン、ハードウェア仕様）を詳細に記録し、他の研究者が同じ条件で実験を再現できるようにする。また、関連する学術論文を調査して内容を整理し、自分の手法と既存手法の違いを明確に説明できるようにしておく。

研究倫理の遵守

研究活動においては、倫理的な行動が不可欠である。他者の研究成果を適切に引用し、実験データの捏造や改ざんを行わないことは、研究者としての基本的な責務である。

成果発表の計画

研究成果の発表形式には、ゼミ発表、卒業研究発表、学会発表（オプション）等がある。発表内容は、背景と目的、手法、結果、考察、結論の流れで構成する。

スケジュール管理とリスク対策

研究期間を複数の段階に分割し、スケジュールには余裕を持たせる。使用する技術やツールが期待どおりに動作しない可能性を考慮し、代替手法を想定しておくことが重要である。

研究計画は固定的なものではなく、研究の進行とともに適切に修正していくことが必要である。定期的な見直しを通じて、より効果的な研究実施を目指す。

次のステップへ

統合開発環境と AI の支援により，プログラムの作成，バグの解決，機能変更などを効率的に確実に行う．

【サイト内の関連ページ】

Windows Python 開発環境とビルドツール構築ガイド
【概要】本ガイドでは、Windows環境でAIプログラミングを始めるための開発環境を構築する。Python、GPU計算基盤、ビルドツール、AIエディタを導入することで、機械学習モデルの実行や実験、AIによるコード生成支援を活用した開発が可能になる。各ソフトウェアのインストールとパスの設定は、コマンドラインから一括で行える。