TripoSR による単一画像からの3次元モデル推定

プログラム利用ガイド

1. このプログラムの利用シーン

写真や画像から3Dモデルを作成するためのソフトウェアである。製品写真からの3Dモデル化、キャラクターイラストの立体化、実物体のデジタルアーカイブなど、単一画像から3次元形状を復元したい場面で使用できる。

2. 主な機能

単一画像からの3Dモデル生成: 1枚の画像からOBJ形式の3Dメッシュファイルを作成する。
複数の入力方式: 以下の3種類から選択できる。
- 画像ファイル: 既存の画像ファイルを複数選択して処理する。
- カメラ: ウェブカメラで撮影した画像を処理する。
- サンプル画像: プログラム内蔵のサンプル画像で動作を確認する。
品質調整: メッシュ解像度（4段階）とテクスチャ生成の有無を選択できる。
3Dプレビュー: 生成したモデルをその場で確認できる。

3. 基本的な使い方

起動と入力ソースの選択:
プログラムを実行すると、入力ソース選択メニューが表示される。0（画像ファイル）、1（カメラ）、2（サンプル画像）のいずれかを入力してEnterキーを押す。
品質設定:
メッシュ解像度を1〜4から選択する（デフォルトは3:高解像度）。続いてテクスチャ生成の有無、3Dプレビュー表示の有無を選択する。
画像の入力:
画像ファイルモードではファイル選択ダイアログが開く。カメラモードではプレビュー画面が表示され、スペースキーで撮影する。
結果の確認:
処理完了後、結果画像が表示される。3Dプレビューを有効にした場合は、ワイヤーフレーム表示でモデルを確認できる。
終了方法:
画像表示中は任意のキー、カメラモードはqキー、3Dプレビューはescキーで終了する。

4. 便利な機能

解像度の選択: 低解像度（64）は処理が速く、高解像度（256、320）は細部まで再現できる。用途に応じて選択する。
テクスチャ生成: 頂点カラーのみで十分な場合は無効にすると処理時間を短縮できる。
3Dプレビュー: マウスドラッグでモデルを回転させ、形状を確認できる。
連続処理: 画像ファイルモードでは複数ファイルを選択して連続処理できる。カメラモードではスペースキーを繰り返し押すことで複数回撮影できる。
処理ログ: result.txtファイルに処理結果（ファイル名、頂点数、面数）が記録される。

Python開発環境，ライブラリ類

Python 3.12 のインストール

インストール済みの場合は実行不要。

管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。

REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent --accept-source-agreements --accept-package-agreements
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul

【関連する外部ページ】

Python の公式ページ: https://www.python.org/

AI エディタ Windsurf のインストール

Pythonプログラムの編集・実行には、AI エディタの利用を推奨する。ここでは，Windsurfのインストールを説明する。

管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行して、Windsurfをシステム全体にインストールする。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。

winget install --scope machine --id Codeium.Windsurf -e --silent --accept-source-agreements --accept-package-agreements

【関連する外部ページ】

Windsurf の公式ページ: https://windsurf.com/

Gitのインストール

管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。


REM Git をシステム領域にインストール
winget install --scope machine --id Git.Git -e --silent --accept-source-agreements --accept-package-agreements
REM Git のパス設定
set "GIT_PATH=C:\Program Files\Git\cmd"
if exist "%GIT_PATH%" (
    echo "%PATH%" | find /i "%GIT_PATH%" >nul
    if errorlevel 1 setx PATH "%PATH%;%GIT_PATH%" /M >nul
)

CMakeのインストール


REM CMake をシステム領域にインストール
winget install --scope machine --id Kitware.CMake -e --silent
REM CMake のパス設定
set "GMAKE_PATH=C:\Program Files\CMake\bin"
if exist "%GMAKE_PATH%" (
    echo "%PATH%" | find /i "%GMAKE_PATH%" >nul
    if errorlevel 1 setx PATH "%PATH%;%GMAKE_PATH%" /M >nul
)

Visual Studio 2022 Build Toolsとランタイムのインストール

管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。


REM Visual Studio 2022 Build Toolsとランタイムのインストール
winget install --scope machine --wait --accept-source-agreements --accept-package-agreements Microsoft.VisualStudio.2022.BuildTools Microsoft.VCRedist.2015+.x64

REM インストーラーとインストールパスの設定
set VS_INSTALLER="C:\Program Files (x86)\Microsoft Visual Studio\Installer\vs_installer.exe"
set VS_PATH="C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools"

REM C++開発ワークロードのインストール（次のコマンドは全体で１行である）
%VS_INSTALLER% modify --installPath %VS_PATH% --add Microsoft.VisualStudio.Workload.VCTools --add Microsoft.VisualStudio.Component.VC.Tools.x86.x64 --add Microsoft.VisualStudio.Component.Windows11SDK.22621 --includeRecommended --quiet --norestart

必要なライブラリをシステム領域にインストール

コマンドプロンプトを管理者として実行（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行する


pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
"C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools\VC\Auxiliary\Build\vcvars64.bat"
set DISTUTILS_USE_SDK=1
pip install -U setuptools wheel
pip install rembg pillow opencv-python trimesh numpy transformers huggingface-hub

cd %USERPROFILE%
git clone https://github.com/VAST-AI-Research/TripoSR.git
cd TripoSR
pip install -r requirements.txt
cd ..

icacls "C:\Program Files\Python312\Lib\site-packages\pymatting" /grant %USERNAME%:(OI)(CI)F /T
icacls "C:\Program Files\Python312\Lib\site-packages\numba" /grant %USERNAME%:(OI)(CI)F /T
mkdir "%USERPROFILE%\.cache\huggingface\hub" 2>nul
icacls "%USERPROFILE%\.cache\huggingface\hub" /grant %USERNAME%:(OI)(CI)F /T
icacls "C:\Program Files\Python312\Lib\site-packages" /grant %USERNAME%:(OI)(CI)M /T

TripoSR による単一画像からの3次元モデル推定プログラム

1. 概要

このプログラムは、単一の画像から3次元メッシュモデルを生成する。入力画像に対して背景除去処理を適用した後、TripoSRモデルによる3D再構成を実行し、OBJ形式のメッシュファイルとして出力する。画像ファイル、カメラ、サンプル画像の3種類の入力ソースに対応している。

2. 主要技術

TripoSR

Stability AIとTripo AIが共同開発した単一画像からの3D再構成モデルである[1]。Large Reconstruction Model（LRM）アーキテクチャをベースとし、DINOv1ビジョントランスフォーマーで初期化されたイメージエンコーダを使用する。フィードフォワード型の推論により、1枚の画像から約0.5秒で3Dメッシュを生成する。学習済みモデルはHuggingFaceで公開されている[2]。

rembg

画像から前景を抽出するための背景除去ライブラリである。U2-Netをベースとしたセグメンテーションモデルにより、対象物体を背景から分離する。TripoSRへの入力前処理として、背景を除去した画像を生成する役割を担う。

3. 技術的特徴

フィードフォワード型3D生成
従来の最適化ベース手法と異なり、学習済みモデルによる単一パスの推論で3Dモデルを生成する。推論時に反復処理を必要としないため、処理時間を短縮できる。
Marching Cubes法によるメッシュ抽出
NeRF（Neural Radiance Field）表現から三角形メッシュを抽出する。解像度パラメータ（64〜320）により、メッシュの細かさと処理速度のトレードオフを調整できる。
テクスチャ生成オプション
頂点カラーによる着色と、テクスチャマップのベイキングの2種類の出力モードを選択できる。テクスチャマップ生成時は、MTLファイルとPNGテクスチャファイルを併せて出力する。
GPU/CPU自動選択
PyTorchのCUDA対応状況を検出し、利用可能な場合はGPUを使用する。GPU使用時はcuDNNベンチマークモードを有効化する。

4. 実装の特色

3種類の入力ソース（画像ファイル、カメラ、サンプル画像）から選択可能
tkinterによる複数ファイル選択ダイアログ
カメラモードでのスペースキー撮影による連続処理
OpenCVによる簡易3Dプレビュー表示（ワイヤーフレーム描画、マウスドラッグ回転）
日本語フォント対応の画面表示（メイリオフォント使用）
タイムスタンプ付きファイル名による出力管理
result.txtへの処理結果ログ保存

5. 参考文献

[1] Tochilkin, D., Pankratz, D., Liu, Z., Huang, Z., Letts, A., Li, Y., ... & Boss, M. (2024). TripoSR: Fast 3D Object Reconstruction from a Single Image. arXiv preprint arXiv:2403.02151. https://arxiv.org/abs/2403.02151

[2] Stability AI. (2024). TripoSR Model. HuggingFace. https://huggingface.co/stabilityai/TripoSR

ソースコード


# プログラム名: TripoSR による単一画像からの3次元モデル推定プログラム
# 特徴技術名: TripoSR（単一画像から3Dモデルを推定する手法）
# 出典: Tochilkin, D., et al. (2024). TripoSR: Fast 3D Object Reconstruction from a Single Image. arXiv preprint arXiv:2403.02151.
# 特徴機能: フィードフォワード3D生成により、単一画像から0.5秒以内で3Dメッシュを生成
# 学習済みモデル: HuggingFaceで提供されるstabilityai/TripoSRモデル（model.ckpt、1.68GB）。Large Reconstruction Model（LRM）アーキテクチャをベースとし、DINOv1ビジョントランスフォーマーで初期化されたイメージエンコーダを使用。URL: https://huggingface.co/stabilityai/TripoSR
#
# === Windowsでのキャッシュディレクトリ権限設定 ===
#
# 問題1: pymatting/numbaのキャッシュ権限エラーの解決
# 管理者権限のコマンドプロンプトで以下を実行:
#   icacls "C:\Program Files\Python312\Lib\site-packages\pymatting" /grant %USERNAME%:(OI)(CI)F /T
#   icacls "C:\Program Files\Python312\Lib\site-packages\numba" /grant %USERNAME%:(OI)(CI)F /T
#
# 問題2: HuggingFaceのキャッシュディレクトリ権限
# HuggingFaceのモデルキャッシュはデフォルトで C:\Users\ユーザー名\.cache\huggingface\hub に保存されます。
#   mkdir "%USERPROFILE%\.cache\huggingface\hub" 2>nul
#   icacls "%USERPROFILE%\.cache\huggingface\hub" /grant %USERNAME%:(OI)(CI)F /T
#
# 方式設計:
#   関連利用技術:
#     - PIL（画像処理）
#     - NumPy（数値計算）
#     - PyTorch（機械学習フレームワーク）
#     - rembg（背景除去）
#     - trimesh（3Dメッシュ処理）
#     - OpenCV（画像入出力・表示）
#     - tkinter（ファイル選択）
#     - tsr（TripoSRシステム）
#   入力と出力:
#     - 入力: 画像（ユーザは「0:画像ファイル，1:カメラ，2:サンプル画像」のメニューで選択．0:画像ファイルの場合はtkinterで複数ファイル選択可能．1の場合はOpenCVでカメラが開き，スペースキーで撮影（複数回可能）．2の場合はサンプル画像を使用）
#     - 出力: 3DメッシュファイルOBJ形式、OpenCV画面での結果表示、result.txtファイルへの処理結果保存
#   処理手順:
#     1. 入力画像の読み込み・前処理
#     2. 背景除去処理
#     3. TripoSRモデルによる3D再構成
#     4. メッシュデータの生成・保存
#     5. 結果の可視化
#   前処理、後処理:
#     - 前処理: 背景除去（rembg）、画像リサイズ・正規化
#     - 後処理: メッシュの最適化、テクスチャマッピング
#   追加処理: 画像品質向上のための自動コントラスト調整、メッシュの頂点数最適化
#   調整を必要とする設定値: resolution（メッシュ解像度、32-320の範囲）、threshold（背景除去閾値）
#
# 将来方策: 複数画像からの統合3Dモデル生成、リアルタイム処理への拡張
# その他の重要事項: CUDA対応によるGPU加速、メモリ使用量の最適化
#
# 前準備:
# 1. TripoSRのインストール:
#    git clone https://github.com/VAST-AI-Research/TripoSR.git
#    cd TripoSR
#    pip install -r requirements.txt
#    cd ..
#    そして、TripoSRフォルダをPythonのsite-packagesにコピーするか、
#    このスクリプトと同じディレクトリに配置してください
#
# 2. その他の依存関係:
#    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
#    pip install rembg pillow opencv-python trimesh numpy transformers huggingface-hub
#
# rembg/numbaで問題が発生する場合:
# 1. 以下のコマンドで権限を修正（管理者権限のコマンドプロンプトで実行）:
#    icacls "C:\Program Files\Python312\Lib\site-packages" /grant %USERNAME%:(OI)(CI)M /T
# 2. または、rembgをアンインストールして背景除去なしで実行:
#    pip uninstall rembg pymatting numba llvmlite -y

import os
from datetime import datetime

# Numbaを無効化（必ずインポート前に設定）
os.environ['NUMBA_DISABLE_JIT'] = '1'  # Numbaの無効化
os.environ['NUMBA_DISABLE_CUDA'] = '1'  # NumbaのCUDA機能を無効化
os.environ['NUMBA_CACHE_DIR'] = r'C:\Users\user\AppData\Local\Temp\numba_cache'  # キャッシュディレクトリを変更

import cv2
import tkinter as tk
from tkinter import filedialog
import urllib.request
import numpy as np
from PIL import Image, ImageDraw, ImageFont
import torch
import trimesh
import tempfile

# rembgのインポートを条件付きに
try:
    import rembg
    REMBG_AVAILABLE = True
except ImportError:
    print('警告: rembgがインストールされていないか、エラーが発生しました。背景除去機能は使用できません。')
    REMBG_AVAILABLE = False

# TripoSRシステムのインポート
import sys
import os

# TripoSRがローカルにある場合のパスを追加
if os.path.exists('./TripoSR'):
    sys.path.insert(0, './TripoSR')
elif os.path.exists('../TripoSR'):
    sys.path.insert(0, '../TripoSR')

try:
    from tsr.system import TSR
    from tsr.utils import remove_background, resize_foreground
    TRIPOSR_AVAILABLE = True
except ImportError:
    print('エラー: TripoSRがインストールされていません。')
    print('インストール方法:')
    print('1. git clone https://github.com/VAST-AI-Research/TripoSR.git')
    print('2. cd TripoSR')
    print('3. pip install -r requirements.txt')
    print('4. このスクリプトと同じディレクトリにTripoSRフォルダを配置')
    print('プログラムを終了します。')
    exit(1)

# GPU/CPU自動選択
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'デバイス: {str(device)}')
# GPU使用時の最適化
if device.type == 'cuda':
    torch.backends.cudnn.benchmark = True

# TripoSRモデルのセットアップ
model = None
rembg_session = None

def setup_triposr_model():
    global model, rembg_session
    try:
        print('TripoSRモデルを初期化中...')
        model = TSR.from_pretrained(
            "stabilityai/TripoSR",
            config_name="config.yaml",
            weight_name="model.ckpt"
        )
        # チャンクサイズを調整（メモリ使用量とスピードのバランス）
        model.renderer.set_chunk_size(8192)
        model.to(device)
        model.eval()
        print('TripoSRモデルの初期化完了')

        # 背景除去セッションの初期化
        if REMBG_AVAILABLE:
            rembg_session = rembg.new_session()
        else:
            rembg_session = None
        return True
    except Exception as e:
        print(f'エラー: TripoSRモデルの初期化に失敗しました: {e}')
        print('インターネット接続を確認してください。')
        print('プログラムを終了します。')
        exit(1)

# 背景除去処理（TripoSR互換）
def remove_background_custom(image, session=None):
    try:
        if not REMBG_AVAILABLE:
            print('警告: rembgが利用できません。背景除去をスキップします。')
            if isinstance(image, np.ndarray):
                # BGRからRGBに変換してから正規化
                if len(image.shape) == 3 and image.shape[2] == 3:
                    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
                return image.astype(np.float32) / 255.0
            else:
                return np.array(image).astype(np.float32) / 255.0

        if session is None:
            session = rembg.new_session()

        if isinstance(image, np.ndarray):
            image_pil = Image.fromarray(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
        else:
            image_pil = image

        # 背景除去
        result = rembg.remove(image_pil, session=session)

        # アルファチャンネルを使用して背景を白に設定
        result_np = np.array(result).astype(np.float32) / 255.0
        if result_np.shape[2] == 4:  # RGBA
            rgb = result_np[:, :, :3]
            alpha = result_np[:, :, 3:4]
            result_rgb = rgb * alpha + (1 - alpha)
            result_np = result_rgb

        return result_np
    except Exception as e:
        print(f'背景除去に失敗しました: {e}')
        if isinstance(image, np.ndarray):
            # BGRからRGBに変換してから正規化
            if len(image.shape) == 3 and image.shape[2] == 3:
                image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
            return image.astype(np.float32) / 255.0
        else:
            return np.array(image).astype(np.float32) / 255.0

# TripoSRを使用した3D再構成
def reconstruct_3d_triposr(image, mc_resolution=256, bake_texture=False, texture_resolution=1024):
    try:
        if model is None:
            return None, None

        # 画像の前処理（入力画像の形式を確認）
        if isinstance(image, np.ndarray):
            if image.dtype == np.uint8:
                # uint8の場合のみBGR→RGB変換と正規化を行う
                if len(image.shape) == 3 and image.shape[2] == 3:
                    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
                image = image.astype(np.float32) / 255.0
            # float32の場合、すでにRGB形式で正規化済みと仮定

        # モデルに入力
        with torch.no_grad():
            scene_codes = model([image], device=device)

        # メッシュの抽出
        meshes = model.extract_mesh(scene_codes, vertex_colors=(not bake_texture), resolution=mc_resolution)

        texture_data = None
        if bake_texture and meshes:
            try:
                from tsr.bake_texture import bake_texture as bake_tex
                texture_data = bake_tex(meshes[0], model, scene_codes[0], texture_resolution)
            except Exception as e:
                print(f'テクスチャベイキングに失敗しました: {e}')
                meshes = model.extract_mesh(scene_codes, vertex_colors=True, resolution=mc_resolution)

        return meshes[0] if meshes else None, texture_data

    except Exception as e:
        print(f'TripoSR 3D再構成に失敗しました: {e}')
        return None, None

# 簡易3Dプレビュー表示
def preview_3d_mesh(mesh, window_name="3D Preview"):
    if mesh is None:
        return

    print('3Dプレビュー: マウスドラッグで回転、ESCで終了')

    # メッシュの頂点を取得
    vertices = np.array(mesh.vertices)
    faces = np.array(mesh.faces)

    # 中心を原点に
    center = vertices.mean(axis=0)
    vertices = vertices - center

    # スケール調整
    max_dist = np.max(np.abs(vertices))
    vertices = vertices / max_dist * 200

    # 回転パラメータ
    rot_x, rot_y = 0, 0
    mouse_down = False
    prev_x, prev_y = 0, 0

    def mouse_callback(event, x, y, flags, param):
        nonlocal rot_x, rot_y, mouse_down, prev_x, prev_y

        if event == cv2.EVENT_LBUTTONDOWN:
            mouse_down = True
            prev_x, prev_y = x, y
        elif event == cv2.EVENT_LBUTTONUP:
            mouse_down = False
        elif event == cv2.EVENT_MOUSEMOVE and mouse_down:
            rot_y += (x - prev_x) * 0.5
            rot_x += (y - prev_y) * 0.5
            prev_x, prev_y = x, y

    cv2.namedWindow(window_name)
    cv2.setMouseCallback(window_name, mouse_callback)

    # フォント設定（日本語表示用）
    FONT_PATH = 'C:/Windows/Fonts/meiryo.ttc'
    FONT_SIZE = 20

    while True:
        # 画像をクリア
        img = np.ones((600, 800, 3), dtype=np.uint8) * 255

        # 回転行列
        rx = np.radians(rot_x)
        ry = np.radians(rot_y)

        # Y軸回転
        rot_y_mat = np.array([
            [np.cos(ry), 0, np.sin(ry)],
            [0, 1, 0],
            [-np.sin(ry), 0, np.cos(ry)]
        ])

        # X軸回転
        rot_x_mat = np.array([
            [1, 0, 0],
            [0, np.cos(rx), -np.sin(rx)],
            [0, np.sin(rx), np.cos(rx)]
        ])

        # 頂点を回転
        rotated = vertices @ rot_y_mat @ rot_x_mat

        # 投影（簡易的な平行投影）
        projected = rotated[:, :2] + [400, 300]
        projected = projected.astype(int)

        # ワイヤーフレーム描画
        for face in faces:
            pts = projected[face]
            for i in range(3):
                cv2.line(img, tuple(pts[i]), tuple(pts[(i+1)%3]), (0, 0, 0), 1)

        # 日本語テキスト表示
        try:
            font = ImageFont.truetype(FONT_PATH, FONT_SIZE)
            img_pil = Image.fromarray(cv2.cvtColor(img, cv2.COLOR_BGR2RGB))
            draw = ImageDraw.Draw(img_pil)
            draw.text((10, 30), "マウスドラッグで回転、ESCで終了", font=font, fill=(0, 128, 0))
            img = cv2.cvtColor(np.array(img_pil), cv2.COLOR_RGB2BGR)
        except:
            # フォントが利用できない場合は英語表示
            cv2.putText(img, "Mouse drag to rotate, ESC to exit", (10, 30),
                       cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 128, 0), 2)

        cv2.imshow(window_name, img)

        key = cv2.waitKey(30) & 0xFF
        if key == 27:  # ESC
            break

    cv2.destroyWindow(window_name)

# 画像処理メイン関数
def image_processing(img, resolution=256, use_texture=False, texture_resolution=1024):
    try:
        print('3D再構成処理を開始します...')

        # 背景除去（RGB形式で0-1に正規化された画像を返す）
        no_bg_img = remove_background_custom(img, rembg_session)

        # 前景のリサイズ（TripoSR互換）
        if TRIPOSR_AVAILABLE:
            # float32画像をPIL Imageに変換
            pil_img = Image.fromarray((no_bg_img * 255).astype(np.uint8))

            # resize_foreground関数を使用
            try:
                resized_pil = resize_foreground(pil_img, 0.85)
                # 正規化（0-1の範囲）
                no_bg_img = np.array(resized_pil).astype(np.float32) / 255.0
            except Exception as e:
                print(f'前景リサイズをスキップ: {e}')

        # 3D再構成（RGB形式で正規化済みの画像を入力）
        mesh, texture_data = reconstruct_3d_triposr(no_bg_img, resolution, use_texture, texture_resolution)

        if mesh is not None:
            # タイムスタンプベースのファイル名生成
            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
            output_filename = f'output_3d_model_{timestamp}.obj'

            try:
                # テクスチャ付きで保存
                if use_texture and texture_data is not None:
                    output_mtl = f'output_3d_model_{timestamp}.mtl'
                    output_tex = f'output_3d_model_{timestamp}_texture.png'

                    # MTLファイルの作成
                    with open(output_mtl, 'w') as f:
                        f.write(f'newmtl material_0\n')
                        f.write(f'Ka 1.0 1.0 1.0\n')
                        f.write(f'Kd 1.0 1.0 1.0\n')
                        f.write(f'Ks 0.0 0.0 0.0\n')
                        f.write(f'map_Kd {os.path.basename(output_tex)}\n')

                    # テクスチャ画像の保存
                    if isinstance(texture_data, dict) and 'texture' in texture_data:
                        Image.fromarray(texture_data['texture']).save(output_tex)
                        # UV座標付きでメッシュを保存
                        if 'mesh' in texture_data:
                            texture_data['mesh'].export(output_filename)
                        else:
                            mesh.export(output_filename)
                    else:
                        mesh.export(output_filename)

                    result_text = f'3Dモデルを生成しました: {output_filename} (テクスチャ付き)'
                else:
                    # 頂点カラーで保存
                    mesh.export(output_filename)
                    result_text = f'3Dモデルを生成しました: {output_filename} (頂点カラー)'

                result_text += f' (頂点数: {len(mesh.vertices)}, 面数: {len(mesh.faces)})'
                print(result_text)

                # 結果をファイルに保存
                with open('result.txt', 'a', encoding='utf-8') as f:
                    f.write(f'[{timestamp}] {result_text}\n')

                # 画像に結果テキストを描画（表示用にBGRに変換）
                result_img = (no_bg_img * 255).astype(np.uint8)

                # RGBからBGRに変換（OpenCV表示用）
                if len(result_img.shape) == 3 and result_img.shape[2] == 3:
                    result_img = cv2.cvtColor(result_img, cv2.COLOR_RGB2BGR)

                # 日本語テキスト表示
                FONT_PATH = 'C:/Windows/Fonts/meiryo.ttc'
                FONT_SIZE = 20
                try:
                    font = ImageFont.truetype(FONT_PATH, FONT_SIZE)
                    img_pil = Image.fromarray(cv2.cvtColor(result_img, cv2.COLOR_BGR2RGB))
                    draw = ImageDraw.Draw(img_pil)
                    draw.text((10, 30), f'3Dモデル: {output_filename}', font=font, fill=(0, 255, 0))
                    draw.text((10, 60), f'頂点数: {len(mesh.vertices)}', font=font, fill=(0, 255, 0))
                    draw.text((10, 90), f'面数: {len(mesh.faces)}', font=font, fill=(0, 255, 0))
                    result_img = cv2.cvtColor(np.array(img_pil), cv2.COLOR_RGB2BGR)
                except:
                    # フォントが利用できない場合は英語表示
                    cv2.putText(result_img, f'3D Model: {output_filename}', (10, 30),
                               cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 255, 0), 2)
                    cv2.putText(result_img, f'Vertices: {len(mesh.vertices)}', (10, 60),
                               cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 255, 0), 2)
                    cv2.putText(result_img, f'Faces: {len(mesh.faces)}', (10, 90),
                               cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 255, 0), 2)

                # 最後のメッシュを保存（プレビュー用）
                show_processed_image.last_mesh = mesh

                return result_img
            except Exception as e:
                print(f'メッシュの保存に失敗しました: {e}')
                result_img = (no_bg_img * 255).astype(np.uint8)
                if len(result_img.shape) == 3 and result_img.shape[2] == 3:
                    result_img = cv2.cvtColor(result_img, cv2.COLOR_RGB2BGR)
                return result_img
        else:
            result_img = (no_bg_img * 255).astype(np.uint8)

            # RGBからBGRに変換（OpenCV表示用）
            if len(result_img.shape) == 3 and result_img.shape[2] == 3:
                result_img = cv2.cvtColor(result_img, cv2.COLOR_RGB2BGR)

            return result_img

    except Exception as e:
        print(f'画像処理中にエラーが発生しました: {e}')
        return img

def show_processed_image(img, window_name, resolution=256, use_texture=False, texture_resolution=1024, preview_3d=False):
    if img is None:
        print('画像の読み込みに失敗しました')
        return
    processed_img = image_processing(img, resolution, use_texture, texture_resolution)
    cv2.imshow(window_name, processed_img)
    cv2.waitKey(0)

    # 3Dプレビュー表示
    if preview_3d and hasattr(show_processed_image, 'last_mesh'):
        preview_3d_mesh(show_processed_image.last_mesh)

# プログラム開始時の説明
print('===== TripoSR 3D Object Reconstruction =====')
print('概要: 単一画像から3Dモデルを生成します')
print()
print('操作方法:')
print('  カメラモード: スペースキーで撮影、qキーで終了')
print('  画像表示中: 任意のキーで次へ')
print()
print('注意事項:')
print('  - 初回実行時はモデルのダウンロードに時間がかかります')
print('  - GPU使用時は処理が速くなります')
print('  - 背景が単純な画像ほど良い結果が得られます')
print('=' * 45)
print()

# モデルセットアップ
print('モデルの初期化中...')
setup_triposr_model()

print()
print('入力ソースを選択してください:')
print('  0: 画像ファイル')
print('  1: カメラ')
print('  2: サンプル画像')

choice = input('選択: ')

# メッシュ解像度の選択
print()
print('メッシュ解像度を選択してください:')
print('  1: 低解像度 (64) - 速い')
print('  2: 中解像度 (128) - バランス')
print('  3: 高解像度 (256) - 高品質（デフォルト）')
print('  4: 最高解像度 (320) - 最高品質・遅い')

res_choice = input('選択 (1-4, デフォルト: 3): ').strip()
resolution_map = {'1': 64, '2': 128, '3': 256, '4': 320}
resolution = resolution_map.get(res_choice, 256)
print(f'選択された解像度: {resolution}')

# テクスチャ生成の選択
print()
print('テクスチャを生成しますか？')
print('  1: いいえ（頂点カラーのみ） - 速い')
print('  2: はい（テクスチャマップ生成） - 高品質・遅い')

tex_choice = input('選択 (1-2, デフォルト: 1): ').strip()
use_texture = (tex_choice == '2')
texture_resolution = 1024

if use_texture:
    print('テクスチャ解像度:')
    print('  1: 512x512')
    print('  2: 1024x1024（デフォルト）')
    print('  3: 2048x2048')
    tex_res_choice = input('選択 (1-3, デフォルト: 2): ').strip()
    tex_res_map = {'1': 512, '2': 1024, '3': 2048}
    texture_resolution = tex_res_map.get(tex_res_choice, 1024)

# 3Dプレビューの選択
print()
preview_3d = input('3Dプレビューを表示しますか？ (y/N): ').strip().lower() == 'y'

print()

if choice == '0':
    root = tk.Tk()
    root.withdraw()
    paths = filedialog.askopenfilenames(
        filetypes=[('Image files', '*.jpg *.jpeg *.png *.bmp *.tiff')]
    )
    if not paths:
        exit()
    for path in paths:
        img = cv2.imread(path)
        if img is not None:
            show_processed_image(img, 'Image', resolution, use_texture, texture_resolution, preview_3d)
        else:
            print(f'画像の読み込みに失敗しました: {path}')

elif choice == '1':
    cap = cv2.VideoCapture(0, cv2.CAP_DSHOW)
    if not cap.isOpened():
        cap = cv2.VideoCapture(0)

    if not cap.isOpened():
        print('カメラを開けませんでした')
        exit()

    try:
        print('カメラを起動しました。スペースキーで撮影、qキーで終了')
        while True:
            cap.grab()
            ret, frame = cap.retrieve()
            if not ret:
                break

            # 操作説明を画面に表示
            FONT_PATH = 'C:/Windows/Fonts/meiryo.ttc'
            FONT_SIZE = 20
            try:
                font = ImageFont.truetype(FONT_PATH, FONT_SIZE)
                img_pil = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))
                draw = ImageDraw.Draw(img_pil)
                draw.text((10, 10), "スペース:撮影 Q:終了", font=font, fill=(0, 255, 0))
                frame = cv2.cvtColor(np.array(img_pil), cv2.COLOR_RGB2BGR)
            except:
                cv2.putText(frame, "SPACE:Capture Q:Quit", (10, 30),
                           cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 255, 0), 2)

            cv2.imshow('Camera', frame)
            key = cv2.waitKey(1) & 0xFF
            if key == ord(' '):
                show_processed_image(frame, 'Image', resolution, use_texture, texture_resolution, preview_3d)
            elif key == ord('q'):
                break
    finally:
        cap.release()

elif choice == '2':
    urls = [
        'https://raw.githubusercontent.com/opencv/opencv/master/samples/data/fruits.jpg',
        'https://raw.githubusercontent.com/opencv/opencv/master/samples/data/messi5.jpg',
        'https://raw.githubusercontent.com/opencv/opencv/master/samples/data/aero3.jpg'
    ]

    for i, url in enumerate(urls):
        try:
            print(f'サンプル画像をダウンロード中: {url}')
            # URLから直接メモリに読み込み
            resp = urllib.request.urlopen(url)
            img_array = np.asarray(bytearray(resp.read()), dtype=np.uint8)
            img = cv2.imdecode(img_array, cv2.IMREAD_COLOR)

            if img is not None:
                show_processed_image(img, 'Sample Image', resolution, use_texture, texture_resolution, preview_3d)
            else:
                print(f'画像の読み込みに失敗しました: {url}')
        except Exception as e:
            print(f'画像のダウンロードに失敗しました: {url}')
            print(f'エラー: {e}')
            continue

else:
    print('無効な選択です')
    exit()

cv2.destroyAllWindows()

# 結果ファイルの保存確認
if os.path.exists('result.txt'):
    print('result.txtに結果を保存しました')
else:
    print('処理結果がありませんでした')

実験・研究スキルの基礎：Google Colabで学ぶ単一画像3D再構成実験

1. 実験・研究のスキル構成要素

実験や研究を行うには、以下の5つの構成要素を理解する必要がある。

1.1 実験用データ

このプログラムでは画像ファイルが実験用データである。背景が単純で対象物体が明確に写っている画像ほど、3D再構成の結果が良好になる傾向がある。

1.2 実験計画

何を明らかにするために実験を行うのかを定める。

計画例：

メッシュ解像度が生成モデルの品質に与える影響を確認する
背景除去の有無が3D形状の精度に与える影響を確認する
入力画像の特性（背景、照明、対象物体の種類）と再構成品質の関係を調べる
処理時間と品質のトレードオフを把握する
テクスチャ生成の有無による出力結果の違いを比較する

1.3 プログラム

実験を実施するためのツールである。このプログラムはTripoSRモデルとrembg（背景除去ライブラリ）を使用している。

プログラムの機能を理解して活用することが基本である
基本となるプログラムを出発点として、将来、様々な機能を自分で追加することができる

1.4 プログラムの機能

このプログラムは複数のパラメータで3D再構成を制御する。

入力パラメータ：

メッシュ解像度：生成するメッシュの細かさ（64、128、256、320の4段階）
テクスチャ生成：頂点カラーのみ、またはテクスチャマップ生成の選択
テクスチャ解像度：テクスチャマップのサイズ（512、1024、2048）

出力情報：

OBJ形式の3Dメッシュファイル
頂点数と面数の情報
テクスチャ生成時はMTLファイルとPNGテクスチャファイル
処理結果のログファイル（result.txt）

パラメータの動作：

解像度を上げるほど頂点数・面数が増加し、処理時間も増加する
テクスチャ生成を有効にすると処理時間が増加するが、色情報が向上する

1.5 検証（結果の確認と考察）

プログラムの実行結果を観察し、パラメータの影響を考察する。

基本認識：

パラメータを変えると結果が変わる。その変化を観察することが実験である
「良い結果」「悪い結果」は目的によって異なる

観察のポイント：

頂点数・面数はどう変化するか
生成されたメッシュの形状は入力画像の対象物体を正しく再現しているか
背景部分が3Dモデルに含まれていないか
細部（突起、穴、薄い部分など）は再現されているか
処理時間は許容範囲内か
テクスチャの品質は十分か

2. 間違いの原因と対処方法

2.1 プログラムのミス（人為的エラー）

プログラムがエラーで停止する

原因：必要なライブラリがインストールされていない、CUDAの設定に問題がある
対処方法：エラーメッセージを確認し、不足しているライブラリをインストールする

モデルのダウンロードに時間がかかる

原因：初回実行時にTripoSRモデル（約1.68GB）をHuggingFaceからダウンロードしている
対処方法：これは正常な動作である。ダウンロードが完了するまで待つ

背景除去が動作しない

原因：rembgライブラリのインストールに問題がある、またはnumbaの権限エラー
対処方法：プログラムは背景除去なしでも動作する。背景除去が必要な場合は権限設定を確認する

メモリ不足エラーが発生する

原因：高解像度設定でGPUメモリが不足している
対処方法：メッシュ解像度を下げる（256→128→64）、またはテクスチャ解像度を下げる

2.2 期待と異なる結果が出る場合

生成されたモデルの形状が歪んでいる

原因：入力画像の背景が複雑、対象物体が不明確、または画像の品質が低い
対処方法：背景が単純で対象物体が中央に明確に写っている画像を使用する

背景が3Dモデルに含まれている

原因：背景除去が正しく機能していない、または背景と対象物体の色が類似している
対処方法：背景と対象物体のコントラストが明確な画像を使用する。事前に画像編集ソフトで背景を除去することも有効である

細部が再現されていない

原因：メッシュ解像度が低すぎる
対処方法：メッシュ解像度を256または320に上げる。ただし処理時間が増加することを考慮する

処理時間が長すぎる

原因：高解像度設定、テクスチャ生成の有効化、またはCPUでの実行
対処方法：GPUが利用可能か確認する。解像度を下げる、テクスチャ生成を無効にする

色が正しく再現されていない

原因：頂点カラーモードでは色の解像度が限られる
対処方法：テクスチャ生成を有効にして、テクスチャマップによる着色を使用する

3. 実験レポートのサンプル

メッシュ解像度と再構成品質の関係調査

実験目的：

メッシュ解像度パラメータが生成される3Dモデルの品質（頂点数、面数、形状の再現度）と処理時間に与える影響を明らかにする。

実験計画：

テクスチャ生成を無効に固定し、メッシュ解像度を4段階（64、128、256、320）で変化させて結果を比較する。

実験方法：

同一の入力画像に対してプログラムを実行し、以下の指標で評価する：

頂点数：生成されたメッシュの頂点の数
面数：生成されたメッシュの三角形面の数
処理時間：3D再構成にかかった時間
形状再現度：目視による入力画像との一致度（5段階評価）

実験結果：

メッシュ解像度	頂点数	面数	処理時間	形状再現度	総合評価
64	xxxx	xxxx	x秒	x/5	x
128	xxxx	xxxx	x秒	x/5	x
256	xxxx	xxxx	x秒	x/5	x
320	xxxx	xxxx	x秒	x/5	x

考察：

（例文）解像度64では処理時間は短いが、曲面が多角形化され、細部が失われていた。プレビュー用途には適している
（例文）解像度128では形状の大まかな特徴は再現されたが、突起や凹みなどの細部は不十分であった
（例文）解像度256では細部まで再現され、多くの用途で十分な品質が得られた。処理時間とのバランスが良好である
（例文）解像度320では最も高い品質が得られたが、処理時間の増加に対する品質向上は解像度256からの差が小さかった
（例文）解像度を上げるほど頂点数・面数は増加するが、品質向上は線形ではなく、ある程度の解像度で収束する傾向が見られた

結論：

（例文）本実験の画像においては、解像度256が品質と処理時間のバランスにおいて最も適切であった。迅速なプレビューが必要な場合は解像度64または128、最終成果物として使用する場合は解像度256以上が適切である。入力画像の複雑さや用途に応じて解像度を選択する必要性が確認できた。