Japanese SDXL Text-to-Image Generator による日本語テキストからの画像生成（ソースコードと実行結果）

Python開発環境，ライブラリ類

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール

Pythonのインストールを行い、Pythonのプログラムを実行する環境を整える。扱う環境は、Windows搭載パソコンである。金子研究室では、Python 3.12.10を推奨する。

[Windows での Python 3.12 のインストール手順を見るには、ここをクリック]

Windows での Python 3.12 のインストール

以下のいずれかの方法でPython 3.12をインストールする。Pythonがインストール済みの場合、この手順は不要である。

方法 1：winget によるインストール

【インストールコマンドの実行方法】

管理者権限でコマンドプロンプトを起動する（手順：Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」）。そして、コマンド全体をコマンドプロンプトにコピー＆ペーストする。

--scope machine を指定することで、システム全体（全ユーザー向け）にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動するとPATHが反映される。

REM Python 3.12 をシステム領域にインストール
winget install --id Python.Python.3.12 -e --scope machine --silent --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_test=0 Include_pip=1 Include_launcher=1 InstallLauncherAllUsers=1 TargetDir=\"C:\Program Files\Python312\""

REM Python と Scripts を PATH 先頭に追加
powershell -NoProfile -Command "$p='C:\Program Files\Python312'; $s=\"$p\Scripts\"; $c=[Environment]::GetEnvironmentVariable('Path','Machine'); if((Test-Path $p) -and (';'+$c+';' -notlike \"*;$p;*\") -and (';'+$c+';' -notlike \"*;$s;*\")){[Environment]::SetEnvironmentVariable('Path',\"$p;$s;$c\",'Machine')}"

方法 2：インストーラーによるインストール

Python公式サイト（https://www.python.org/downloads/）にアクセスし、「Download Python 3.x.x」ボタンからWindows用インストーラーをダウンロードする。
ダウンロードしたインストーラーを実行する。
初期画面の下部に表示される「Add python.exe to PATH」にチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号（例：Python 3.12.x）が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

Python の開発環境 Visual Studio Code のインストールと Python 用の設定

Python の開発環境Visual Studio Code（プログラムを編集するソフトウェア。以下、VS Code）を整える。

[Windows での Visual Studio Code のインストールと Python 用の設定手順を見るには、ここをクリック]

Windows での Visual Studio Code のインストールと Python 用の設定手順

1. VS Code と拡張機能のインストール

以下のコマンドにより，既存の VS Code を削除し，全ユーザー共有の設定で再インストールしたうえで，拡張機能（VS Code に機能を追加するソフトウェア）をまとめて導入する．

【インストールコマンドの実行方法】

管理者権限でコマンドプロンプトを起動する（手順：Windows キーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」）。そして，コマンド全体をコマンドプロンプトにコピー＆ペーストする。

インストールコマンド


REM ============================================================
REM Microsoft Visual Studio Code
REM ============================================================
winget uninstall -e --id Microsoft.VisualStudioCode --silent --disable-interactivity --accept-source-agreements
rmdir /s /q C:\ProgramData\vscode-extensions 2>nul
rmdir /s /q "%APPDATA%\Code" 2>nul
rmdir /s /q "%USERPROFILE%\.vscode" 2>nul
rmdir /s /q "%LOCALAPPDATA%\Microsoft\vscode-update" 2>nul

REM VS Code をシステム領域に新規インストール
winget install --scope machine --id Microsoft.VisualStudioCode -e --silent --accept-source-agreements --accept-package-agreements

REM 全ユーザー共有の拡張機能フォルダ
mkdir C:\ProgramData\vscode-extensions 2>nul
icacls "C:\ProgramData\vscode-extensions" /grant "Everyone:(OI)(CI)M" /T

REM スタートメニューのショートカットを --extensions-dir 付きで再作成
rmdir /s /q "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code" 2>nul
del "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code.lnk" 2>nul
powershell -NoProfile -Command "$s=New-Object -ComObject WScript.Shell; $lnk=$s.CreateShortcut('C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code.lnk'); $lnk.TargetPath='C:\Program Files\Microsoft VS Code\Code.exe'; $lnk.Arguments='--extensions-dir \"C:\ProgramData\vscode-extensions\"'; $lnk.Save()"
REM ショートカットの検証
powershell -NoProfile -Command "$s=New-Object -ComObject WScript.Shell; $lnk=$s.CreateShortcut('C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code.lnk'); Write-Host 'TargetPath:' $lnk.TargetPath; Write-Host 'Arguments:' $lnk.Arguments"

REM ファイル / フォルダ右クリックの「Code で開く」を登録
reg add "HKLM\SOFTWARE\Classes\*\shell\VSCode\command" /ve /d "\"C:\Program Files\Microsoft VS Code\Code.exe\" --extensions-dir \"C:\ProgramData\vscode-extensions\" \"%1\"" /f
reg add "HKLM\SOFTWARE\Classes\Directory\shell\VSCode\command" /ve /d "\"C:\Program Files\Microsoft VS Code\Code.exe\" --extensions-dir \"C:\ProgramData\vscode-extensions\" \"%1\"" /f
reg add "HKLM\SOFTWARE\Classes\Directory\Background\shell\VSCode\command" /ve /d "\"C:\Program Files\Microsoft VS Code\Code.exe\" --extensions-dir \"C:\ProgramData\vscode-extensions\" \"%V\"" /f

REM --extensions-dir 付きで起動する code.cmd ラッパを作成
REM （%* を echo で書くと対話的 cmd で失われるため、PowerShell で [char]37+'*' を書き出す）
powershell -NoProfile -Command "$pct=[char]37; $q=[char]34; $c='@echo off'+[char]13+[char]10+$q+'C:\Program Files\Microsoft VS Code\bin\code.cmd'+$q+' --extensions-dir '+$q+'C:\ProgramData\vscode-extensions'+$q+' '+$pct+'*'+[char]13+[char]10; [IO.File]::WriteAllText('C:\ProgramData\vscode-extensions\vscode.cmd',$c,[Text.Encoding]::ASCII)"

REM 拡張機能のインストール
set "CODE=C:\Program Files\Microsoft VS Code\bin\code.cmd"
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --uninstall-extension GitHub.copilot
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --uninstall-extension GitHub.copilot-chat
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension ms-python.python
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension ms-python.vscode-pylance
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension ms-python.debugpy
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension MS-CEINTL.vscode-language-pack-ja
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension saoudrizwan.claude-dev
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension rust-lang.rust-analyzer
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension tamasfe.even-better-toml
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension anthropic.claude-code
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension almenon.arepl
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --list-extensions --show-versions
echo === セットアップ完了 ===

2. Python インタプリタの選択

同一マシンに複数の Python がインストールされている場合，VS Code で使用する Python 本体（インタプリタ：Python プログラムを解釈・実行するソフトウェア）を選択する必要がある．

コマンドパレット（コマンド名で機能を呼び出す VS Code の入力欄）を開く（Ctrl+Shift+P）
Python: Select Interpreter と入力する
表示される一覧から，使用する Python（例：C:\Program Files\Python312\python.exe）を選択する．

必要なライブラリのインストール

GPUがない場合には，次のコマンドを実行
コマンドプロンプトを管理者として実行（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行する

pip uninstall -y xformers flash-attn triton peft

その後，GPU 有無に関係なく次のコマンドを実行
コマンドプロンプトを管理者として実行（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行する

REM PyTorch をインストール（GPU対応版）
set "CUDA_TAG=cu128"
set "PYTHON_PATH=C:\Program Files\Python312"
"%PYTHON_PATH%\Scripts\pip" install --no-user -U numpy torch torchvision torchaudio --index-url https://download.pytorch.org/whl/%CUDA_TAG%
pip install diffusers==0.23.0 huggingface_hub==0.16.4 accelerate==0.21.0 transformers

Japanese SDXL Text-to-Image Generator による日本語テキストからの画像生成プログラム

概要

このプログラムは、Japanese Stable Diffusion XL（JSDXL）を使用した日本語テキストから画像生成を行うプログラムである。日本語プロンプトに特化した学習済みモデルを利用し、日本語から画像を生成する。

主要技術

Japanese Stable Diffusion XL (JSDXL)

Stability AIが開発したSDXL 1.0をベースとし、日本語専用テキストエンコーダーを使用したPEFT（Parameter-Efficient Fine-Tuning）訓練を適用したモデルである[1]。日本語の理解と日本文化・表現の理解を向上させるため、Orthogonal Fine-tuning（OFT）手法を用いてPEFT訓練が実施されている[2]。

Parameter-Efficient Fine-Tuning (PEFT)

大規模事前学習モデルの少数のパラメータのみを調整することで、計算コストとストレージ要件を削減するファインチューニング手法である[3]。特定タスクへの適応を実現する。

Orthogonal Fine-tuning (OFT)

テキスト-画像拡散モデルのための手法で、事前学習された重み行列を直交行列で再パラメータ化することにより、事前学習モデルの情報を保持する[4]。従来のLoRAとは異なり、加算的更新ではなく乗算的直交更新を使用し、ハイパースフィアエネルギーを保存する特性を持つ。

技術的特徴

デバイス自動選択機能

torch.cuda.is_available()による自動判定でGPU/CPUを選択し、各デバイスに適したデータ型（float16/float32）を設定する。GPU環境では高速化のためfloat16精度を使用し、CPU環境では安定性のためfloat32を使用する。

メモリ最適化機能

複数の最適化手法を条件分岐により適用している。enable_attention_slicing()によるアテンション計算の分割処理、enable_vae_tiling()によるVAEメモリ効率化、GPU環境でのXFormersメモリ最適化を安全に実行する。

推論最適化

torch.no_grad()コンテキストマネージャーによる勾配計算の無効化により、推論時のメモリ使用量を削減し、処理速度を向上させている。

実装の特色

日本語特化処理

日本語テキストエンコーダーを使用し、日本語プロンプトの自然な理解を実現している。

参考文献

[1] Stability AI. Japanese Stable Diffusion XL. https://huggingface.co/stabilityai/japanese-stable-diffusion-xl

[2] Qiu, Z., Liu, W., et al. (2023). Orthogonal Fine-Tuning for Direct Preference Optimization. https://huggingface.co/docs/peft/en/conceptual_guides/oft

[3] Mangrulkar, S., et al. (2022). PEFT: Parameter-Efficient Fine-Tuning of Billion-Scale Models on Low-Resource Hardware. https://github.com/huggingface/peft

[4] Qiu, Z., Liu, W., et al. (2023). OFT: Orthogonal Finetuning for Text-to-Image Diffusion Models. https://huggingface.co/docs/peft/en/package_reference/oft

ソースコード

# Japanese SDXL Text-to-Image Generator による日本語テキストからの画像生成
# 特徴技術名: Japanese Stable Diffusion XL (JSDXL)
# 出典: Stability AI. Japanese Stable Diffusion XL. Hugging Face Model Hub. https://huggingface.co/stabilityai/japanese-stable-diffusion-xl
# 特徴機能: 使用する学習済モデルは、日本語専用テキストエンコーダーを使用したPEFT（Parameter-Efficient Fine-Tuning）訓練により、日本語の理解と日本文化・表現の理解を向上させた、日本語プロンプト対応のものである。
# 学習済みモデル: stabilityai/japanese-stable-diffusion-xl, Japanese-specific SDXL model with enhanced Japanese language understanding, Fine-tuned for Japanese prompts and cultural expressions, https://huggingface.co/stabilityai/japanese-stable-diffusion-xl
# 方式設計:
#   関連利用技術: diffusers（Hugging Face製のdiffusion models用ライブラリ、Japanese SDXL pipelineを提供）, torch（PyTorch深層学習フレームワーク、GPU/CPU処理とモデル管理）, Pillow (PIL)（画像保存・表示用ライブラリ）
#   入力と出力: 入力（日本語テキストプロンプト（input()で入力）、ネガティブプロンプト（最適化済み））, 出力（高品質画像をPNG形式で保存、PIL Image.show()で表示）
#   処理手順: 1.Japanese SDXLパイプラインを読み込み, 2.日本語テキストプロンプトを受け取り, 3.画像生成実行, 4.生成画像を保存・表示
#   前処理、後処理: 前処理（日本語テキストプロンプトのエンコーディング（自動実行）、ネガティブプロンプト最適化）, 後処理（生成画像の保存）
#   追加処理: GPU/CPU自動選択による最適なデバイス利用で処理効率向上、日本語文化・表現理解の向上
#   調整を必要とする設定値: num_inference_steps（推論ステップ数（デフォルト50）、品質と速度のバランス調整）, guidance_scale（プロンプト従順度（デフォルト7.5）、日本語プロンプトへの従順度調整）
#   算出・計算処理の検証: Japanese SDXLパイプラインにより正しく日本語プロンプトからの高品質画像生成が実行され、適切な画像が出力されることを確認
# 将来方策: パラメータ調整GUIの実装、日本語プロンプトの最適化機能、バッチ処理機能の追加
# その他の重要事項: 初回実行時に約6GBのJapanese SDXLモデルダウンロードが発生、日本語プロンプトに特化、diffusersバージョン互換性注意、単一テキストエンコーダー仕様
# 前準備:
# GPU が無い場合は、次を実行
# pip uninstall -y xformers flash-attn triton peft
# その後 GPU の有無に関係なく次を実行
# pip install -U numpy torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
# pip install diffusers==0.23.0 huggingface_hub==0.16.4 accelerate==0.21.0 transformers pillow

import os
os.environ["KMP_DUPLICATE_LIB_OK"] = "TRUE"

from diffusers import DiffusionPipeline
import torch
from PIL import Image
from datetime import datetime

# GPU/CPU自動選択
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'デバイス: {str(device)}')
# GPU使用時の最適化
if device.type == 'cuda':
    torch.backends.cudnn.benchmark = True

if torch.cuda.is_available():
    torch_dtype = torch.float16
else:
    torch_dtype = torch.float32

print(f'データ型: {torch_dtype}')
print("Japanese SDXL Text-to-Image Generator")
print("日本語プロンプトから高解像度画像生成を行います")

# モデル読み込み
print("Japanese SDXLモデルを読み込み中...")
pipeline = DiffusionPipeline.from_pretrained(
    "stabilityai/japanese-stable-diffusion-xl",
    torch_dtype=torch_dtype,
    trust_remote_code=True
)

# メモリ節約設定（CPU/GPU共通）。存在しない環境では安全に無視される
if hasattr(pipeline, 'enable_attention_slicing'):
    try:
        pipeline.enable_attention_slicing()
    except Exception:
        pass

if hasattr(pipeline, "enable_vae_tiling"):
    try:
        pipeline.enable_vae_tiling()
    except Exception:
        pass

if hasattr(pipeline, 'enable_xformers_memory_efficient_attention') and device.type == 'cuda':
    try:
        pipeline.enable_xformers_memory_efficient_attention()
        print("XFormers memory optimization enabled")
    except Exception:
        print("XFormers not available, skipping memory optimization")

pipeline = pipeline.to(device)
print("モデルの読み込みが完了しました")

# プロンプト入力ガイダンス
print("\n=== Japanese SDXL プロンプト入力ガイド ===")
print("Japanese SDXL は日本語プロンプトに特化して訓練されています：")
print("• 詳細な日本語での描写が効果的です")
print("• 日本文化・表現への理解が向上しています")
print("• 自然な日本語文章での指示が可能です")
print("• 空入力時のデフォルト: 美しい日本の風景")
print("=" * 50)

# プロンプト入力
prompt = input("生成したい画像の説明を日本語で詳しく入力してください: ")
if not prompt.strip():
    prompt = "美しい日本の風景"

# ネガティブプロンプト最適化（SDXL向け公式推奨設定）
# SDXL では negative prompt の必要性が大幅に減少しているが、基本的な品質向上には有効
negative_prompt = "worst quality, low quality, blurry, jpeg artifacts, out of frame, watermark, signature"

print(f"\n使用するプロンプト:")
print(f"  メイン: {prompt}")
print(f"  ネガティブ: {negative_prompt}")

# 画像生成
print("\n画像生成中...")
with torch.no_grad():
    image = pipeline(
        prompt=prompt,
        negative_prompt=negative_prompt,
        num_inference_steps=50,
        guidance_scale=7.5
    ).images[0]
print("画像生成が完了しました")

# 結果保存・表示
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
filename = f"japanese_sdxl_generated_{timestamp}.png"
image.save(filename)
print(f"画像を{filename}に保存しました")
image.show()

# 結果ログ保存
with open('result.txt', 'w', encoding='utf-8') as f:
    f.write('=== Japanese SDXL Text-to-Image 生成結果 ===\n')
    f.write(f'使用デバイス: {str(device).upper()}\n')
    f.write(f'データ型: {str(torch_dtype)}\n')
    if device.type == 'cuda':
        f.write(f'GPU: {torch.cuda.get_device_name(0)}\n')
    f.write(f'プロンプト: {prompt}\n')
    f.write(f'ネガティブプロンプト: {negative_prompt}\n')
    f.write(f'使用モデル: Japanese SDXL (stabilityai/japanese-stable-diffusion-xl)\n')
    f.write(f'テキストエンコーダー: 単一エンコーダー（日本語特化）\n')
    f.write(f'推論ステップ数: 50\n')
    f.write(f'ガイダンススケール: 7.5\n')
    f.write(f'保存ファイル: {filename}\n')
print('処理結果をresult.txtに保存しました')