Stable Diffusion XL を用いて複数の画像を一度に生成するアプリケーション（AUTOMATIC1111 の txt2img の API，Python，PyTorch を使用）（Windows 上）

【要約】このページのPythonプログラムは、AUTOMATIC1111のtxt2img APIを活用してテキストから画像を生成（txt2img）する。具体的には、特定のパラメータ（モデル、プロンプト、画像の幅と高さ、ステップ数、スケール、ネガティブプロンプト）を用いてAPIエンドポイントにPOSTリクエストを送る。得られたレスポンスから画像を抽出し、PNG形式で保存する。このプロセスの結果、'output.png'という名前のファイルが作成され、その画像が表示される。さらに、利用可能なモデルのリストもAPIから取得して表示する。

【目次】

前準備
AUTOMATIC1111 の stable-diffusion-webui のインストールと動作生成（Windows 上）
AUTOMATIC1111 の txt2img の API を使う Python プログラム例

Stable Diffusion XL (SDXL)

Stable Diffusion XL (SDXL) は，Stability AIによって開発されたDiffusionベースの image-to-text の画像生成モデルである． SDXLはStable Diffusion with Larger UNet Backboneの略称である．

SDXLは，以前のStable Diffusionモデルと比較して，UNetバックボーンのサイズが3倍に増加している．この増加は，アテンションブロック数の増加とクロスアテンションコンテキストの拡大によるものである．また，SDXLはリファインメントモデルを導入している．このリファインメントモデルは，SDXLによって生成された画像の視覚的な精度を向上させるために使用される．

【文献】

Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, Robin Rombach: SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis. CoRR abs/2307.01952, 2023.

https://arxiv.org/pdf/2307.01952v1.pdf

【サイト内の関連ページ】

Stable Diffusion XL 1.0 (SDXL 1.0) のインストール，画像生成（img2txt），画像変換（img2img），APIを利用して複数画像を一括生成（AUTOMATIC1111，Python，PyTorch を使用）（Windows 上）: 別ページ »で説明，

【関連する外部ページ】

Paper with Code のページ: https://paperswithcode.com/paper/sdxl-improving-latent-diffusion-models-for
公式のソースコード (GitHub のページ）: https://github.com/Stability-AI/generative-models
AUTOMATIC1111 の stable-diffusion-webui の GitHUb のページ: https://github.com/AUTOMATIC1111/stable-diffusion-webui

前準備

Git のインストール（Windows 上）

Gitは，バージョン管理システム．ソースコードの管理や複数人での共同に役立つ．

Python のインストール（Windows 上）

Build Tools for Visual Studio 2022，NVIDIA ドライバ，NVIDIA CUDA ツールキット 11.8，NVIDIA cuDNN 8.6 のインストール（Windows 上）

PyTorch のインストール（Windows 上）

python -m pip install -U --ignore-installed pip python -m pip install -U torch torchvision torchaudio numpy --index-url https://download.pytorch.org/whl/cu118 python -c "import torch; print(torch.__version__, torch.cuda.is_available())"

AUTOMATIC1111 の txt2img の API を使う Python プログラム例

AUTOMATIC1111 の stable-diffusion-webui のインストール

Windows での AUTOMATIC1111 の stable-diffusion-webui のインストールと動作確認: 別ページ »で説明している．

# https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/API import json import requests import io import base64 from PIL import Image, PngImagePlugin url = "http://127.0.0.1:7860" prompt = "1girl, (master piece:1,1) (best quality:1,1), 4k, 8k," width = 1024 height = 1024 negative_prompt = "low quality, lowers, error, bad anatomy, ugly, out of frame" model = "sd_xl_base_1.0_0.9vae.safetensors [e6bb9ea85b]" steps = 20 cfg_scale = 7 fname = "output.png" def img2txt(url, model, prompt, width, height, steps, cfg_scale, negative_prompt, fname): payload = { "sd_model_checkpoint": model, } response = requests.post(url=f'{url}/sdapi/v1/options', json=payload) # payload = { "prompt": prompt, "width": width, "height": height, "steps": steps, "cfg_scale": cfg_scale, "negative_prompt": negative_prompt, } response = requests.post(url=f'{url}/sdapi/v1/txt2img', json=payload) # r = response.json() i = r['images'][0] image = Image.open(io.BytesIO(base64.b64decode(i.split(",",1)[0]))) png_payload = { "image": "data:image/png;base64," + i } response2 = requests.post(url=f'{url}/sdapi/v1/png-info', json=png_payload) # pnginfo = PngImagePlugin.PngInfo() pnginfo.add_text("parameters", response2.json().get("info")) image.save(fname, pnginfo=pnginfo) sd_models = requests.get(f"{url}/sdapi/v1/sd-models").json() for i in sd_models: print(i['title']) img2txt(url, model, prompt, width, height, steps, cfg_scale, negative_prompt, fname) Image.open(fname).show()