【要約】 このページのPythonプログラムは、AUTOMATIC1111のtxt2img APIを活用してテキストから画像を生成(txt2img)する。具体的には、特定のパラメータ(モデル、プロンプト、画像の幅と高さ、ステップ数、スケール、ネガティブプロンプト)を用いてAPIエンドポイントにPOSTリクエストを送る。得られたレスポンスから画像を抽出し、PNG形式で保存する。このプロセスの結果、'output.png'という名前のファイルが作成され、その画像が表示される。さらに、利用可能なモデルのリストもAPIから取得して表示する。
【目次】
Stable Diffusion XL (SDXL) は,Stability AIによって開発されたDiffusionベースの image-to-text の画像生成モデルである. SDXLはStable Diffusion with Larger UNet Backboneの略称である.
SDXLは,以前のStable Diffusionモデルと比較して,UNetバックボーンのサイズが3倍に増加している.この増加は,アテンションブロック数の増加とクロスアテンションコンテキストの拡大によるものである.また,SDXLはリファインメントモデルを導入している.このリファインメントモデルは,SDXLによって生成された画像の視覚的な精度を向上させるために使用される.
【文献】
Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas Müller, Joe Penna, Robin Rombach: SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis. CoRR abs/2307.01952, 2023.
https://arxiv.org/pdf/2307.01952v1.pdf
【サイト内の関連ページ】
【関連する外部ページ】
Gitは,バージョン管理システム.ソースコードの管理や複数人での共同に役立つ.
【サイト内の関連ページ】
Windows での Git のインストール: 別ページ »で説明している.
【関連する外部ページ】
Git の公式ページ: https://git-scm.com/
【サイト内の関連ページ】
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
【サイト内の関連ページ】
NVIDIA グラフィックスボードを搭載しているパソコンの場合には, NVIDIA ドライバ, NVIDIA CUDA ツールキット, NVIDIA cuDNN のインストールを行う.
【関連する外部ページ】
コマンドプロンプトを管理者として実行: 別ページ »で説明
PyTorch のページ: https://pytorch.org/index.html
次のコマンドは, PyTorch 2.0 (NVIDIA CUDA 11.8 用) をインストールする. 但し,Anaconda3を使いたい場合には別手順になる.
事前に NVIDIA CUDA のバージョンを確認しておくこと(ここでは,NVIDIA CUDA ツールキット 11.8 が前もってインストール済みであるとする).
PyTorch で,GPU が動作している場合には,「torch.cuda.is_available()」により,True が表示される.
python -m pip install -U --ignore-installed pip python -m pip install -U torch torchvision torchaudio numpy --index-url https://download.pytorch.org/whl/cu118 python -c "import torch; print(torch.__version__, torch.cuda.is_available())"
Anaconda3を使いたい場合には, Anaconda プロンプト (Anaconda Prompt) を管理者として実行し, 次のコマンドを実行する. (PyTorch と NVIDIA CUDA との連携がうまくいかない可能性があるため,Anaconda3を使わないことも検討して欲しい).
conda install -y pytorch torchvision torchaudio pytorch-cuda=11.8 cudnn -c pytorch -c nvidia py -c "import torch; print(torch.__version__, torch.cuda.is_available())"
【サイト内の関連ページ】
【関連する外部ページ】
【サイト内の関連ページ】
Windows での AUTOMATIC1111 の stable-diffusion-webui のインストールと動作確認: 別ページ »で説明している.
【関連する外部ページ】
AUTOMATIC1111 の API の公式ページ: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/API
コマンドプロンプトを管理者として実行: 別ページ »で説明
前準備として「webui.bat --api --allow-code」で起動.(--allow-code はプロンプト中にコードを含めることを可能にするもの.今回はこの機能は使っていない)
cd %HOMEPATH% cd stable-diffusion-webui webui.bat --api --allow-code
cd %HOMEPATH% cd stable-diffusion-webui notepad sdapi.py
このプログラムは, AUTOMATIC1111 の API の公式ページ: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/API で公開されていたものを変更して使用している.
# https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/API import json import requests import io import base64 from PIL import Image, PngImagePlugin url = "http://127.0.0.1:7860" prompt = "1girl, (master piece:1,1) (best quality:1,1), 4k, 8k," width = 1024 height = 1024 negative_prompt = "low quality, lowers, error, bad anatomy, ugly, out of frame" model = "sd_xl_base_1.0_0.9vae.safetensors [e6bb9ea85b]" steps = 20 cfg_scale = 7 fname = "output.png" def img2txt(url, model, prompt, width, height, steps, cfg_scale, negative_prompt, fname): payload = { "sd_model_checkpoint": model, } response = requests.post(url=f'{url}/sdapi/v1/options', json=payload) # payload = { "prompt": prompt, "width": width, "height": height, "steps": steps, "cfg_scale": cfg_scale, "negative_prompt": negative_prompt, } response = requests.post(url=f'{url}/sdapi/v1/txt2img', json=payload) # r = response.json() i = r['images'][0] image = Image.open(io.BytesIO(base64.b64decode(i.split(",",1)[0]))) png_payload = { "image": "data:image/png;base64," + i } response2 = requests.post(url=f'{url}/sdapi/v1/png-info', json=png_payload) # pnginfo = PngImagePlugin.PngInfo() pnginfo.add_text("parameters", response2.json().get("info")) image.save(fname, pnginfo=pnginfo) sd_models = requests.get(f"{url}/sdapi/v1/sd-models").json() for i in sd_models: print(i['title']) img2txt(url, model, prompt, width, height, steps, cfg_scale, negative_prompt, fname) Image.open(fname).show()
Python プログラムの実行
Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.
Python のまとめ: 別ページ »にまとめ
プログラムを sdapi.pyのようなファイル名で保存したので, 「python sdapi.py」のようなコマンドで行う.
python sdapi.py
AUTOMATIC1111 の API を利用して,複数の画像を1回の操作で生成する Python プログラム: 別ページ »で説明している.