Gemini 2.5 Flash Text-to-Image（画像生成）（ソースコードと実行結果）

【概要】テキストプロンプトからの画像生成（Text-to-Image）を行うPythonアプリケーション。メイン・スタイルプロンプト分離入力、複数行対応、タイムスタンプ付き保存機能。API版なので料金に注意．

料金体系：

API版（プログラム利用）：画像1枚約$0.039（約6円）
WEB版（Google AI Studio）：無料枠有り（1日500リクエスト制限）
Geminiアプリ：無料

Python開発環境，ライブラリ類

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール

Pythonのインストールを行い、Pythonのプログラムを実行する環境を整える。扱う環境は、Windows搭載パソコンである。金子研究室では、Python 3.12.10を推奨する。

[Windows での Python 3.12 のインストール手順を見るには、ここをクリック]

Windows での Python 3.12 のインストール

以下のいずれかの方法でPython 3.12をインストールする。Pythonがインストール済みの場合、この手順は不要である。

方法 1：winget によるインストール

【インストールコマンドの実行方法】

管理者権限でコマンドプロンプトを起動する（手順：Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」）。そして、コマンド全体をコマンドプロンプトにコピー＆ペーストする。

--scope machine を指定することで、システム全体（全ユーザー向け）にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動するとPATHが反映される。

REM Python 3.12 をシステム領域にインストール
winget install --id Python.Python.3.12 -e --scope machine --silent --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_test=0 Include_pip=1 Include_launcher=1 InstallLauncherAllUsers=1 TargetDir=\"C:\Program Files\Python312\""

REM Python と Scripts を PATH 先頭に追加
powershell -NoProfile -Command "$p='C:\Program Files\Python312'; $s=\"$p\Scripts\"; $c=[Environment]::GetEnvironmentVariable('Path','Machine'); if((Test-Path $p) -and (';'+$c+';' -notlike \"*;$p;*\") -and (';'+$c+';' -notlike \"*;$s;*\")){[Environment]::SetEnvironmentVariable('Path',\"$p;$s;$c\",'Machine')}"

方法 2：インストーラーによるインストール

Python公式サイト（https://www.python.org/downloads/）にアクセスし、「Download Python 3.x.x」ボタンからWindows用インストーラーをダウンロードする。
ダウンロードしたインストーラーを実行する。
初期画面の下部に表示される「Add python.exe to PATH」にチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号（例：Python 3.12.x）が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

Python の開発環境 Visual Studio Code のインストールと Python 用の設定

Python の開発環境Visual Studio Code（プログラムを編集するソフトウェア。以下、VS Code）を整える。

[Windows での Visual Studio Code のインストールと Python 用の設定手順を見るには、ここをクリック]

Windows での Visual Studio Code のインストールと Python 用の設定手順

1. VS Code と拡張機能のインストール

以下のコマンドにより，既存の VS Code を削除し，全ユーザー共有の設定で再インストールしたうえで，拡張機能（VS Code に機能を追加するソフトウェア）をまとめて導入する．

【インストールコマンドの実行方法】

管理者権限でコマンドプロンプトを起動する（手順：Windows キーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」）。そして，コマンド全体をコマンドプロンプトにコピー＆ペーストする。

インストールコマンド


REM ============================================================
REM Microsoft Visual Studio Code
REM ============================================================
winget uninstall -e --id Microsoft.VisualStudioCode --silent --disable-interactivity --accept-source-agreements
rmdir /s /q C:\ProgramData\vscode-extensions 2>nul
rmdir /s /q "%APPDATA%\Code" 2>nul
rmdir /s /q "%USERPROFILE%\.vscode" 2>nul
rmdir /s /q "%LOCALAPPDATA%\Microsoft\vscode-update" 2>nul

REM VS Code をシステム領域に新規インストール
winget install --scope machine --id Microsoft.VisualStudioCode -e --silent --accept-source-agreements --accept-package-agreements

REM 全ユーザー共有の拡張機能フォルダ
mkdir C:\ProgramData\vscode-extensions 2>nul
icacls "C:\ProgramData\vscode-extensions" /grant "Everyone:(OI)(CI)M" /T

REM スタートメニューのショートカットを --extensions-dir 付きで再作成
rmdir /s /q "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code" 2>nul
del "C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code.lnk" 2>nul
powershell -NoProfile -Command "$s=New-Object -ComObject WScript.Shell; $lnk=$s.CreateShortcut('C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code.lnk'); $lnk.TargetPath='C:\Program Files\Microsoft VS Code\Code.exe'; $lnk.Arguments='--extensions-dir \"C:\ProgramData\vscode-extensions\"'; $lnk.Save()"
REM ショートカットの検証
powershell -NoProfile -Command "$s=New-Object -ComObject WScript.Shell; $lnk=$s.CreateShortcut('C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Visual Studio Code.lnk'); Write-Host 'TargetPath:' $lnk.TargetPath; Write-Host 'Arguments:' $lnk.Arguments"

REM ファイル / フォルダ右クリックの「Code で開く」を登録
reg add "HKLM\SOFTWARE\Classes\*\shell\VSCode\command" /ve /d "\"C:\Program Files\Microsoft VS Code\Code.exe\" --extensions-dir \"C:\ProgramData\vscode-extensions\" \"%1\"" /f
reg add "HKLM\SOFTWARE\Classes\Directory\shell\VSCode\command" /ve /d "\"C:\Program Files\Microsoft VS Code\Code.exe\" --extensions-dir \"C:\ProgramData\vscode-extensions\" \"%1\"" /f
reg add "HKLM\SOFTWARE\Classes\Directory\Background\shell\VSCode\command" /ve /d "\"C:\Program Files\Microsoft VS Code\Code.exe\" --extensions-dir \"C:\ProgramData\vscode-extensions\" \"%V\"" /f

REM --extensions-dir 付きで起動する code.cmd ラッパを作成
REM （%* を echo で書くと対話的 cmd で失われるため、PowerShell で [char]37+'*' を書き出す）
powershell -NoProfile -Command "$pct=[char]37; $q=[char]34; $c='@echo off'+[char]13+[char]10+$q+'C:\Program Files\Microsoft VS Code\bin\code.cmd'+$q+' --extensions-dir '+$q+'C:\ProgramData\vscode-extensions'+$q+' '+$pct+'*'+[char]13+[char]10; [IO.File]::WriteAllText('C:\ProgramData\vscode-extensions\vscode.cmd',$c,[Text.Encoding]::ASCII)"

REM 拡張機能のインストール
set "CODE=C:\Program Files\Microsoft VS Code\bin\code.cmd"
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --uninstall-extension GitHub.copilot
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --uninstall-extension GitHub.copilot-chat
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension ms-python.python
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension ms-python.vscode-pylance
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension ms-python.debugpy
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension MS-CEINTL.vscode-language-pack-ja
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension saoudrizwan.claude-dev
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension rust-lang.rust-analyzer
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension tamasfe.even-better-toml
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension anthropic.claude-code
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --install-extension almenon.arepl
"%CODE%" --extensions-dir "C:\ProgramData\vscode-extensions" --list-extensions --show-versions
echo === セットアップ完了 ===

2. Python インタプリタの選択

同一マシンに複数の Python がインストールされている場合，VS Code で使用する Python 本体（インタプリタ：Python プログラムを解釈・実行するソフトウェア）を選択する必要がある．

コマンドパレット（コマンド名で機能を呼び出す VS Code の入力欄）を開く（Ctrl+Shift+P）
Python: Select Interpreter と入力する
表示される一覧から，使用する Python（例：C:\Program Files\Python312\python.exe）を選択する．

必要なライブラリをシステム領域にインストール

管理者権限のコマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

pip install google-genai pillow

Gemini 2.5 Flash Text-to-Image（画像生成）アプリケーション

概要

このプログラムは、GoogleのGemini 2.5 Flash Image Preview APIを利用してテキストプロンプトから画像を生成するText-to-ImageのPythonアプリケーションである[1]。対話型インターフェースにより複数行のプロンプト入力を受け付け、生成された画像をPNGファイルとして保存・表示する。

主要技術

Gemini 2.5 Flash Image Preview API

Googleが2025年8月に発表した最新の画像生成モデルAPI[2]。テキストプロンプトから画像を生成し、会話型の画像編集機能を備える。google-genaiクライアントライブラリを通じてアクセスでき、1,290トークン（約$0.039）で1枚の画像を生成する[3]。（注意：料金は利用者自身で確認してください）

技術的特徴

本アプリケーションの実装における特徴的な技術要素は以下である。APIキーの自動検出機能では、環境変数（GEMINI_API_KEY、GOOGLE_API_KEY）および.envファイルからの読み込みに対応。

実装の特色

ループによる連続生成機能を実装し、ユーザーは一度のセッションで複数の画像生成を実行できる。

参考文献

[1] Google AI for Developers. (2025). Gemini models. https://ai.google.dev/gemini-api/docs/models

[2] Google Developers Blog. (2025). Introducing Gemini 2.5 Flash Image, our state-of-the-art image model. https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/

[3] Google AI for Developers. (2025). Image generation with Gemini. https://ai.google.dev/gemini-api/docs/image-generation

ソースコード

# Gemini 2.5 Flash Text-to-Image生成アプリケーション
# 特徴技術名: Gemini 2.5 Flash Image Preview API
# 出典: Gemini Team, Google. (2025). Gemini 2.5: Our newest Gemini model with thinking. Google DeepMind.
# 特徴機能: Text-to-Image生成（テキストプロンプトから画像生成）
# 学習済みモデル: 使用なし（Gemini 2.5 Flash Image Preview APIによる直接呼び出し）
# 方式設計:
#   関連利用技術: google-genai（Gemini APIクライアント）、PIL（画像処理）、BytesIO（メモリ内バイナリ操作）、pathlib（ファイル操作）、datetime（タイムスタンプ）
#   入力と出力: 入力: テキストプロンプト（メイン・スタイル分離入力、複数行対応）、出力: 生成画像をPNGファイルとして保存・表示、AI応答テキストをコンソール表示
#   処理手順: APIキー取得→Client初期化→会話ループ（プロンプト入力ガイド表示→テキスト入力→API呼び出し→画像保存・表示→結果表示）
#   前処理、後処理: 前処理: メイン・スタイルプロンプト結合、後処理: 画像データ処理・保存・表示、応答内容の表示処理
#   追加処理: 複数行入力機能、メイン・スタイルプロンプト分離、タイムスタンプ付きファイル名、プロンプト入力ガイド、サンプルプロンプト自動使用
#   調整を必要とする設定値: GEMINI_API_KEY または GOOGLE_API_KEY（Gemini APIアクセスキー）
# 将来方策: APIキー自動設定機能（.env設定の自動化、環境変数設定支援）
# その他の重要事項: Windows環境対応、Python 3.10以上、Google AI Studio APIキー必要
# 前準備: pip install google-genai pillow

import os
import re
from pathlib import Path
from datetime import datetime
from google import genai
from PIL import Image
from io import BytesIO

# 設定定数
MODEL_NAME = "gemini-2.5-flash-image-preview"

def load_api_key():
    # 環境変数から取得
    for var_name in ['GEMINI_API_KEY', 'GOOGLE_API_KEY']:
        if api_key := os.getenv(var_name):
            return api_key

    # .envファイルから取得
    for env_file in ['.env', '.env.development']:
        if Path(env_file).exists():
            try:
                content = Path(env_file).read_text()
                for var_name in ['GEMINI_API_KEY', 'GOOGLE_API_KEY']:
                    if match := re.search(rf'^\s*{var_name}\s*=(.+)$', content, re.M):
                        return match.group(1).strip().strip('"\'')
            except Exception:
                continue
    return None

def generate_filename():
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    return f"gemini_2.5_flash_image_{timestamp}.png"

def main():
    print("=== Gemini 2.5 Flash Text-to-Image生成アプリ ===")

    # APIキー取得
    api_key = load_api_key()
    if not api_key:
        print("APIキーが見つかりません")
        print("\n**APIキー設定方法**")
        print("**1. 環境変数での設定**")
        print("- `GEMINI_API_KEY` または `GOOGLE_API_KEY` を環境変数に設定")
        print("**2. .envファイルでの設定**")
        print("- プログラムと同じフォルダに `.env` ファイルを作成し、以下のように記述：")
        print("GEMINI_API_KEY=your_api_key_here")
        print("または")
        print("GOOGLE_API_KEY=your_api_key_here")
        print("**APIキーの取得先**")
        print("- https://aistudio.google.com/app/apikey")
        return

    # Gemini Client初期化
    try:
        os.environ['GOOGLE_API_KEY'] = api_key
        client = genai.Client()
        print("初期化完了！'quit'で終了")
        print("テキストプロンプトから画像を生成します\n")
    except Exception as e:
        print(f"初期化エラー: {e}")
        return

    conv_count = 0

    while True:
        try:
            # 会話状態表示
            if conv_count == 0:
                print("画像生成を開始")
            else:
                print("画像生成を続行")

            conv_count += 1

            # プロンプト入力ガイド
            print("\n=== プロンプト入力ガイド ===")
            print("1. メインプロンプト: 対象や構図、詳細描写を具体的に記述")
            print("   例: 'a serene lakeside at sunset, detailed reflections, mountains in background'")
            print("2. スタイルプロンプト: 画風や質感、雰囲気を補足（任意）")
            print("   例: 'high quality, detailed, sharp, cinematic lighting'")
            print("3. サンプル例:")
            print("   - 'A capybara holding a sign that reads Hello World'")
            print("   - 'A futuristic city skyline at night with neon lights'")
            print("   - 'A watercolor painting of cherry blossoms in spring'")
            print("Enterのみでサンプルプロンプトを使用")

            # メインプロンプト入力
            print("\n--- メインプロンプト ---")
            main_lines = []
            print("メインプロンプトを入力してください（複数行入力可、空の行でEnterで入力終了）:")
            while True:
                line = input()
                if line == "":
                    break
                main_lines.append(line)

            main_prompt = "\n".join(main_lines).strip()

            # スタイルプロンプト入力（任意）
            print("\n--- スタイルプロンプト（任意）---")
            style_lines = []
            print("スタイルプロンプトを入力してください（任意、複数行入力可、空の行でEnterで入力終了）:")
            while True:
                line = input()
                if line == "":
                    break
                style_lines.append(line)

            style_prompt = "\n".join(style_lines).strip()

            # プロンプト結合またはサンプル使用
            if main_prompt:
                user_input = f"{main_prompt}, {style_prompt}" if style_prompt else main_prompt
            else:
                user_input = "A capybara holding a sign that reads Hello World"
                print("サンプルプロンプトを使用します")

            if user_input.lower() in ['quit', 'exit', '終了']:
                break

            # 生成設定の表示
            print("\n=== 生成設定確認 ===")
            print(f"使用モデル: Gemini 2.5 Flash Image Preview")
            print(f"使用プロンプト: {user_input}")
            print(f"出力ファイル名: {generate_filename()}")
            print("=" * 50)

            if not user_input.strip():
                print("プロンプトが空です。再入力してください。")
                continue

            print("画像生成中...")

            # 画像生成
            response = client.models.generate_content(
                model=MODEL_NAME,
                contents=[user_input],
            )

            # レスポンス処理
            image_saved = False
            for part in response.candidates[0].content.parts:
                if part.text is not None:
                    print(f"AI: {part.text}")
                elif part.inline_data is not None:
                    try:
                        filename = generate_filename()
                        image = Image.open(BytesIO(part.inline_data.data))
                        image.save(filename)
                        print(f"画像を保存しました: {filename}")

                        # 画像表示を試行
                        try:
                            image.show()
                            print("画像を表示しました")
                        except Exception as display_error:
                            print(f"画像表示に失敗しました: {display_error}")

                        image_saved = True
                    except Exception as e:
                        print(f"画像の処理でエラーが発生しました: {e}")

            if not image_saved:
                print("画像が生成されませんでした。プロンプトを変更して再試行してください。")

        except KeyboardInterrupt:
            print("\n\nプログラムを終了します")
            break
        except Exception as e:
            print(f"エラーが発生しました: {e}")
            print("別のプロンプトで再試行してください。")

    print("お疲れ様でした！")

if __name__ == "__main__":
    main()