Gemini 2.5 Flash Text-to-Image(画像生成)(ソースコードと実行結果)

テキストプロンプトからの画像生成(Text-to-Image)を行うPythonアプリケーション。メイン・スタイルプロンプト分離入力、複数行対応、タイムスタンプ付き保存機能。API版なので料金に注意.

料金体系:

Python開発環境,ライブラリ類

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール

インストール済みの場合は実行不要。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。

REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul

関連する外部ページ

Python の公式ページ: https://www.python.org/

AI エディタ Windsurf のインストール

Pythonプログラムの編集・実行には、AI エディタの利用を推奨する。ここでは,Windsurfのインストールを説明する。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行して、Windsurfをシステム全体にインストールする。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。

winget install --scope machine Codeium.Windsurf -e --silent

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

必要なライブラリのインストール

コマンドプロンプトを管理者として実行(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する


pip install google-genai pillow

Gemini 2.5 Flash Text-to-Image(画像生成)アプリケーション

概要

このプログラムは、GoogleのGemini 2.5 Flash Image Preview APIを利用してテキストプロンプトから画像を生成するText-to-ImageのPythonアプリケーションである[1]。対話型インターフェースにより複数行のプロンプト入力を受け付け、生成された画像をPNGファイルとして保存・表示する。

主要技術

Gemini 2.5 Flash Image Preview API

Googleが2025年8月に発表した最新の画像生成モデルAPI[2]。テキストプロンプトから画像を生成し、会話型の画像編集機能を備える。google-genaiクライアントライブラリを通じてアクセスでき、1,290トークン(約$0.039)で1枚の画像を生成する[3]。(注意:料金は利用者自身で確認してください)

技術的特徴

本アプリケーションの実装における特徴的な技術要素は以下である。APIキーの自動検出機能では、環境変数(GEMINI_API_KEY、GOOGLE_API_KEY)および.envファイルからの読み込みに対応。

実装の特色

ループによる連続生成機能を実装し、ユーザーは一度のセッションで複数の画像生成を実行できる。

参考文献

[1] Google AI for Developers. (2025). Gemini models. https://ai.google.dev/gemini-api/docs/models

[2] Google Developers Blog. (2025). Introducing Gemini 2.5 Flash Image, our state-of-the-art image model. https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/

[3] Google AI for Developers. (2025). Image generation with Gemini. https://ai.google.dev/gemini-api/docs/image-generation

ソースコード


# Gemini 2.5 Flash Text-to-Image生成アプリケーション
# 特徴技術名: Gemini 2.5 Flash Image Preview API
# 出典: Gemini Team, Google. (2025). Gemini 2.5: Our newest Gemini model with thinking. Google DeepMind.
# 特徴機能: Text-to-Image生成(テキストプロンプトから画像生成)
# 学習済みモデル: 使用なし(Gemini 2.5 Flash Image Preview APIによる直接呼び出し)
# 方式設計:
#   関連利用技術: google-genai(Gemini APIクライアント)、PIL(画像処理)、BytesIO(メモリ内バイナリ操作)、pathlib(ファイル操作)、datetime(タイムスタンプ)
#   入力と出力: 入力: テキストプロンプト(メイン・スタイル分離入力、複数行対応)、出力: 生成画像をPNGファイルとして保存・表示、AI応答テキストをコンソール表示
#   処理手順: APIキー取得→Client初期化→会話ループ(プロンプト入力ガイド表示→テキスト入力→API呼び出し→画像保存・表示→結果表示)
#   前処理、後処理: 前処理: メイン・スタイルプロンプト結合、後処理: 画像データ処理・保存・表示、応答内容の表示処理
#   追加処理: 複数行入力機能、メイン・スタイルプロンプト分離、タイムスタンプ付きファイル名、プロンプト入力ガイド、サンプルプロンプト自動使用
#   調整を必要とする設定値: GEMINI_API_KEY または GOOGLE_API_KEY(Gemini APIアクセスキー)
# 将来方策: APIキー自動設定機能(.env設定の自動化、環境変数設定支援)
# その他の重要事項: Windows環境対応、Python 3.10以上、Google AI Studio APIキー必要
# 前準備: pip install google-genai pillow

import os
import re
from pathlib import Path
from datetime import datetime
from google import genai
from PIL import Image
from io import BytesIO

# 設定定数
MODEL_NAME = "gemini-2.5-flash-image-preview"

def load_api_key():
    # 環境変数から取得
    for var_name in ['GEMINI_API_KEY', 'GOOGLE_API_KEY']:
        if api_key := os.getenv(var_name):
            return api_key

    # .envファイルから取得
    for env_file in ['.env', '.env.development']:
        if Path(env_file).exists():
            try:
                content = Path(env_file).read_text()
                for var_name in ['GEMINI_API_KEY', 'GOOGLE_API_KEY']:
                    if match := re.search(rf'^\s*{var_name}\s*=(.+)$', content, re.M):
                        return match.group(1).strip().strip('"\'')
            except Exception:
                continue
    return None

def generate_filename():
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    return f"gemini_2.5_flash_image_{timestamp}.png"

def main():
    print("=== Gemini 2.5 Flash Text-to-Image生成アプリ ===")

    # APIキー取得
    api_key = load_api_key()
    if not api_key:
        print("APIキーが見つかりません")
        print("\n**APIキー設定方法**")
        print("**1. 環境変数での設定**")
        print("- `GEMINI_API_KEY` または `GOOGLE_API_KEY` を環境変数に設定")
        print("**2. .envファイルでの設定**")
        print("- プログラムと同じフォルダに `.env` ファイルを作成し、以下のように記述:")
        print("GEMINI_API_KEY=your_api_key_here")
        print("または")
        print("GOOGLE_API_KEY=your_api_key_here")
        print("**APIキーの取得先**")
        print("- https://aistudio.google.com/app/apikey")
        return

    # Gemini Client初期化
    try:
        os.environ['GOOGLE_API_KEY'] = api_key
        client = genai.Client()
        print("初期化完了!'quit'で終了")
        print("テキストプロンプトから画像を生成します\n")
    except Exception as e:
        print(f"初期化エラー: {e}")
        return

    conv_count = 0

    while True:
        try:
            # 会話状態表示
            if conv_count == 0:
                print("画像生成を開始")
            else:
                print("画像生成を続行")

            conv_count += 1

            # プロンプト入力ガイド
            print("\n=== プロンプト入力ガイド ===")
            print("1. メインプロンプト: 対象や構図、詳細描写を具体的に記述")
            print("   例: 'a serene lakeside at sunset, detailed reflections, mountains in background'")
            print("2. スタイルプロンプト: 画風や質感、雰囲気を補足(任意)")
            print("   例: 'high quality, detailed, sharp, cinematic lighting'")
            print("3. サンプル例:")
            print("   - 'A capybara holding a sign that reads Hello World'")
            print("   - 'A futuristic city skyline at night with neon lights'")
            print("   - 'A watercolor painting of cherry blossoms in spring'")
            print("Enterのみでサンプルプロンプトを使用")

            # メインプロンプト入力
            print("\n--- メインプロンプト ---")
            main_lines = []
            print("メインプロンプトを入力してください(複数行入力可、空の行でEnterで入力終了):")
            while True:
                line = input()
                if line == "":
                    break
                main_lines.append(line)

            main_prompt = "\n".join(main_lines).strip()

            # スタイルプロンプト入力(任意)
            print("\n--- スタイルプロンプト(任意)---")
            style_lines = []
            print("スタイルプロンプトを入力してください(任意、複数行入力可、空の行でEnterで入力終了):")
            while True:
                line = input()
                if line == "":
                    break
                style_lines.append(line)

            style_prompt = "\n".join(style_lines).strip()

            # プロンプト結合またはサンプル使用
            if main_prompt:
                user_input = f"{main_prompt}, {style_prompt}" if style_prompt else main_prompt
            else:
                user_input = "A capybara holding a sign that reads Hello World"
                print("サンプルプロンプトを使用します")

            if user_input.lower() in ['quit', 'exit', '終了']:
                break

            # 生成設定の表示
            print("\n=== 生成設定確認 ===")
            print(f"使用モデル: Gemini 2.5 Flash Image Preview")
            print(f"使用プロンプト: {user_input}")
            print(f"出力ファイル名: {generate_filename()}")
            print("=" * 50)

            if not user_input.strip():
                print("プロンプトが空です。再入力してください。")
                continue

            print("画像生成中...")

            # 画像生成
            response = client.models.generate_content(
                model=MODEL_NAME,
                contents=[user_input],
            )

            # レスポンス処理
            image_saved = False
            for part in response.candidates[0].content.parts:
                if part.text is not None:
                    print(f"AI: {part.text}")
                elif part.inline_data is not None:
                    try:
                        filename = generate_filename()
                        image = Image.open(BytesIO(part.inline_data.data))
                        image.save(filename)
                        print(f"画像を保存しました: {filename}")

                        # 画像表示を試行
                        try:
                            image.show()
                            print("画像を表示しました")
                        except Exception as display_error:
                            print(f"画像表示に失敗しました: {display_error}")

                        image_saved = True
                    except Exception as e:
                        print(f"画像の処理でエラーが発生しました: {e}")

            if not image_saved:
                print("画像が生成されませんでした。プロンプトを変更して再試行してください。")

        except KeyboardInterrupt:
            print("\n\nプログラムを終了します")
            break
        except Exception as e:
            print(f"エラーが発生しました: {e}")
            print("別のプロンプトで再試行してください。")

    print("お疲れ様でした!")

if __name__ == "__main__":
    main()