Gemini 2.5 Flash Text-to-Image(画像生成)(ソースコードと実行結果)
テキストプロンプトからの画像生成(Text-to-Image)を行うPythonアプリケーション。メイン・スタイルプロンプト分離入力、複数行対応、タイムスタンプ付き保存機能。API版なので料金に注意.
料金体系:
- API版(プログラム利用):画像1枚約$0.039(約6円)
- WEB版(Google AI Studio):無料枠有り(1日500リクエスト制限)
- Geminiアプリ:無料


Python開発環境,ライブラリ類
ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。
Python 3.12 のインストール
インストール済みの場合は実行不要。
管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。
REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
AI エディタ Windsurf のインストール
Pythonプログラムの編集・実行には、AI エディタの利用を推奨する。ここでは,Windsurfのインストールを説明する。
管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行して、Windsurfをシステム全体にインストールする。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。
winget install --scope machine Codeium.Windsurf -e --silent
【関連する外部ページ】
Windsurf の公式ページ: https://windsurf.com/
必要なライブラリのインストール
コマンドプロンプトを管理者として実行(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する
pip install google-genai pillow
Gemini 2.5 Flash Text-to-Image(画像生成)アプリケーション
概要
このプログラムは、GoogleのGemini 2.5 Flash Image Preview APIを利用してテキストプロンプトから画像を生成するText-to-ImageのPythonアプリケーションである[1]。対話型インターフェースにより複数行のプロンプト入力を受け付け、生成された画像をPNGファイルとして保存・表示する。
主要技術
Gemini 2.5 Flash Image Preview API
Googleが2025年8月に発表した最新の画像生成モデルAPI[2]。テキストプロンプトから画像を生成し、会話型の画像編集機能を備える。google-genaiクライアントライブラリを通じてアクセスでき、1,290トークン(約$0.039)で1枚の画像を生成する[3]。(注意:料金は利用者自身で確認してください)
技術的特徴
本アプリケーションの実装における特徴的な技術要素は以下である。APIキーの自動検出機能では、環境変数(GEMINI_API_KEY、GOOGLE_API_KEY)および.envファイルからの読み込みに対応。
実装の特色
ループによる連続生成機能を実装し、ユーザーは一度のセッションで複数の画像生成を実行できる。
参考文献
[1] Google AI for Developers. (2025). Gemini models. https://ai.google.dev/gemini-api/docs/models
[2] Google Developers Blog. (2025). Introducing Gemini 2.5 Flash Image, our state-of-the-art image model. https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/
[3] Google AI for Developers. (2025). Image generation with Gemini. https://ai.google.dev/gemini-api/docs/image-generation
ソースコード
# Gemini 2.5 Flash Text-to-Image生成アプリケーション
# 特徴技術名: Gemini 2.5 Flash Image Preview API
# 出典: Gemini Team, Google. (2025). Gemini 2.5: Our newest Gemini model with thinking. Google DeepMind.
# 特徴機能: Text-to-Image生成(テキストプロンプトから画像生成)
# 学習済みモデル: 使用なし(Gemini 2.5 Flash Image Preview APIによる直接呼び出し)
# 方式設計:
# 関連利用技術: google-genai(Gemini APIクライアント)、PIL(画像処理)、BytesIO(メモリ内バイナリ操作)、pathlib(ファイル操作)、datetime(タイムスタンプ)
# 入力と出力: 入力: テキストプロンプト(メイン・スタイル分離入力、複数行対応)、出力: 生成画像をPNGファイルとして保存・表示、AI応答テキストをコンソール表示
# 処理手順: APIキー取得→Client初期化→会話ループ(プロンプト入力ガイド表示→テキスト入力→API呼び出し→画像保存・表示→結果表示)
# 前処理、後処理: 前処理: メイン・スタイルプロンプト結合、後処理: 画像データ処理・保存・表示、応答内容の表示処理
# 追加処理: 複数行入力機能、メイン・スタイルプロンプト分離、タイムスタンプ付きファイル名、プロンプト入力ガイド、サンプルプロンプト自動使用
# 調整を必要とする設定値: GEMINI_API_KEY または GOOGLE_API_KEY(Gemini APIアクセスキー)
# 将来方策: APIキー自動設定機能(.env設定の自動化、環境変数設定支援)
# その他の重要事項: Windows環境対応、Python 3.10以上、Google AI Studio APIキー必要
# 前準備: pip install google-genai pillow
import os
import re
from pathlib import Path
from datetime import datetime
from google import genai
from PIL import Image
from io import BytesIO
# 設定定数
MODEL_NAME = "gemini-2.5-flash-image-preview"
def load_api_key():
# 環境変数から取得
for var_name in ['GEMINI_API_KEY', 'GOOGLE_API_KEY']:
if api_key := os.getenv(var_name):
return api_key
# .envファイルから取得
for env_file in ['.env', '.env.development']:
if Path(env_file).exists():
try:
content = Path(env_file).read_text()
for var_name in ['GEMINI_API_KEY', 'GOOGLE_API_KEY']:
if match := re.search(rf'^\s*{var_name}\s*=(.+)$', content, re.M):
return match.group(1).strip().strip('"\'')
except Exception:
continue
return None
def generate_filename():
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
return f"gemini_2.5_flash_image_{timestamp}.png"
def main():
print("=== Gemini 2.5 Flash Text-to-Image生成アプリ ===")
# APIキー取得
api_key = load_api_key()
if not api_key:
print("APIキーが見つかりません")
print("\n**APIキー設定方法**")
print("**1. 環境変数での設定**")
print("- `GEMINI_API_KEY` または `GOOGLE_API_KEY` を環境変数に設定")
print("**2. .envファイルでの設定**")
print("- プログラムと同じフォルダに `.env` ファイルを作成し、以下のように記述:")
print("GEMINI_API_KEY=your_api_key_here")
print("または")
print("GOOGLE_API_KEY=your_api_key_here")
print("**APIキーの取得先**")
print("- https://aistudio.google.com/app/apikey")
return
# Gemini Client初期化
try:
os.environ['GOOGLE_API_KEY'] = api_key
client = genai.Client()
print("初期化完了!'quit'で終了")
print("テキストプロンプトから画像を生成します\n")
except Exception as e:
print(f"初期化エラー: {e}")
return
conv_count = 0
while True:
try:
# 会話状態表示
if conv_count == 0:
print("画像生成を開始")
else:
print("画像生成を続行")
conv_count += 1
# プロンプト入力ガイド
print("\n=== プロンプト入力ガイド ===")
print("1. メインプロンプト: 対象や構図、詳細描写を具体的に記述")
print(" 例: 'a serene lakeside at sunset, detailed reflections, mountains in background'")
print("2. スタイルプロンプト: 画風や質感、雰囲気を補足(任意)")
print(" 例: 'high quality, detailed, sharp, cinematic lighting'")
print("3. サンプル例:")
print(" - 'A capybara holding a sign that reads Hello World'")
print(" - 'A futuristic city skyline at night with neon lights'")
print(" - 'A watercolor painting of cherry blossoms in spring'")
print("Enterのみでサンプルプロンプトを使用")
# メインプロンプト入力
print("\n--- メインプロンプト ---")
main_lines = []
print("メインプロンプトを入力してください(複数行入力可、空の行でEnterで入力終了):")
while True:
line = input()
if line == "":
break
main_lines.append(line)
main_prompt = "\n".join(main_lines).strip()
# スタイルプロンプト入力(任意)
print("\n--- スタイルプロンプト(任意)---")
style_lines = []
print("スタイルプロンプトを入力してください(任意、複数行入力可、空の行でEnterで入力終了):")
while True:
line = input()
if line == "":
break
style_lines.append(line)
style_prompt = "\n".join(style_lines).strip()
# プロンプト結合またはサンプル使用
if main_prompt:
user_input = f"{main_prompt}, {style_prompt}" if style_prompt else main_prompt
else:
user_input = "A capybara holding a sign that reads Hello World"
print("サンプルプロンプトを使用します")
if user_input.lower() in ['quit', 'exit', '終了']:
break
# 生成設定の表示
print("\n=== 生成設定確認 ===")
print(f"使用モデル: Gemini 2.5 Flash Image Preview")
print(f"使用プロンプト: {user_input}")
print(f"出力ファイル名: {generate_filename()}")
print("=" * 50)
if not user_input.strip():
print("プロンプトが空です。再入力してください。")
continue
print("画像生成中...")
# 画像生成
response = client.models.generate_content(
model=MODEL_NAME,
contents=[user_input],
)
# レスポンス処理
image_saved = False
for part in response.candidates[0].content.parts:
if part.text is not None:
print(f"AI: {part.text}")
elif part.inline_data is not None:
try:
filename = generate_filename()
image = Image.open(BytesIO(part.inline_data.data))
image.save(filename)
print(f"画像を保存しました: {filename}")
# 画像表示を試行
try:
image.show()
print("画像を表示しました")
except Exception as display_error:
print(f"画像表示に失敗しました: {display_error}")
image_saved = True
except Exception as e:
print(f"画像の処理でエラーが発生しました: {e}")
if not image_saved:
print("画像が生成されませんでした。プロンプトを変更して再試行してください。")
except KeyboardInterrupt:
print("\n\nプログラムを終了します")
break
except Exception as e:
print(f"エラーが発生しました: {e}")
print("別のプロンプトで再試行してください。")
print("お疲れ様でした!")
if __name__ == "__main__":
main()