PyCUDA のインストール，PyCUDA のプログラム例（Windows 上）

Windows環境での PyCUDA のインストールと使用方法を説明している．コマンドプロンプトを管理者として実行し，pipを使用してインストールする．公式サイトのサンプルプログラムを用いて，PyCUDA の主要機能を紹介している．サンプルプログラムの実行結果も示しており，PyCUDA の基本的な使用方法を理解するのに有用である．

【目次】

前準備
pycuda のインストール手順
PyCUDA のプログラム例（公式サイトのプログラムを利用）

PyCUDA

PyCUDA は NVIDIA CUDA APIにアクセスできるようにするライブラリ

pip を用いたインストールコマンド: python -m pip install -U pycuda

【関連する外部ページ】

PyCUDA の公式ページ: https://mathema.tician.de/software/pycuda/

【関連項目】 NVIDIA CUDA

前準備

Python 3.12 のインストール

インストール済みの場合は実行不要。

管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。

REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul

【関連する外部ページ】

Python の公式ページ: https://www.python.org/

AI エディタ Windsurf のインストール

Pythonプログラムの編集・実行には、AI エディタの利用を推奨する。ここでは，Windsurfのインストールを説明する。

管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行して、Windsurfをシステム全体にインストールする。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。

winget install --scope machine Codeium.Windsurf -e --silent

【関連する外部ページ】

Windsurf の公式ページ: https://windsurf.com/

Gitのインストール

管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。


REM Git をシステム領域にインストール
winget install --scope machine --id Git.Git -e --silent
REM Git のパス設定
set "GIT_PATH=C:\Program Files\Git\cmd"
if exist "%GIT_PATH%" (
    echo "%PATH%" | find /i "%GIT_PATH%" >nul
    if errorlevel 1 setx PATH "%PATH%;%GIT_PATH%" /M >nul
)

Visual Studio 2022 Build Toolsとランタイムのインストール

管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。


REM Visual Studio 2022 Build Toolsとランタイムのインストール
winget install --scope machine Microsoft.VisualStudio.2022.BuildTools Microsoft.VCRedist.2015+.x64
set VS_INSTALLER="C:\Program Files (x86)\Microsoft Visual Studio\Installer\setup.exe"
set VS_PATH="C:\Program Files (x86)\Microsoft Visual Studio\2022\BuildTools"
REM C++開発ワークロードのインストール
%VS_INSTALLER% modify --installPath %VS_PATH% ^
--add Microsoft.VisualStudio.Workload.VCTools ^
--add Microsoft.VisualStudio.Component.VC.Tools.x86.x64 ^
--add Microsoft.VisualStudio.Component.Windows11SDK.22621 ^
--includeRecommended --quiet --norestart

NVIDIA ドライバのインストール（Windows 上）

NVIDIA ドライバ

NVIDIA ドライバは，NVIDIA製GPUを動作させるための重要なソフトウェアである．このドライバをインストールすることにより，GPUの性能を引き出すことができ，グラフィックス関連のアプリ，AI関連のアプリの高速化が期待できる．

ドライバはNVIDIA公式サイトである https://www.nvidia.co.jp/Download/index.aspx?lang=jp からダウンロードできる．このサイトからダウンロードするときには，グラフィックスカードとオペレーティングシステムを選択する．なお，NVIDIA GeForce Experiance を用いてインストールすることも可能である．

【サイト内の関連ページ】

NVIDIA ドライバのインストール（Windows 上）

NVIDIA グラフィックス・ボードの確認
Windows で，NVIDIA グラフィックス・ボードの種類を調べたいときは，次のコマンドを実行することにより調べることができる．
wmic path win32_VideoController get name
NVIDIA ドライバのダウンロード
NVIDIA ドライバは，以下の NVIDIA 公式サイトからダウンロードできる．
https://www.nvidia.co.jp/Download/index.aspx?lang=jp
ダウンロードの際には，使用しているグラフィックス・ボードの型番とオペレーティングシステムを選択する．

NVIDIA CUDA ツールキット 11.8 のインストール（Windows 上）

NVIDIA CUDA ツールキットのインストール時の注意点

NVIDIAのGPUを使用して並列計算を行うためのツールセット

主な機能: GPU を利用した並列処理，GPU のメモリ管理，C++をベースとした拡張言語とAPIとライブラリ

【NVIDIA CUDA ツールキットの動作に必要なもの】

CUDA対応のNVIDIA GPUが必要．
そのために，NVIDIA グラフィックス・ボードを確認する． Windows で，NVIDIA グラフィックス・ボードの種類を調べたいときは，次のコマンドを実行することにより調べることができる．
wmic path win32_VideoController get name
NVIDIA ドライバのダウンロードとインストール
NVIDIA ドライバは，以下の NVIDIA 公式サイトからダウンロードできる．ダウンロードの際には，使用しているグラフィックス・ボードの型番とオペレーティングシステムを選択する．
https://www.nvidia.co.jp/Download/index.aspx?lang=jp
Windows では，インストール前に，Build Tools for Visual Studio もしくは Visual Studio をインストールしておくことが必要である．

【Windows でインストールするときの注意点】

Windows では， NVIDIA CUDA ツールキットのインストール中は，なるべく他のウインドウはすべて閉じておくこと．
NVIDIA CUDA ツールキットのインストールが終わったら，ユーザ環境変数 TEMP の設定を行う．
Windows のユーザ名が日本語のとき，nvcc がうまく動作しないエラーを回避するためである．
ユーザ環境変数 TEMP に「C:\TEMP」を設定するために，コマンドプロンプトで，次のコマンドを実行する．
mkdir C:\TEMP powershell -command "[System.Environment]::SetEnvironmentVariable(\"TEMP\", \"C:\TEMP\", \"User\")"

【関連する外部ページ】

NVIDIA CUDA ツールキットのアーカイブの公式ページ: https://developer.nvidia.com/cuda-toolkit-archive
NVIDIA CUDA ツールキットの公式のドキュメント: https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html
NVIDIA CUDA ツールキットのインストールに関する，NVIDIA CUDA クイックスタートガイドの公式ページ: https://docs.nvidia.com/cuda/cuda-quick-start-guide/index.html

Windows では，NVIDIA CUDA ツールキットのインストール中は，なるべく他のウインドウはすべて閉じておくこと．
Windows で，管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）。

次のコマンドを実行

次のコマンドは，NVIDIA GeForce Experience，NVIDIA CUDA ツールキット 11.8 をインストールするものである．

wmic path win32_VideoController get name

winget install --scope machine Nvidia.CUDA --version 11.8
powershell -command "[System.Environment]::SetEnvironmentVariable(\"CUDA_HOME\", \"C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.8\", \"Machine\")"

NVIDIA CUDA ツールキットのインストールが終わったら，ユーザ環境変数 TEMP の設定を行う．
Windows のユーザ名が日本語のとき，nvcc がうまく動作しないエラーを回避するためである．
ユーザ環境変数 TEMP に「C:\TEMP」を設定するために，コマンドプロンプトで，次のコマンドを実行する．
mkdir C:\TEMP powershell -command "[System.Environment]::SetEnvironmentVariable(\"TEMP\", \"C:\TEMP\", \"User\")"

PyCUDA のインストール（Windows 上）

Windows で，管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）。
次のコマンドを実行
次のコマンドは，pycuda をインストールするものである．
python -m pip install pycuda

【関連する外部ページ】

PyCUDA の公式ページ: https://mathema.tician.de/software/pycuda/

PyCUDA のプログラム例（公式サイトのプログラムを利用）

試しに、https://documen.tician.de/pycuda/ で公開されているサンプルプログラムを動かしてみる．

Visual Studio の x64 Native Tools コマンドプロンプトを起動．

* その起動は，Windows のスタートメニューで「Visual Studio 2022」の下の「x64 Native Tools Command Prompt for VS 2022」で起動する.（あるいは類似のものを探す）

「x64 Native Tools コマンドプロンプト (x64 Native Tools Command Prompt)」がないとき:
C++ ビルドツール (Build Tools) のインストールを行うことで，「x64 Native Tools コマンドプロンプト (x64 Native Tools Command Prompt)」がインストールされる．その手順は，別ページ »で説明

Python プログラムの実行

Windows では python （Python ランチャーは py）
Ubuntu では python3

Python 開発環境（Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど）も便利である．

Python のまとめ: 別ページ »にまとめ

python

次の Python プログラムを実行する

import pycuda.autoinit
import pycuda.driver as drv
import numpy

from pycuda.compiler import SourceModule
mod = SourceModule("""
__global__ void multiply_them(float *dest, float *a, float *b)
{
  const int i = threadIdx.x;
  dest[i] = a[i] * b[i];
}
""", options=['-allow-unsupported-compiler'])

multiply_them = mod.get_function("multiply_them")

a = numpy.random.randn(400).astype(numpy.float32)
b = numpy.random.randn(400).astype(numpy.float32)

dest = numpy.zeros_like(a)
multiply_them(
        drv.Out(dest), drv.In(a), drv.In(b),
        block=(400,1,1), grid=(1,1))

print(dest-a*b)

PyCUDA の主な機能

公式チュートリアル https://documen.tician.de/pycuda/tutorial.html#getting-started に掲載されているプログラムと実行結果を紹介

GPU上でのメモリ確保とデータ転送

import pycuda.driver as cuda
import pycuda.autoinit
import numpy as np

# データ準備
a = np.random.randn(4, 4).astype(np.float32)

# GPU上でメモリ確保
a_gpu = cuda.mem_alloc(a.nbytes)

# データをGPUに転送
cuda.memcpy_htod(a_gpu, a)

# GPUからデータを取得して確認
a_result = np.empty_like(a)
cuda.memcpy_dtoh(a_result, a_gpu)
print("Original data:", a)
print("Data after GPU transfer:", a_result)

カーネル関数の実行

import pycuda.driver as cuda
import pycuda.autoinit
import numpy as np
from pycuda.compiler import SourceModule

mod = SourceModule("""
__global__ void double_array(float *a)
{
    int idx = threadIdx.x + threadIdx.y*4;
    a[idx] *= 2;
}
""", options=['-allow-unsupported-compiler'])

# データ準備
a = np.random.randn(4, 4).astype(np.float32)

# GPU上でメモリ確保
a_gpu = cuda.mem_alloc(a.nbytes)

# データをGPUに転送
cuda.memcpy_htod(a_gpu, a)

func = mod.get_function("double_array")
func(a_gpu, block=(4, 4, 1))

# 結果を確認
a_doubled = np.empty_like(a)
cuda.memcpy_dtoh(a_doubled, a_gpu)
print("Original array:", a)
print("Doubled array:", a_doubled)

準備済み呼び出し (Prepared Invocations)

import pycuda.driver as cuda
import pycuda.autoinit
import numpy as np
from pycuda.compiler import SourceModule

# カーネル関数の定義
mod = SourceModule("""
__global__ void double_array(float *a)
{
    int idx = threadIdx.x + threadIdx.y*4;
    a[idx] *= 2;
}
""", options=['-allow-unsupported-compiler'])

# 関数の取得
func = mod.get_function("double_array")

# データの準備
a = np.random.randn(4, 4).astype(np.float32)
a_gpu = cuda.mem_alloc(a.nbytes)
cuda.memcpy_htod(a_gpu, a)

# 関数の準備と呼び出し
func.prepare("P")
func.prepared_call((1, 1), (4, 4, 1), a_gpu)

# 結果の取得と表示
a_result = np.empty_like(a)
cuda.memcpy_dtoh(a_result, a_gpu)
print("Original array:", a)
print("Result using prepared call:", a_result)

GPUArrayを使用した簡略化

import pycuda.driver as cuda
import pycuda.autoinit
import pycuda.compiler as compiler
import pycuda.gpuarray as gpuarray
import numpy as np

# コンパイラオプションを設定
compiler.DEFAULT_NVCC_FLAGS.append('-allow-unsupported-compiler')

# GPUArrayの作成と計算
a_gpu = gpuarray.to_gpu(np.random.randn(4, 4).astype(np.float32))
a_doubled = (2 * a_gpu).get()

print("Original GPUArray:")
print(a_gpu)
print("\nDoubled GPUArray:")
print(a_doubled)