Self-Attentionメカニズムの確認

【概要】PyTorchによるSelf-Attentionの基本動作を体験する。TransformerのQuery・Key・Valueによる重み付き平均計算を実習し、アテンション重みの変化を数値で確認する。

目次

概要

技術名:Self-Attention

出典:Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998-6008.

従来手法との比較:RNN(回帰型ニューラルネットワーク)/CNN(畳み込みニューラルネットワーク)は長距離依存関係の捕捉が困難で逐次処理が必要である。Self-Attentionは系列内の任意の位置間で直接的に関係性を計算し、並列処理が可能である。

基本概念:Self-AttentionはTransformerの中核技術で、同一系列内での注意計算を行う。Query(何を探すか)、Key(何を持つか)、Value(実際の情報)の3要素で構成され、入力系列内の各要素間の関係性を直接計算する。

数学的定義:Attention(Q,K,V) = softmax(QK^T/√d_k)V。スケーリングファクター√d_kは内積値の分散を制御し学習を安定化する。ソフトマックス関数(確率分布を生成する関数)は重みを正規化する。

応用例:機械翻訳、文書要約、画像認識、音声認識などの自然言語処理・画像認識分野で活用される。

学習効果:Self-Attentionの計算過程を段階的に確認し、各トークンが他のトークンに注意を向ける仕組みを理解する。

Python開発環境,ライブラリ類

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール

インストール済みの場合は実行不要。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。

REM Python をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
echo "%PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_PATH%" /M >nul
echo "%PATH%" | find /i "%PYTHON_SCRIPTS_PATH%" >nul
if errorlevel 1 setx PATH "%PATH%;%PYTHON_SCRIPTS_PATH%" /M >nul

関連する外部ページ

Python の公式ページ: https://www.python.org/

AI エディタ Windsurf のインストール

Pythonプログラムの編集・実行には、AI エディタの利用を推奨する。ここでは,Windsurfのインストールを説明する。

管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行して、Windsurfをシステム全体にインストールする。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。

winget install --scope machine Codeium.Windsurf -e --silent

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

必要なライブラリのインストール

コマンドプロンプトを管理者として実行(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)し、以下を実行する


pip install -U torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

プログラムコード


# Self-Attentionメカニズム体験プログラム
#   PyTorchによるSelf-Attentionの基本動作を可視化
#   論文: "Attention Is All You Need" (Vaswani et al., NIPS 2017)
#   GitHub: https://github.com/pytorch/pytorch
#   特徴: Transformerの中核技術、Q・K・V変換による重み付き平均計算
#         教育用途、自然言語処理・画像認識分野で広く活用
#   前準備: pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

import torch
import torch.nn.functional as F

# 定数定義
TOKEN_COUNT = 3      # トークン数
FEATURE_DIM = 4      # 特徴次元数
RANDOM_SEED = 42     # 乱数シード(再現性確保)

# メイン処理
torch.manual_seed(RANDOM_SEED)

# 入力データ定義(3つのトークンの特徴ベクトル)
input_data = torch.tensor([[1.0, 0.0, 1.0, 0.0],
                          [0.0, 2.0, 0.0, 2.0],
                          [1.0, 1.0, 1.0, 1.0]])

# 線形変換層初期化(バイアスなし)
torch.manual_seed(RANDOM_SEED)
weight_matrix = torch.nn.Linear(FEATURE_DIM, FEATURE_DIM, bias=False)

# Self-Attention計算
# Q, K, V生成(同一重み行列使用 - 教育用簡略化)
query_matrix = weight_matrix(input_data)
key_matrix = weight_matrix(input_data)
value_matrix = weight_matrix(input_data)

# スケーリングドット積アテンション計算
raw_attention_scores = torch.matmul(query_matrix, key_matrix.T)
# スケーリング: 勾配消失を防ぐため√d_kで正規化
scaled_scores = raw_attention_scores / torch.sqrt(torch.tensor(float(FEATURE_DIM)))
# ソフトマックス: 各行の合計が1になるよう正規化
attention_weights = F.softmax(scaled_scores, dim=-1)
# 重み付き平均: アテンション重みでValueを統合
attention_output = torch.matmul(attention_weights, value_matrix)

# 結果出力
print("=== Self-Attention メカニズムの動作確認 ===")

print(f"\n1. 入力データ({TOKEN_COUNT}トークン×{FEATURE_DIM}次元):")
print(input_data)
print(f"形状: {input_data.shape}")

print("\n2. Query/Key/Value生成:")
print("同じ重み行列を使用してQ, K, Vを生成")
print("Q (Query):\n", query_matrix.round(decimals=2))
print("K (Key):\n", key_matrix.round(decimals=2))
print("V (Value):\n", value_matrix.round(decimals=2))

print("\n3. スケーリングドット積計算:")
print("計算式: matmul(Q, K.T) / sqrt(d_k)")
print(f"d_k = {FEATURE_DIM}")
print("生のスコア行列 (Q @ K.T):\n", raw_attention_scores.round(decimals=2))
print("スケーリング後のスコア:\n", scaled_scores.round(decimals=2))

print("\n4. ソフトマックス重み付け:")
print("F.softmax()で各トークンの寄与度を調整")
print("アテンション重み:\n", attention_weights.round(decimals=3))
print("各行の合計(確認):", attention_weights.sum(dim=-1).round(decimals=3))

print("\n5. 最終出力:")
print("重み付き平均として新たなベクトルを出力")
print("計算式: weights @ V")
print("Attention出力:\n", attention_output.round(decimals=2))

print("\n=== 処理の要約 ===")
print("1. 入力をQ, K, Vに変換(同じ重み行列を使用)")
print("2. QとKの内積でアテンションスコアを計算")
print("3. スケーリング(√d_k で除算)")
print("4. ソフトマックスで正規化(重みの合計=1)")
print("5. 重み付きでVを平均化して出力")

使用方法

  1. 上記のプログラムを実行する

実行結果として、Self-Attentionの各計算段階が順次表示される。

実験・探求のアイデア

設定変更実験

実験要素

探求のアイデア