SQL 問い合わせ(Python, pandas, pandasql を使用)

1. エグゼクティブサマリー

本記事では,Python の pandas および pandasql を使用して,データフレームに対し SQL で問い合わせを行う方法を説明する。選択(selection),射影(projection),グループごとの集計,ソート(ORDER BY),条件付き集計といった操作を扱う。データセットには seaborn が提供する Iris データセットおよび titanic データセットを使用する。

2. 前準備(必要ソフトウェアの入手)

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール(Windows 上) [クリックして展開]

以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。

方法1:winget によるインストール

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --id Python.Python.3.12 -e --scope machine --silent --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_test=0 Include_pip=1 Include_launcher=1 InstallLauncherAllUsers=1 TargetDir=\"C:\Program Files\Python312\""
powershell -Command "$p='C:\Program Files\Python312'; $s=\"$p\Scripts\"; $m=[Environment]::GetEnvironmentVariable('Path','Machine'); if($m -notlike \"*$s*\") { [Environment]::SetEnvironmentVariable('Path', \"$p;$s;$m\", 'Machine') }"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

方法2:インストーラーによるインストール

  1. Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
  2. ダウンロードしたインストーラーを実行する。
  3. 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
  4. 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

AIエディタ Windsurf のインストール(Windows 上) [クリックして展開]

Pythonプログラムの編集・実行には、AIエディタの利用を推奨する。ここでは、Windsurfのインストールを説明する。Windsurf がインストール済みの場合、この手順は不要である。

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --scope machine --id Codeium.Windsurf -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --custom "/SP- /SUPPRESSMSGBOXES /NORESTART /CLOSEAPPLICATIONS /DIR=""C:\Program Files\Windsurf"" /MERGETASKS=!runcode,addtopath,associatewithfiles,!desktopicon"
powershell -Command "$env:Path=[System.Environment]::GetEnvironmentVariable('Path','Machine')+';'+[System.Environment]::GetEnvironmentVariable('Path','User'); windsurf --install-extension MS-CEINTL.vscode-language-pack-ja --force; windsurf --install-extension ms-python.python --force; windsurf --install-extension Codeium.windsurfPyright --force"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

必要なライブラリのインストール [クリックして展開]

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには,Windows キーまたはスタートメニューから「cmd」と入力し,表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

python -m pip install -U pip setuptools numpy pandas pandasql matplotlib seaborn scikit-learn scikit-learn-intelex

3. 実行のための準備とその確認手順(Windows 前提)

3.1 プログラムファイルの準備

本記事では複数の独立した Python コード例を掲載している。第5章のソースコードをテキストエディタ(メモ帳,Windsurf 等)に貼り付け,以下のファイル名で保存する(文字コード:UTF-8)。

3.2 実行コマンド

コマンドプロンプトでファイルの保存先ディレクトリに移動し,以下のように実行する。

python load_data.py

他のファイルも同様に python ファイル名.py で実行する。

3.3 動作確認チェックリスト

確認項目期待される結果
データセットの読み込み(load_data.py)エラーなく実行が完了する
データの確認(check_data.py)iris と titanic それぞれの先頭5行が表示される
選択(selection.py)sepal_length が 5 より大きいレコードが表示される
射影(projection.py)sepal_length と sepal_width の2列のみが条件付きで表示される
グループごとの数え上げ(groupby_count.py)iris の species 別件数と titanic の embark_town 別件数が表示される
グループごとの最大値(groupby_max.py)iris の species ごとに各列の最大値が表示される
ソート(order_by.py)sepal_length の降順で先頭10件が表示される
条件付き集計(join_query.py)乗船地ごとの生存者数,総数,生存率が表示される

4. 概要・使い方・実行上の注意

4.1 データセットの準備

seaborn の sns.load_dataset() で Iris データセットと titanic データセットを読み込む。初回実行時にはインターネット経由でデータがダウンロードされる。読み込み後,head() で先頭5行を表示してデータの構造と列名を確認する。

4.2 SQL 問い合わせの各操作

pandasql の sqldf 関数を使用すると,pandas のデータフレームに対して SQL で問い合わせを実行できる。本記事では以下の操作を扱う。

選択(selection)は,WHERE 句で条件に合致するレコードを抽出する操作である。

射影(projection)は,SELECT 句で特定の列のみを取得する操作である。WHERE 句と組み合わせることで,条件を満たすレコードの特定列のみを取得できる。

グループごとの数え上げでは,列を1つ選んでグループを作り,各グループの要素数を求める。GROUP BY 句と count(*) を組み合わせて使用する。

グループごとの最大,最小,平均,中央値,和では,集約関数(max, min, avg, median, sum)を GROUP BY 句と組み合わせる。本記事では各グループの最大値を求める例を載せる。

ソート(ORDER BY)では,ORDER BY 句で結果を並べ替える。LIMIT 句と組み合わせることで上位 N 件を取得できる。

条件付き集計では,SUM,COUNT,AVG,ROUND,WHERE(NULL 除外),GROUP BY,ORDER BY を組み合わせて,乗船地ごとの生存者数を集計する。

5. ソースコード

5.1 iris, titanic データセットの読み込み

import pandas as pd
import seaborn as sns
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

5.2 データの確認

print(iris.head())
print(titanic.head())

5.3 選択(selection)

import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')

print(sqldf("SELECT * FROM iris WHERE sepal_length > 5;", globals()))

5.4 射影(projection)

import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')

print(sqldf("SELECT sepal_length, sepal_width FROM iris WHERE sepal_length > 5;", globals()))

5.5 グループごとの数え上げ

pandasql と SQL を使う場合

import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print(sqldf("SELECT species, count(*) FROM iris GROUP BY species;", globals()))
print(sqldf("SELECT embark_town, count(*) FROM titanic GROUP BY embark_town;", globals()))

5.6 グループごとの最大値

pandasql と SQL を使う場合

import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')

print(sqldf("SELECT species, max(sepal_length), max(sepal_width), max(petal_length), max(petal_width) FROM iris GROUP BY species;", globals()))

5.7 ソート(ORDER BY)

import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')

print(sqldf("SELECT * FROM iris ORDER BY sepal_length DESC LIMIT 10;", globals()))

5.8 条件付き集計

import pandas as pd
from pandasql import sqldf
import seaborn as sns
titanic = sns.load_dataset('titanic')

print(sqldf("SELECT embark_town, SUM(survived) AS survived_count, COUNT(*) AS total, ROUND(AVG(survived) * 100, 1) AS survival_rate FROM titanic WHERE embark_town IS NOT NULL GROUP BY embark_town ORDER BY survival_rate DESC;", globals()))

6. まとめ

pandasql による SQL 問い合わせ

pandasql の sqldf 関数により,pandas のデータフレームに対して SQL で問い合わせを実行できる。

選択と射影

選択(selection)は WHERE 句で条件に合致するレコードを抽出し,射影(projection)は SELECT 句で特定の列のみを取得する。両者を組み合わせることで,必要なデータを効率的に絞り込める。

GROUP BY による集計

列を1つ選んでグループを作り,count, max, min, avg, sum などの集約関数で各グループの統計量を求めることができる。

ORDER BY によるソート

ORDER BY 句で結果を並べ替え,LIMIT 句で上位 N 件を取得できる。

複合的な SQL 問い合わせ

SUM,COUNT,AVG,ROUND,WHERE,GROUP BY,ORDER BY を組み合わせることで,条件付き集計を単一の SELECT 文で実現できる。