SQL 問い合わせ(Python, pandas, pandasql を使用)
1. エグゼクティブサマリー
本記事では,Python の pandas および pandasql を使用して,データフレームに対し SQL で問い合わせを行う方法を説明する。選択(selection),射影(projection),グループごとの集計,ソート(ORDER BY),条件付き集計といった操作を扱う。データセットには seaborn が提供する Iris データセットおよび titanic データセットを使用する。
2. 前準備(必要ソフトウェアの入手)
ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。
Python 3.12 のインストール(Windows 上) [クリックして展開]
以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。
方法1:winget によるインストール
管理者権限のコマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。
winget install --id Python.Python.3.12 -e --scope machine --silent --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_test=0 Include_pip=1 Include_launcher=1 InstallLauncherAllUsers=1 TargetDir=\"C:\Program Files\Python312\""
powershell -Command "$p='C:\Program Files\Python312'; $s=\"$p\Scripts\"; $m=[Environment]::GetEnvironmentVariable('Path','Machine'); if($m -notlike \"*$s*\") { [Environment]::SetEnvironmentVariable('Path', \"$p;$s;$m\", 'Machine') }"
--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。
方法2:インストーラーによるインストール
- Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
- ダウンロードしたインストーラーを実行する。
- 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから
pythonコマンドを実行できない。 - 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。
インストールの確認
コマンドプロンプトで以下を実行する。
python --version
バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。
AIエディタ Windsurf のインストール(Windows 上) [クリックして展開]
Pythonプログラムの編集・実行には、AIエディタの利用を推奨する。ここでは、Windsurfのインストールを説明する。Windsurf がインストール済みの場合、この手順は不要である。
管理者権限のコマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。
winget install --scope machine --id Codeium.Windsurf -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --custom "/SP- /SUPPRESSMSGBOXES /NORESTART /CLOSEAPPLICATIONS /DIR=""C:\Program Files\Windsurf"" /MERGETASKS=!runcode,addtopath,associatewithfiles,!desktopicon"
powershell -Command "$env:Path=[System.Environment]::GetEnvironmentVariable('Path','Machine')+';'+[System.Environment]::GetEnvironmentVariable('Path','User'); windsurf --install-extension MS-CEINTL.vscode-language-pack-ja --force; windsurf --install-extension ms-python.python --force; windsurf --install-extension Codeium.windsurfPyright --force"
--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。
【関連する外部ページ】
Windsurf の公式ページ: https://windsurf.com/
必要なライブラリのインストール [クリックして展開]
管理者権限のコマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには,Windows キーまたはスタートメニューから「cmd」と入力し,表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。
python -m pip install -U pip setuptools numpy pandas pandasql matplotlib seaborn scikit-learn scikit-learn-intelex
3. 実行のための準備とその確認手順(Windows 前提)
3.1 プログラムファイルの準備
本記事では複数の独立した Python コード例を掲載している。第5章のソースコードをテキストエディタ(メモ帳,Windsurf 等)に貼り付け,以下のファイル名で保存する(文字コード:UTF-8)。
3.2 実行コマンド
コマンドプロンプトでファイルの保存先ディレクトリに移動し,以下のように実行する。
python load_data.py
他のファイルも同様に python ファイル名.py で実行する。
3.3 動作確認チェックリスト
| 確認項目 | 期待される結果 |
|---|---|
| データセットの読み込み(load_data.py) | エラーなく実行が完了する |
| データの確認(check_data.py) | iris と titanic それぞれの先頭5行が表示される |
| 選択(selection.py) | sepal_length が 5 より大きいレコードが表示される |
| 射影(projection.py) | sepal_length と sepal_width の2列のみが条件付きで表示される |
| グループごとの数え上げ(groupby_count.py) | iris の species 別件数と titanic の embark_town 別件数が表示される |
| グループごとの最大値(groupby_max.py) | iris の species ごとに各列の最大値が表示される |
| ソート(order_by.py) | sepal_length の降順で先頭10件が表示される |
| 条件付き集計(join_query.py) | 乗船地ごとの生存者数,総数,生存率が表示される |
4. 概要・使い方・実行上の注意
4.1 データセットの準備
seaborn の sns.load_dataset() で Iris データセットと titanic データセットを読み込む。初回実行時にはインターネット経由でデータがダウンロードされる。読み込み後,head() で先頭5行を表示してデータの構造と列名を確認する。
4.2 SQL 問い合わせの各操作
pandasql の sqldf 関数を使用すると,pandas のデータフレームに対して SQL で問い合わせを実行できる。本記事では以下の操作を扱う。
選択(selection)は,WHERE 句で条件に合致するレコードを抽出する操作である。
射影(projection)は,SELECT 句で特定の列のみを取得する操作である。WHERE 句と組み合わせることで,条件を満たすレコードの特定列のみを取得できる。
グループごとの数え上げでは,列を1つ選んでグループを作り,各グループの要素数を求める。GROUP BY 句と count(*) を組み合わせて使用する。
グループごとの最大,最小,平均,中央値,和では,集約関数(max, min, avg, median, sum)を GROUP BY 句と組み合わせる。本記事では各グループの最大値を求める例を載せる。
ソート(ORDER BY)では,ORDER BY 句で結果を並べ替える。LIMIT 句と組み合わせることで上位 N 件を取得できる。
条件付き集計では,SUM,COUNT,AVG,ROUND,WHERE(NULL 除外),GROUP BY,ORDER BY を組み合わせて,乗船地ごとの生存者数を集計する。
5. ソースコード
5.1 iris, titanic データセットの読み込み
import pandas as pd
import seaborn as sns
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')
5.2 データの確認
print(iris.head())
print(titanic.head())
5.3 選択(selection)
import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')
print(sqldf("SELECT * FROM iris WHERE sepal_length > 5;", globals()))
5.4 射影(projection)
import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')
print(sqldf("SELECT sepal_length, sepal_width FROM iris WHERE sepal_length > 5;", globals()))
5.5 グループごとの数え上げ
pandasql と SQL を使う場合
import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')
print(sqldf("SELECT species, count(*) FROM iris GROUP BY species;", globals()))
print(sqldf("SELECT embark_town, count(*) FROM titanic GROUP BY embark_town;", globals()))
5.6 グループごとの最大値
pandasql と SQL を使う場合
import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')
titanic = sns.load_dataset('titanic')
print(sqldf("SELECT species, max(sepal_length), max(sepal_width), max(petal_length), max(petal_width) FROM iris GROUP BY species;", globals()))
5.7 ソート(ORDER BY)
import pandas as pd
from pandasql import sqldf
import seaborn as sns
iris = sns.load_dataset('iris')
print(sqldf("SELECT * FROM iris ORDER BY sepal_length DESC LIMIT 10;", globals()))
5.8 条件付き集計
import pandas as pd
from pandasql import sqldf
import seaborn as sns
titanic = sns.load_dataset('titanic')
print(sqldf("SELECT embark_town, SUM(survived) AS survived_count, COUNT(*) AS total, ROUND(AVG(survived) * 100, 1) AS survival_rate FROM titanic WHERE embark_town IS NOT NULL GROUP BY embark_town ORDER BY survival_rate DESC;", globals()))
6. まとめ
pandasql による SQL 問い合わせ
pandasql の sqldf 関数により,pandas のデータフレームに対して SQL で問い合わせを実行できる。
選択と射影
選択(selection)は WHERE 句で条件に合致するレコードを抽出し,射影(projection)は SELECT 句で特定の列のみを取得する。両者を組み合わせることで,必要なデータを効率的に絞り込める。
GROUP BY による集計
列を1つ選んでグループを作り,count, max, min, avg, sum などの集約関数で各グループの統計量を求めることができる。
ORDER BY によるソート
ORDER BY 句で結果を並べ替え,LIMIT 句で上位 N 件を取得できる。
複合的な SQL 問い合わせ
SUM,COUNT,AVG,ROUND,WHERE,GROUP BY,ORDER BY を組み合わせることで,条件付き集計を単一の SELECT 文で実現できる。