CSV データの合成(Python, random-csv-generator を使用)

1. エグゼクティブサマリー

ランダムデータの入った CSV ファイルを合成する.リレーショナルデータベースの試験・評価等に使うことを想定している.

Python と random-csv-generator を使用し,イタリアの個人情報と金融データに基づくランダムな CSV データを生成する.生成した約 250M の CSV ファイルを結合することで,500M から 40000M までの各種サイズの CSV ファイルを作成する.csvkit を用いてテーブル定義(SQL)の自動生成も行う.

2. 前準備(必要ソフトウェアの入手)

ここでは、最低限の事前準備について説明する。機械学習や深層学習を行う場合は、NVIDIA CUDA、Visual Studio、Cursorなどを追加でインストールすると便利である。これらについては別ページ https://www.kkaneko.jp/cc/dev/aiassist.htmlで詳しく解説しているので、必要に応じて参照してください。

Python 3.12 のインストール(Windows 上) [クリックして展開]

以下のいずれかの方法で Python 3.12 をインストールする。Python がインストール済みの場合、この手順は不要である。

方法1:winget によるインストール

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --scope machine --id Python.Python.3.12 -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --override "/quiet InstallAllUsers=1 PrependPath=1 Include_pip=1 Include_test=0 Include_launcher=1 InstallLauncherAllUsers=1"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

方法2:インストーラーによるインストール

  1. Python 公式サイト(https://www.python.org/downloads/)にアクセスし、「Download Python 3.x.x」ボタンから Windows 用インストーラーをダウンロードする。
  2. ダウンロードしたインストーラーを実行する。
  3. 初期画面の下部に表示される「Add python.exe to PATH」に必ずチェックを入れてから「Customize installation」を選択する。このチェックを入れ忘れると、コマンドプロンプトから python コマンドを実行できない。
  4. 「Install Python 3.xx for all users」にチェックを入れ、「Install」をクリックする。

インストールの確認

コマンドプロンプトで以下を実行する。

python --version

バージョン番号(例:Python 3.12.x)が表示されればインストール成功である。「'python' は、内部コマンドまたは外部コマンドとして認識されていません。」と表示される場合は、インストールが正常に完了していない。

AIエディタ Windsurf のインストール(Windows 上) [クリックして展開]

Pythonプログラムの編集・実行には、AIエディタの利用を推奨する。ここでは、Windsurfのインストールを説明する。Windsurf がインストール済みの場合、この手順は不要である。

管理者権限コマンドプロンプトで以下を実行する。管理者権限のコマンドプロンプトを起動するには、Windows キーまたはスタートメニューから「cmd」と入力し、表示された「コマンドプロンプト」を右クリックして「管理者として実行」を選択する。

winget install --scope machine --id Codeium.Windsurf -e --silent --disable-interactivity --force --accept-source-agreements --accept-package-agreements --custom "/SP- /SUPPRESSMSGBOXES /NORESTART /CLOSEAPPLICATIONS /DIR=""C:\Program Files\Windsurf"" /MERGETASKS=!runcode,addtopath,associatewithfiles,!desktopicon"
powershell -Command "$env:Path=[System.Environment]::GetEnvironmentVariable('Path','Machine')+';'+[System.Environment]::GetEnvironmentVariable('Path','User'); windsurf --install-extension MS-CEINTL.vscode-language-pack-ja --force; windsurf --install-extension ms-python.python --force; windsurf --install-extension Codeium.windsurfPyright --force"

--scope machine を指定することで、システム全体(全ユーザー向け)にインストールされる。このオプションの実行には管理者権限が必要である。インストール完了後、コマンドプロンプトを再起動すると PATH が自動的に設定される。

関連する外部ページ

Windsurf の公式ページ: https://windsurf.com/

必要なライブラリのインストール [クリックして展開]

管理者権限コマンドプロンプトで以下を実行する.

pip install random_csv_generator csvkit

3. 実行のための準備とその確認手順(Windows 前提)

3.1 プログラムファイルの準備

第5章に掲載する Python プログラムをテキストエディタ(メモ帳,Windsurf 等)に貼り付け,hoge.py として保存する(文字コード:UTF-8).

3.2 実行コマンド

コマンドプロンプトでファイルの保存先ディレクトリに移動し,以下を実行する.引数はレコード数,ベースファイル名,出力先ディレクトリの順である.

python hoge.py 6540 T1M C:\temp

3.3 動作確認チェックリスト

確認項目期待される結果
ライブラリのインストール確認pip show random_csv_generator でパッケージ情報が表示される
hoge.py の実行指定ディレクトリに T1M.csv が生成される
CSV の内容確認region, province, surname, name 等のカラムとランダムなイタリア個人情報データが含まれている
通貨記号の調整確認調整スクリプト実行後,CSV 内の「¥」「€」や二重引用符が除去されている
テーブル定義 SQL の生成確認csvsql --table T1M T1M.csv の実行後,CREATE TABLE 文が出力される

4. 概要・使い方・実行上の注意

生成されるデータの形式

生成されるデータの例を以下に示す.イタリアの個人情報と金融データに基づくランダムデータが CSV 形式で出力される.

region,province,surname,name,sex,birth_municipality,birth_province,birth_region,birth_cap,birth_province_code,birthdate,address,house_number,cap,municipality,province_code,codice_fiscale,total_debit,paid_debit
Lombardia,Pavia,Montanari,Roberto Angelo Giuseppe,M,Marzabotto,Bologna,Emilia Romagna,40043,BO,1942-03-31,Via Roma,69,27050,Ponte Nizza,PV,MNTRRT42C31B689X,13752,8137
Lazio,Latina,Menna,Daniela,F,Fara San Martino,Chieti,Abruzzo,66015,CH,1945-11-15,Via La Nece Snc-condominio De Felice,2,4019,Terracina,LT,MNNDNL45S55D495H,487,486

hoge.py の使い方

hoge.py はコマンドライン引数を3つ取る.

python hoge.py <レコード数> <ベースファイル名> <出力先ディレクトリ>

動作確認の例を以下に示す.

python hoge.py 6540 T1M C:\temp

データの合成(大量ファイルの生成と結合)

約 250M のファイルを 200 個生成し,結合によって各種サイズのファイルを作成する.以下はシェルスクリプトによる操作例である.tail -n +2 により先頭行(ヘッダ)を除去してから追加する.

#!/bin/bash
DATADIR='/mnt/kaneko'
cd ${DATADIR}

for i in $(seq 1 200); do
  python3 hoge.py 1634000 "T250M_${i}" ${DATADIR}
done

# T500M_1(250M x 2 = 500M)
cp T250M_1.csv T500M_1.csv
tail -n +2 T250M_2.csv >> T500M_1.csv

# T1000M_1(250M x 4 = 1000M)
cp T250M_1.csv T1000M_1.csv
for i in $(seq 2 4); do tail -n +2 T250M_${i}.csv >> T1000M_1.csv; done

# T2000M_1(250M x 8 = 2000M)
cp T250M_1.csv T2000M_1.csv
for i in $(seq 2 8); do tail -n +2 T250M_${i}.csv >> T2000M_1.csv; done

# T4000M_1(250M x 16 = 4000M)
cp T250M_1.csv T4000M_1.csv
for i in $(seq 2 16); do tail -n +2 T250M_${i}.csv >> T4000M_1.csv; done

# T8000M_1(250M x 32 = 8000M)
cp T250M_1.csv T8000M_1.csv
for i in $(seq 2 32); do tail -n +2 T250M_${i}.csv >> T8000M_1.csv; done

# T12000M_1(250M x 48 = 12000M)
cp T250M_1.csv T12000M_1.csv
for i in $(seq 2 48); do tail -n +2 T250M_${i}.csv >> T12000M_1.csv; done

# T16000M_1(250M x 64 = 16000M)
cp T250M_1.csv T16000M_1.csv
for i in $(seq 2 64); do tail -n +2 T250M_${i}.csv >> T16000M_1.csv; done

# T20000M_1(250M x 80 = 20000M)
cp T250M_1.csv T20000M_1.csv
for i in $(seq 2 80); do tail -n +2 T250M_${i}.csv >> T20000M_1.csv; done

# T24000M_1(250M x 96 = 24000M)
cp T250M_1.csv T24000M_1.csv
for i in $(seq 2 96); do tail -n +2 T250M_${i}.csv >> T24000M_1.csv; done

# T28000M_1(250M x 112 = 28000M)
cp T250M_1.csv T28000M_1.csv
for i in $(seq 2 112); do tail -n +2 T250M_${i}.csv >> T28000M_1.csv; done

# T32000M_1(250M x 128 = 32000M)
cp T250M_1.csv T32000M_1.csv
for i in $(seq 2 128); do tail -n +2 T250M_${i}.csv >> T32000M_1.csv; done

# T36000M_1(250M x 144 = 36000M)
cp T250M_1.csv T36000M_1.csv
for i in $(seq 2 144); do tail -n +2 T250M_${i}.csv >> T36000M_1.csv; done

# T40000M_1(250M x 160 = 40000M)
cp T250M_1.csv T40000M_1.csv
for i in $(seq 2 160); do tail -n +2 T250M_${i}.csv >> T40000M_1.csv; done

wc T250M_1.csv T500M_1.csv T1000M_1.csv T2000M_1.csv T4000M_1.csv T8000M_1.csv T12000M_1.csv T16000M_1.csv T20000M_1.csv T24000M_1.csv T28000M_1.csv T32000M_1.csv T36000M_1.csv T40000M_1.csv

テーブル定義 SQL の生成

csvsql を用いて CSV からテーブル定義を生成し,sed でテーブル名を一括置換する.

csvsql --tables T250M_1 T250M_1.csv | sed 's/"//g' > T250M_1.sql
for size in T500 T1000 T2000 T4000 T8000 T12000 T16000 T20000 T24000 T28000 T32000 T36000 T40000; do
  sed "s/T250/${size}/g" T250M_1.sql > ${size}M_1.sql
done

データの調整

生成された CSV 内の通貨記号(¥,€)と二重引用符を除去する.

cd /var/tmp
for i in *.csv; do
    echo $i
    sed -i 's/¥ //g' $i
    sed -i 's/¥//g' $i
    sed -i 's/€ //g' $i
    sed -i 's/€//g' $i
    sed -i 's/"//g' $i
done

5. ソースコード

データ合成用の Python プログラム(hoge.py)

次の Python プログラムを hoge.py として保存する.

import sys
import pandas as pd
from random_csv_generator import random_csv
num_of_records = int(sys.argv[1])
basename = sys.argv[2]
datadir = sys.argv[3]
df = random_csv(num_of_records)
df.to_csv(datadir + '/' + basename + '.csv', index=False, encoding='utf8', chunksize=1000)

6. まとめ

random-csv-generator によるランダム CSV の生成

Python の random-csv-generator を使用し,イタリアの個人情報と金融データに基づくランダムな CSV ファイルを合成する.リレーショナルデータベースの試験・評価用データを想定している.

コマンドライン引数によるパラメータ指定

hoge.py はレコード数,ベースファイル名,出力先ディレクトリの3つの引数を取り,指定レコード数の CSV を出力する.

ファイル結合による大規模データの構築

約 250M のファイルを 200 個生成し,tail -n +2 で先頭行を除去して結合することで,500M から 40000M までの各種サイズの CSV を作成する.

通貨記号と書式の調整

CSV に含まれる通貨記号(¥,€)や二重引用符を sed で除去し,データベースへのインポートに適した形式にする.

csvkit によるテーブル定義の自動生成

csvsql で CSV からテーブル定義(CREATE TABLE 文)を生成し,sed によるテーブル名の一括置換で各サイズの SQL ファイルを作成する.