リレーショナルデータベースのテーブルでリストを扱う例(SQLite 3, Python を使用)
リレーショナルデータベースのテーブルにおいて,リスト L = (e1, e2, ..., en) を {(1, e1), (2, e2), ..., (n, en)} の形式でマッピングする手法について詳しく解説する.このとき,リレーションスキーマは R(要素番号, 要素値)となる.複数のリスト {L1, L2, ..., Lk} をマッピングする場合は,リスト番号の属性を含めたリレーションスキーマ R(リスト番号, 要素番号, 要素値) を採用する.
- テストデータ生成用 Python プログラムの実装
- テストデータベースの構築手順
- エッジリストの効率的な生成方法
- 大規模テストデータベースの生成と性能評価
前準備
SQLite 3 の詳細説明: 別ページ »を参照
◆ テストデータ生成用 Python プログラム
CSV形式のテストデータを効率的に生成し,標準出力へ出力するプログラムの実装である.
◆ Python プログラム
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# usage: python hoge.py 10 5
import sys
import random
import string
LEN = 8
c = 0
TOTAL_LIST_NUM = int(sys.argv[1])
LIST_LEN = int(sys.argv[2])
print("# id, list_num, item_num, x, y, price, name")
for i in range(1, TOTAL_LIST_NUM + 1):
for j in range(1, LIST_LEN + 1):
id = c
list_num = i
item_num = j
x = 100 * random.random()
y = 100 * random.random()
price = int(1000 * random.random()) + 1
name = ''.join(random.choices(string.ascii_letters + string.digits, k=LEN))
print(f"{id}, {list_num}, {item_num}, {x:.6f}, {y:.6f}, {price}, {name}")
c += 1
◆ テストデータベースの生成手順
以下の手順で,テストデータベースを効率的に生成する.上記の Python プログラムを hoge.py として保存し,次のパラメータで実行する:
- データベースファイル名: /tmp/1.db
- テーブル名: dat
- リスト数: 10
- 各リストの要素数: 5
◆ bash プログラム
#!/bin/bash
rm -f /tmp/1.csv
python /tmp/hoge.py 10 5 | fgrep -v '#' > /tmp/1.csv
rm -f /tmp/1.$$.sql
cat >/tmp/1.$$.sql << SQL
create table dat (
id integer primary key not null,
list_num integer,
item_num integer,
x real,
y real,
price integer,
name text );
.mode csv
.import /tmp/1.csv dat
.exit
SQL
rm -f /tmp/1.db
cat /tmp/1.$$.sql | sqlite3 /tmp/1.db
データベースの確認方法:
sqliteman /tmp/1.db
◆ エッジリストの生成プロセス
ノードリストの集合 {L1, L2, ..., Lk} において,各集合 Li は一連のノードで構成される.これらのノードリスト集合をリレーショナルデータベースのテーブル dat に効率的にマッピングし,自己結合操作を実行する.この結果,各行が1つのエッジ(2つのノードを接続する辺)を表現する最適化されたテーブルが生成される.
◆ エッジリスト生成のためのSQL文
select A.id, A.list_num, A.item_num, B.id, B.list_num, B.item_num from dat A, dat B where A.item_num + 1 = B.item_num AND A.list_num = B.list_num;
テストデータベース生成
エッジリスト生成システムの信頼性と性能を確保するため,包括的な性能評価を実施する.以下のパラメータセットで評価を行う:
- データベースファイル名: /tmp/500000.db,/tmp/1000000.db,/tmp/2000000.db,/tmp/5000000.db
- テーブル名: dat
- リスト数: 500000,1000000,2000000,5000000
- 各リストの要素数: 5
◆ テストスクリプト(Python版):
#!/usr/bin/env python3
import os
import sqlite3
import subprocess
import sys
import time
def create_database(db_name):
sql = '''
create table dat (
id integer primary key not null,
list_num integer,
item_num integer,
x number,
y number,
price integer,
name text
);
'''
conn = sqlite3.connect(f'/tmp/{db_name}.db')
conn.execute(sql)
conn.close()
def populate_database(db_name, list_num, list_len):
# Generate CSV using Python script
csv_file = f'/tmp/{db_name}.csv'
subprocess.run([
'python', '/tmp/hoge.py', str(list_num), str(list_len)
], stdout=open(csv_file, 'w'))
# Import CSV to SQLite
conn = sqlite3.connect(f'/tmp/{db_name}.db')
with open(csv_file) as f:
next(f) # Skip header
conn.executemany(
'INSERT INTO dat VALUES (?,?,?,?,?,?,?)',
[line.strip().split(',') for line in f]
)
conn.commit()
conn.close()
def run_performance_test(db_name):
print(f'Testing {db_name}.db')
start_time = time.time()
conn = sqlite3.connect(f'/tmp/{db_name}.db')
conn.execute('DROP TABLE IF EXISTS T')
conn.execute('''
CREATE TABLE T AS
SELECT A.id, A.list_num, A.item_num, B.id, B.list_num, B.item_num
FROM dat A, dat B
WHERE A.item_num + 1 = B.item_num AND A.list_num = B.list_num
''')
count = conn.execute('SELECT COUNT(*) FROM T').fetchone()[0]
conn.close()
end_time = time.time()
print(f'Count: {count}')
print(f'Time taken: {end_time - start_time:.2f} seconds\n')
def main():
test_sizes = [500000, 1000000, 2000000, 5000000]
# Create and populate databases
for size in test_sizes:
create_database(str(size))
populate_database(str(size), size, 5)
# Run performance tests
for size in test_sizes:
run_performance_test(str(size))
if __name__ == '__main__':
main()
◆ 二次索引の適用と性能評価
システム性能を最適化するため,以下の Python スクリプトを使用して二次索引を実装し,包括的な性能評価を実施する:
#!/usr/bin/env python3
import sqlite3
import time
def create_index_and_test(db_name):
print(f'Testing {db_name}.db with index')
# Create index
conn = sqlite3.connect(f'/tmp/{db_name}.db')
conn.execute('CREATE INDEX idx001 ON dat(item_num, list_num)')
conn.close()
# Run performance test
start_time = time.time()
conn = sqlite3.connect(f'/tmp/{db_name}.db')
conn.execute('DROP TABLE IF EXISTS T')
conn.execute('''
CREATE TABLE T AS
SELECT A.id, A.list_num, A.item_num, B.id, B.list_num, B.item_num
FROM dat A, dat B
WHERE A.item_num + 1 = B.item_num AND A.list_num = B.list_num
''')
count = conn.execute('SELECT COUNT(*) FROM T').fetchone()[0]
conn.close()
end_time = time.time()
print(f'Count: {count}')
print(f'Time taken: {end_time - start_time:.2f} seconds\n')
def main():
test_sizes = ['500000', '1000000', '2000000', '5000000']
for size in test_sizes:
create_index_and_test(size)
if __name__ == '__main__':
main()