時系列向き人工知能LSTM 法での渋滞予測、2016年10月公開技術、を再現
(URL: https://github.com/corenel/traffic-prediction)
米国政府機関が公開するオープンデータの1つ
名称: AMS Pasadena Main Data
ライセンス: クリエイティブコモンズ
URL: https://catalog.data.gov/dataset/ams-pasadena-main-data
※ 5分間隔の計測なので
未来の曜日番号、平日か休日か、時、分から、車両速度を予測
図1に示したデータ49824件
5分間隔の連続データであり、全部で173日分
「別のページ」で説明している.
※ いずれもAIシステム構築のオープンな基盤で、事実上の標準(デファクトスタンダード)
過去173日分のデータを使い,直後約6日間の速度を予測する
4層のディープニューラルネットワーク(うち3層はLSTM,うち1層は総結合層).
パソコンで数時間から数十分
1秒以内程度(手元のパソコンを使用)
図4には、図3の予測結果と同一期間の、実際の計測結果を示している。詳細分析は今後を待つが、
が予測できているように判断している
以下、https://github.com/corenel/traffic-prediction で公開されているオープンソースを一部改変して使用
あわせて、いくつかのパッケージも読み込む
from __future__ import print_function import numpy as np import pandas as pd %matplotlib inline import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') # Suppress Matplotlib warnings from keras.models import Sequential, model_from_json from keras.layers import Dense, LSTM, Activation, Dropout from keras.utils.vis_utils import plot_model from random import uniform from datetime import datetime from utils import data_loader, train_test_split import json # Fix AttributeError: 'module' object has no attribute 'control_flow_ops' import tensorflow from tensorflow.python.ops import control_flow_ops # tensorflow.python.control_flow_ops = control_flow_ops import keras.utils.vis_utils print('-- Loading Data --') test_size = 1728 X, y = data_loader('data/data_pems_16664.csv') x_train, y_train, x_test, y_test = train_test_split(X, y, test_size) print('Input shape:', X.shape) print('Output shape:', y.shape)
print('-- Reading pre-trained model and weights --') with open('model/model_3_layer.json') as f: json_string = json.load(f) model = model_from_json(json_string) model.load_weights('model/weights_3_layer.h5') # print('-- Creating Model--') batch_size = 96 epochs = 100 out_neurons = 1 hidden_neurons = 500 hidden_inner_factor = uniform(0.1, 1.1) hidden_neurons_inner = int(hidden_inner_factor * hidden_neurons) dropout = uniform(0, 0.5) dropout_inner = uniform(0, 1) # model = Sequential() model.add(LSTM(output_dim=hidden_neurons, input_dim=x_train.shape[2], init='uniform', return_sequences=True, consume_less='mem')) model.add(Dropout(dropout)) model.add(LSTM(output_dim=hidden_neurons_inner, input_dim=hidden_neurons, return_sequences=True, consume_less='mem')) model.add(Dropout(dropout_inner)) model.add(LSTM(output_dim=hidden_neurons_inner, input_dim=hidden_neurons_inner, return_sequences=False, consume_less='mem')) model.add(Dropout(dropout_inner)) model.add(Activation('relu')) model.add(Dense(output_dim=out_neurons, input_dim=hidden_neurons_inner)) model.add(Activation('relu')) m.compile(loss="mse", optimizer="adam", metrics=['accuracy'])
終わるのを待っていると数時間待ちになる可能性があるので、今日は、ここまで到達したら解散
Epoch 1/100 から始まって Epoch 100/100 までかかります
print('-- Training --') history = m.fit(x_train, y_train, verbose=1, batch_size=batch_size, nb_epoch=epochs, validation_split=0.1, shuffle=False)
print('-- Evaluating --') eval_loss = model.evaluate(x_test, y_test, batch_size=batch_size, verbose=0) print('Evaluate loss: ', eval_loss[0]) print('Evaluate accuracy: ', eval_loss[1])
print('-- Predicting --') y_pred = model.predict(x_test, batch_size=batch_size)
print('-- Plotting Results --') plt.style.use('ggplot') plt.plot(y_pred, label='Predicted') plt.title('Traffic Prediction') plt.xlabel('Smaple') plt.ylabel('Velocity') plt.xlim(0, test_size) plt.legend() plt.show()
print('-- Plotting Results --') plt.style.use('ggplot') plt.plot(y_test, label='Expected') plt.title('Traffic Prediction') plt.xlabel('Smaple') plt.ylabel('Velocity') plt.xlim(0, test_size) plt.legend() plt.show()
演習:
(1)各自データを準備しなさい
(2)各自、自分が良いしたデータについて、X.csv, y.csv の2つのファイルを作りなさい
X.csv は要因データ。y.csv は予測したいデータ
(3)下のように, 1列目XX,2列めXX,行数YYのような資料を作る
ファイル名 X.csv
ファイル名 y.csv
from __future__ import print_function import numpy as np import pandas as pd %matplotlib inline import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') # Suppress Matplotlib warnings from keras.models import Sequential, model_from_json from keras.layers import Dense, LSTM, Activation, Dropout from keras.utils.vis_utils import plot_model from random import uniform from datetime import datetime import json # Fix AttributeError: 'module' object has no attribute 'control_flow_ops' import tensorflow from tensorflow.python.ops import control_flow_ops # tensorflow.python.control_flow_ops = control_flow_ops import keras.utils.vis_utils
print('-- Loading Data --') XX = pd.read_csv("X.csv", header=None, names=[1,2,3,4]) yy = pd.read_csv("y.csv", header=None, names=[1]) X = XX.as_matrix() y = yy.as_matrix() print('Input shape:', X.shape) print('Output shape:', y.shape)
表示される列数と行数を確認
ここでは、
x_train = X[0: 51000,:] y_train = y[0: 51000] x_test = X[51000: 51000 + 552,:] y_test = y[51000: 51000 + 552] x_train = x_train[:,np.newaxis,:] x_test = x_test[:,np.newaxis,:]
# print('-- Creating Model--') batch_size = 96 epochs = 100 out_neurons = 1 hidden_neurons = 500 hidden_inner_factor = uniform(0.1, 1.1) hidden_neurons_inner = int(hidden_inner_factor * hidden_neurons) dropout = uniform(0, 0.5) dropout_inner = uniform(0, 1) # model = Sequential() model.add(LSTM(output_dim=hidden_neurons, input_dim=x_train.shape[2], init='uniform', return_sequences=True, consume_less='mem')) model.add(Dropout(dropout)) model.add(LSTM(output_dim=hidden_neurons_inner, input_dim=hidden_neurons, return_sequences=True, consume_less='mem')) model.add(Dropout(dropout_inner)) model.add(LSTM(output_dim=hidden_neurons_inner, input_dim=hidden_neurons_inner, return_sequences=False, consume_less='mem')) model.add(Dropout(dropout_inner)) model.add(Activation('relu')) model.add(Dense(output_dim=out_neurons, input_dim=hidden_neurons_inner)) model.add(Activation('relu')) m.compile(loss="mse", optimizer="adam", metrics=['accuracy'])
終わるのを待っていると数時間待ちになる可能性があるので、今日は、ここまで到達したら解散
Epoch 1/100 から始まって Epoch 100/100 までかかります
print('-- Training --') history = m.fit(x_train, y_train, verbose=1, batch_size=batch_size, nb_epoch=epochs, validation_split=0.1, shuffle=False)
print('-- Evaluating --') eval_loss = model.evaluate(x_test, y_test, batch_size=batch_size, verbose=0) print('Evaluate loss: ', eval_loss[0]) print('Evaluate accuracy: ', eval_loss[1])
print('-- Predicting --') y_pred = model.predict(x_test, batch_size=batch_size)
print('-- Plotting Results --') plt.style.use('ggplot') plt.plot(y_pred, label='Predicted') plt.title('Traffic Prediction') plt.xlabel('Smaple') plt.ylabel('Velocity') plt.legend() plt.show()
print('-- Plotting Results --') plt.style.use('ggplot') plt.plot(y_test, label='Expected') plt.title('Traffic Prediction') plt.xlabel('Smaple') plt.ylabel('Velocity') plt.legend() plt.show()
精度が良くなくても気にしないでください (プログラムのデバッグを将来行う可能性がある)