時系列データのプロット（Python, matplotlib, seaborn を使用）（Google Colaboratroy へのリンク有り）

numpy の配列に、同一の長さの時系列データが、複数入っているとする。そして、別データで、各時系列データのラベル番号があるとする。このとき、時系列データを、ラベル番号を使って色分けし、プロットする。

【目次】

前準備
FordA データセットの準備
時系列データのプロット

【関連する外部ページ】

https://keras.io/examples/timeseries/timeseries_classification_from_scratch/

Google Colaboratory のページ:

次のリンクをクリックすると，Google Colaboratory のノートブックが開く．そして，Google アカウントでログインすると，Google Colaboratory のノートブック内のコード等を編集したり再実行したりができる．編集した場合でも，他の人に影響が出たりということはない．そして，編集後のものを，各自の Google ドライブ内に保存することもできる．

https://colab.research.google.com/drive/1tZmdhdUXMoB_rtQM45u-qgDPo75jTnYZ?usp=sharing

1. 前準備

Python の準備（Windows，Ubuntu 上）

Windows での Python 3.10，関連パッケージ，Python 開発環境のインストール: 別ページ »で説明している．

Ubuntu では，システム Pythonを使うことができる．Python3 開発用ファイル，pip, setuptools のインストール: 別ページ »で説明している．

【サイト内の関連ページ】

【関連する外部ページ】

Python の numpy，pandas，seaborn，matplotlib，pandasql，scikit-learn のインストール

Windows の場合

Windows では，コマンドプロンプトを 管理者として実行し，次のコマンドを実行する．

python -m pip install -U numpy pandas seaborn matplotlib scikit-learn scikit-learn-intelex

Ubuntu の場合

端末で，次のコマンドを実行

sudo apt -y update
sudo apt -y install python3-numpy python3-pandas python3-seaborn python3-matplotlib python3-sklearn

2. FordA データセットの準備

パッケージのインポート

import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
import matplotlib.cm as cm

FordA データセット（TSV 形式ファイル）のロード

def readucr(filename):
    data = np.loadtxt(filename, delimiter="\t")
    y = data[:, 0]
    x = data[:, 1:]
    return (x, y.astype(int))

root_url = "https://raw.githubusercontent.com/hfawaz/cd-diagram/master/FordA/"

ds_train = readucr(root_url + "FordA_TRAIN.tsv")
ds_test = readucr(root_url + "FordA_TEST.tsv")

3. 時系列データのプロット

データの確認

print(ds_train[0].shape)
print(ds_train[1].shape)
print(ds_test[0].shape)
print(ds_test[1].shape)

ds_train[1], ds_test[1] からラベル番号を得る．

このとき重複を除去する．

classes = np.unique(np.concatenate((ds_train[1], ds_test[1]), axis=0))

seaborn の準備

import seaborn as sns
sns.set()

時系列データのプロット

def plot_ts(x, y, classes, top_k, alpha):
# ラベル付きの時系列データについて、うち、top_k 個をプロット。色はカラーマップ hsv を使って色付け、alpha は透明度。
    MI = np.min(classes)
    MA = np.max(classes)
    R = 0.8
    plt.figure()
    for c in classes:
        for i in x[y == c][0:top_k]:
            cval = R * (c - MI) / (MA - MI)
            plt.plot(i, alpha=alpha, color=cm.hsv(cval))

    plt.legend(loc="best")
    plt.show()
    plt.close()

plot_ts(x = ds_train[0], y = ds_train[1], classes = classes, top_k = 10, alpha = 0.1)

設定を変えてプロット

plot_ts(x = ds_train[0], y = ds_train[1], classes = classes, top_k = 1, alpha = 1)

主成分分析の結果である主成分スコアのプロット

ds_train, ds_test の表示

ds_train[0], ds_test[0] は主成分分析で２次元にマッピング， ds_train[1], ds_test[1] は色．

import pandas as pd
import seaborn as sns
sns.set()
import sklearn.decomposition
# 主成分分析
def prin(A, n):
    pca = sklearn.decomposition.PCA(n_components=n)
    return pca.fit_transform(A)

# 主成分分析で２つの成分を得る
def prin2(A):
    return prin(A, 2)

# M の最初の2列を，b で色を付けてプロット
def scatter_plot(M, b, alpha):
    a12 = pd.DataFrame( M[:,0:2], columns=['a1', 'a2'] )
    a12['target'] = b
    sns.scatterplot(x='a1', y='a2', hue='target', data=a12, palette=sns.color_palette("hls", np.max(b) + 1), legend="full", alpha=alpha)

# 主成分分析プロット
def pcaplot(A, b, alpha):
    scatter_plot(prin2(A), b, alpha)

pcaplot(ds_train[0], ds_train[1], 0.1)

pcaplot(ds_test[0], ds_test[1], 0.1)

本サイトは金子邦彦研究室のWebページである．

資料等の公開では，原則，「クリエイティブコモンズ BY NC SA」として公開するようにしている． PDFファイル，パワーポイントファイルなどには，「クリエイティブコモンズ BY NC SA」を明記するとともに，ロゴを記載するようにしている（作業が間に合っていない分もあるのでご容赦ください）．

公開している資料をご利用になる場合の，再配布の条件，剽窃の防止などについて，別ページ »で説明再配布や資料改変の際には，そのページをご確認ください．

サイトマップは，サイトマップのページをご覧下さい．本サイト内の検索は，サイト内検索のページをご利用下さい．

問い合わせ先：金子邦彦（かねこくにひこ） [image]