R システムを用いた不偏分散共分散行列（高次元の場合）

このページでは，R システムを用いた不偏分散共分散行列の求め方と図解で説明する．このページでは，高次元の不偏分散共分散行列に焦点をあてます．不偏分散共分散行列の意味については，「R システムを用いた不偏分散共分散行列」の Web ページを見てください．

「R システムを用いた不偏分散共分散行列」の Web ページでは，３次元のベクトルデータを扱っていました．この意味は，次の通りです．

テーブルなので，各時点（それぞれの瞬間）でのUSDとEURとAUDの観測値（つまり値３つ）が，1行になる．
言い換えると，CSV ファイル Book1.csv では，「１行」が１回の観測値ということです．
「R システムを用いた不偏分散共分散行列」の Web ページでは， 3列目,4列目,5列目を抜き出して，１個の3次元のベクトルと見立てていました．（値が３個なので、３次元のベクトル）です．
3列目,4列目,5列目に並んだデータを1つのベクトルとして扱ってきました．「[,3:5]」という書き方を使ってきました．つまり，3列目,4列目,5列目の部分は、3次元空間中の点の集まり，とみなされる．

一方で，この Web ページの手順では，CSV ファイルを読み込んだあと，R の t() 関数を使って，転置させます．

すると，各行には，USDやEURやAUDの値の経時変化が並ぶ．これをベクトルと見立てると，2834次元のベクトルができる．これは，USDとEURとAUDの経時変化の波形をベクトルと見立てるもの．

不偏分散共分散行列と不偏相関係数行列

3 つの変数を n 回観測して得られる n 個の標本から構成される長さ n のベクトル に対する不偏分散共分散行列と不偏相関係数行列の定義は次の通り。

分散は、標本分散と不偏分散の2種類あり，同様に，共分散は，標本分散の拡張と不偏分散の拡張の 2 種類ある． R や octave では，不偏分散の方になっている（標本分散ではない）．

ここでは、3 つの変数としているが，一般の m 個の変数が与えられた場合も同様の定義になる．

CSVファイルを読み込み，データフレームに格納

(前準備) 使用する CSV ファイルの作成

Book1.csv をダウンロード（参考：「外国為替データ（時系列データ）の情報源の紹介」の Web ページ）

以下の説明では、

Windowsの場合：　データファイル名： C:\R\Book1.csv
Linuxの場合：　データファイル名： /tmp/Book1.csv

として説明を続ける．

※ 自前の CSV ファイルを使うときの注意： read.table() 関数を使うので，属性名は英語になっていること．属性名は，CSV ファイルの第一行目に書いていること．

使用する CSV ファイルの確認

属性名が CSV ファイルの1行目に書かれていることを確認する．

Book1.csv

R の起動

「read.table」を用いて，CSV ファイルを R のデータフレームに読み込み

次のコマンドを実行．

◆ Windows での動作手順例

X <- read.table("C:/R/Book1.csv", header=TRUE, sep=",", na.strings="NA", dec=".", strip.white=TRUE);

◆ Linux での動作手順例

X <- read.table("/tmp/Book1.csv", header=TRUE, sep=",", na.strings="NA", dec=".", strip.white=TRUE);

R の read.table のオプション

X <- ・・・変数 X に読み込むという意味
C:/R/Book1.csv, "/tmp/Book1.csv" ・・・読み込む CSV ファイル名．Windows では区切りには「/」を使うことに注意．
header="TRUE" または header="FALSE" ・・・列ラベルが設定されているか
seq="," や seq="\" や seq=" " や・・・列を区切る記号（CSV ファイルのときは「seq=","」）
na.string="NA" ・・・ Not a Number には "NA" を使うという意味
dec="." 　・・・　ファイルで使われている小数点記号（既定値は，ピリオド）
strip.white=TRUE ・・・個々のデータの先頭や末尾にある「空白文字」を取り除いて読み込む
skip=＜行数＞・・・読み飛ばし行数
nrow=＜行数＞・・・読み込み行数
(その他のオプション) dec: ファイルで使われている小数点記号を指定できる

オブジェクト X の確認

次のコマンドを実行．

edit(X);

次のコマンドを実行．

str(X)

cov() 関数を使って不偏分散共分散行列を求める

cov() 関数を使って不偏分散共分散行列を求める

次のコマンドを実行．

covTX <- cov( t( X[,3:5] ) )

結果表示

※　実は，covTX は，2834行2834列になっています．長すぎるので，「covTX」+ Enter ではうまく表示できません．

str(covTX) 
edit(covTX);

次の2つの式の評価結果が等しい

cov() 関数を使って，分散共分散行列を求める R の式
```
cov( t( X[,3:5] ) )
```
colMeans() 関数, t() 関数などを使って，分散共分散行列を求める R の式
```
crossprod( D ) / ( nrow(D) - 1 ); 
※ この式は「t( D ) %*% t( D ) / ( nrow(D) - 1 )」と同じ意味
```
但し、D は次の手順で作る． D は，行列 X の各列の平均値を X の各要素から引き，転置した行列になっている．ここで「転置」になっているのは R のリサイクル規則を使って簡単に作れるから。
```
D <- t( t( X[,3:5] )  - colMeans( X[,3:5] ) ); 
```

本サイトは金子邦彦研究室のWebページである．

資料等の公開では，原則，「クリエイティブコモンズ BY NC SA」として公開するようにしている． PDFファイル，パワーポイントファイルなどには，「クリエイティブコモンズ BY NC SA」を明記するとともに，ロゴを記載するようにしている（作業が間に合っていない分もあるのでご容赦ください）．

公開している資料をご利用になる場合の，再配布の条件，剽窃の防止などについて，別ページ »で説明再配布や資料改変の際には，そのページをご確認ください．

サイトマップは，サイトマップのページをご覧下さい．本サイト内の検索は，サイト内検索のページをご利用下さい．

問い合わせ先：金子邦彦（かねこくにひこ） [image]

R システムを用いた不偏分散共分散行列（高次元の場合）

不偏分散共分散行列と不偏相関係数行列

前準備

R システムのインストール

CSVファイルを読み込み，データフレームに格納

cov() 関数を使って不偏分散共分散行列を求める