1
rd-6. 相関,相関係数
金子邦彦
データサイエンス演習
R システムを使用)
https://www.kkaneko.jp/de/rd/index.html
相関
相関は,2つの変数の間に関連性があるかを示す
相関がある場合,一方が変化すると,も一方も変化
する傾向
にある
【相関ありの場合
X増えと,Y増え傾向がある(正の相関
勉強時間が増えると、得点が上がる
X増えと,Y減る向がある(負の相関
ガソリン代が上がると、車の利用が減る
【相関なしの場合
X Y 関係がない
足のサイズと勉強時間に関係がない 2
相関係数
相関係数は,相関を算出した数値.範囲はー1か
ら1まで
相関係数を算出することで、変数間の関係の分析
ができる
1に近い値相関あり.正の相関
0に近い値相関なし
ー1に近い値相関なし.負の相関
3
正の相関
2つの変数 xx, yy に相
関がある
4
相関係数の算出結果
xx の値が増える
yy の値が増える傾向がある
(正の相関)
0.8620027 (1 に近い値)
負の相関
2つの変数 xx, yy
相関がある
5
相関係数の算出結果
xx の値が増える
yy の値が減る傾向がある
(負の相関)
-0.8502535 (-1 に近い値)
相関なし
6
相関係数の算出結果
0.1252164 (0 に近い値)
相関係数のまとめ
1に近い値相関あり.正の相関
0に近い値相関なし
ー1に近い相関なし.負の相関
7
正の相関
負の相関
0.1252164 (0 に近い値)
0.8620027 (1 に近い値)
-0.8502535 (-1 に近い値)
相関なし
相関係数の活用例
2つの量の間の関係性の分析
広告を増やすと,売上高が増えそ
相関が高い複数の金融商品を扱と,リスクが高
いか
遺伝子と疾患に関係がありそ
8
相関係数の性
9
1に近い値 1に近い値
相関の強弱」の尺度である.「傾き」ではない
合成データからランダムに100個選び標本を
作る
x2 <- rnorm(100000, mean=5, sd=5)
y2 <- rnorm(100000, mean=5, sd=0.1)
d10 <- data.frame( xx=x2[floor( runif(100, 1, 100000+1) )],
yy=y2[floor( runif(100, 1, 100000+1) )] )
d10$yy <- 0.1 * d10$xx + d10$yy
library(ggplot2)
ggplot(d10, aes(x=xx)) +
geom_point( aes(y=yy), size=3 ) + xlim(-5, 15) + ylim(-5, 15) +
theme_bw()
cor(d10$xx, d10$yy) 10
合成データ
タイプ:数値(整数化しない)
サイズ:100,000
サイズ100
の標本を2セット
合成データに,
正の相関関係をもたせる
合成データからランダムに100個選び標本を
作る
x2 <- rnorm(100000, mean=5, sd=5)
y2 <- rnorm(100000, mean=5, sd=0.1)
d11 <- data.frame( xx=x2[floor( runif(100, 1, 100000+1) )],
yy=y2[floor( runif(100, 1, 100000+1) )] )
d11$yy <- 0.4 * d11$xx + d11$yy
library(ggplot2)
ggplot(d11, aes(x=xx)) +
geom_point( aes(y=yy), size=3 ) + xlim(-5, 15) + ylim(-5, 15) +
theme_bw()
cor(d11$xx, d11$yy)
11
合成データ
タイプ:数値(整数化しない)
サイズ:100,000
サイズ100
の標本を2セット
合成データに,
正の相関関係をもたせ
相関係数の例
12
おわりに
相関がある場合,一方が変化すると,も一方も変化する
傾向
にある
1に近い値相関あり.正の相関
0に近い値相関なし
ー1に近い値相関なし.負の相関
3つ以上の変数があるとき、相関係数は多数求まる
変数 A, B, Cに対して
A Bの相関係数,
B Cの相関係数,
C Aの相関係数
13