1
rd
-13.
正規分布
金子邦彦
データサイ
エンス演習
(
R
システムを使用)
https://www
.kkaneko.jp
/
de
/
rd
/index.html
コイン投げ
•
コインを投げて,裏か表を出す.
コインに仕掛
けなどはない
2
コイン投げで
の「表の枚数
」は変数
•
コインが200枚あ
るとする
200枚を一斉に投
げて,表の枚数を数える
→
何度も繰り返す
(例)
97, 100
, 1
1
1, 96
, 87, 93, 99, 99, 104
, 92, 1
12
, 98, 94,
101, 108, 9
8, 100, 1
17,
103, 100, .
..
3
分布の例
•
コインが200枚あ
るとする
•
200枚を一斉に投
げて,表の枚数を数える
4
表の枚数
それが
起きた回数
(頻度)
20回投げたときの例
分布の例
•
コインが200枚あ
るとする
•
200枚を一斉に投
げて,表の枚数を数える
5
表の枚数
それが
起きた回数
(頻度)
100回投げたときの例
分布の例
•
コインが200枚あ
るとする
•
200枚を一斉に投
げて,表の枚数を数える
6
表の枚数
それが
起きた回数
(頻度)
1000回投げたときの例
分布の例
•
コインが200枚あ
るとする
•
200枚を一斉に投
げて,表の枚数を数える
7
表の枚数
それが
起きた回数
(頻度)
10000回投げたときの例
•
コイン投げゲーム
•
コインを200枚を一斉に投げる(1回勝負)
•
表の枚数が110枚以上なら
勝ち
•
表の枚数が109枚以下なら
負け
•
この勝負に勝てそ
う
か?
8
•
コイン投げゲーム
•
コインを200枚を一斉に投げる(1回勝負)
•
表の枚数が110枚以上なら
勝ち
•
表の枚数が109枚以下なら
負け
•
9
10000回投げてみたら,
表の枚数が
110
枚以上
894回
表の枚数が
109
枚以下
9106回
8.9パーセントくらいの
確率
で
勝て
そ
う
!
•
勝率5%の
ゲーム(100回に5回勝てそ
う
な
ゲーム)を作りたい
とする
•
10
10000回投げてみたら,
表の枚数が
112
枚以上
518
回
表の枚数が
111
枚以下
9482回
5.2パーセントくらいの
確率
で
勝て
そ
う
コイン200枚を投げて,112枚以上表立ったら勝ちゲーム
それが
起きた回数
(頻度)
4-
5
母平均と母分散の活用例
今から行
う
ことのイメー
ジ
12
値が変化する何か
<変数>
たくさんの
標本
母平均
,
母分散
の推定値
合成データを生成し,
その分布をみる
R
で,母平均と母分散か
ら,データを
合成
•
rnorm
(10,
100, s
qrt(4
00) )
13
■
合成データの生成(サイズ:10)
母平均
100,
母分散
400のとき
■
合成データを生成し,
その後,小数点以下を四捨五入(サイズ:10)
round( rnorm(
10
,
100
,
sqrt(
400
) ) )
小数点以下の四捨五入には
round
を使
う
rnorm
(
<合成したいデータ数>
,
<母平均値>
,
sqrt(
<母分散値>
))
R
で,母平均と母分散か
ら,データを
合成
14
値が変化する何か
<変数>
たくさんの
標本
母平均
,
母分散
の推定値
合成データを生成する
母平均
100
母分散
400
元の変数と
性質が同じ
よ
う
な合成データを生成
R
で,母平均と母分散か
ら,データを
合成
round( rnorm(10,
100,
sqrt
(400)
) )
round( rnorm(10,
100,
sqrt
(400)
) )
round( rnorm(10,
100,
sqrt
(400)
) )
round( rnorm(10,
100,
sqrt
(400)
) )
15
round(
rnorm(20,
100, sqrt(400)
)
)
round( rnorm(30,
100,
sqrt(4
00)
) )
合成データの
頻度分布(ヒ
ストグラム)
library(dplyr)
library(ggplot2)
d <-
round( rnorm(10,
100,
sqrt
(400)
) )
ggplot(data_frame(d),
aes
(x
= d))
+
geom_histogram(b
inwidth=1)
+
theme_bw
()
16
ベクトルデータの
頻度分布(ヒストグラム)
library(dplyr)
library(ggplot2)
d <-
round( rnorm(100,
100,
sq
rt(400)
) )
ggplot(data_frame(d),
aes
(x
= d))
+
geom_histogram(b
inwidth=1)
+
theme_bw
()
合成データの
頻度分布(ヒ
ストグラム)
17
ベクトルデータの
頻度分布(ヒストグラム)
今度は
100
合成データの
頻度分布(ヒストグラム)
(1/2)
18
サイズ10の
ときの頻度分布
サイズ100の
ときの頻度分布
サイズ1000の
ときの頻度分布
合成データの
頻度分布(ヒストグラム)
(2/2)
•
母平均と母分散で,
合成された合成データの頻度
分布(ヒストグラム
)は,合成データのサイズを
増やすと,正規分布になる
19
サイズ10000の
ときの頻度分布
サイズ100000
のときの頻度分布
サイズ1000000
のときの頻度分布
合成データのサイズを増やすほど,
頻度分布(ヒストグラム)のカーブは
滑らか
になる