1
rd-13. 正規分布
金子邦彦
データサイエンス演習
R システムを使用)
https://www.kkaneko.jp/de/rd/index.html
コイン投げ
コインを投げて,裏か表を出す. コインに仕掛
けなどはない
2
コイン投げでの「表の枚数」は変数
コインが200枚あるとする
200枚を一斉に投げて,表の枚数を数える
何度も繰り返す
(例)
97, 100, 111, 96, 87, 93, 99, 99, 104, 92, 112, 98, 94,
101, 108, 98, 100, 117, 103, 100, ...
3
分布の例
コインが200枚あるとする
200枚を一斉に投げて,表の枚数を数える
4
表の枚数
それが
起きた回数
(頻度)
20回投げたときの例
分布の例
コインが200枚あるとする
200枚を一斉に投げて,表の枚数を数える
5
表の枚数
それが
起きた回数
(頻度)
100回投げたときの例
分布の例
コインが200枚あるとする
200枚を一斉に投げて,表の枚数を数える
6
表の枚数
それが
起きた回数
(頻度)
1000回投げたときの例
分布の例
コインが200枚あるとする
200枚を一斉に投げて,表の枚数を数える
7
表の枚数
それが
起きた回数
(頻度)
10000回投げたときの例
コイン投げゲーム
コインを200枚を一斉に投げる(1回勝負)
表の枚数が110枚以上なら 勝ち
表の枚数が109枚以下なら 負け
この勝負に勝てそか?
8
コイン投げゲーム
コインを200枚を一斉に投げる(1回勝負)
表の枚数が110枚以上なら 勝ち
表の枚数が109枚以下なら 負け
9
10000回投げてみたら,
表の枚数が110枚以上
894回
表の枚数が109枚以下
9106回
8.9パーセントくらいの
確率勝て
勝率5%のゲーム(100回に5回勝てそ
ゲーム)を作りたいとする
10
10000回投げてみたら,
表の枚数が112枚以上
518
表の枚数が111枚以下
9482回
5.2パーセントくらいの
確率勝て
コイン200枚を投げて,112枚以上表立ったら勝ちゲーム
それが
起きた回数
(頻度)
4-5 母平均と母分散の活用例
今から行ことのイメー
12
値が変化する何か
<変数>
たくさんの標本
母平均母分散の推定値
合成データを生成し,
その分布をみる
Rで,母平均と母分散から,データを合成
rnorm(10, 100, sqrt(400) )
13
合成データの生成(サイズ:10)
母平均 100,母分散 400のとき
合成データを生成し,
その後,小数点以下を四捨五入(サイズ:10)
round( rnorm(10, 100,
sqrt(400) ) )
小数点以下の四捨五入には round を使
rnorm(<合成したいデータ数>,<母平均値>, sqrt(<母分散値>))
Rで,母平均と母分散から,データを合成
14
値が変化する何か
<変数>
たくさんの標本
母平均母分散の推定値
合成データを生成する
母平均 100
母分散 400
元の変数と性質が同じな合成データを生成
Rで,母平均と母分散から,データを合成
round( rnorm(10, 100, sqrt(400) ) )
round( rnorm(10, 100, sqrt(400) ) )
round( rnorm(10, 100, sqrt(400) ) )
round( rnorm(10, 100, sqrt(400) ) )
15
round( rnorm(20, 100, sqrt(400) ) )
round( rnorm(30, 100, sqrt(400) ) )
合成データの頻度分布(ヒストグラム)
library(dplyr)
library(ggplot2)
d <- round( rnorm(10, 100, sqrt(400) ) )
ggplot(data_frame(d), aes(x = d)) +
geom_histogram(binwidth=1) +
theme_bw()
16
ベクトルデータの
頻度分布(ヒストグラム)
library(dplyr)
library(ggplot2)
d <- round( rnorm(100, 100, sqrt(400) ) )
ggplot(data_frame(d), aes(x = d)) +
geom_histogram(binwidth=1) +
theme_bw()
合成データの頻度分布(ヒストグラム)
17
ベクトルデータの
頻度分布(ヒストグラム)
今度は 100
合成データの頻度分布(ヒストグラム)
(1/2)
18
サイズ10の
ときの頻度分布
サイズ100の
ときの頻度分布
サイズ1000の
ときの頻度分布
合成データの頻度分布(ヒストグラム)
(2/2)
母平均と母分散で,合成された合成データの頻度
分布(ヒストグラム)は,合成データのサイズを
増やすと,正規分布になる
19
サイズ10000の
ときの頻度分布
サイズ100000
のときの頻度分布
サイズ1000000
のときの頻度分布
合成データのサイズを増やすほど,
頻度分布(ヒストグラム)のカーブは
滑らかになる