1
rd-4. 標本の平均、母
平均
金子邦彦
データサイエンス演習
R システムを使用)
https://www.kkaneko.jp/de/rd/index.html
アウトライン
1. 平均
2. 母集団と標本
3. 標本の平均値
4. 標本の分散値
5. 演習
2
1. 平均
3
平均
平均は,データの合計を,データの個数割っ
もの
10, 40, 30, 40 平均: 120 ÷430
複数の値の平均を考えることもある
(10, 5), (40, 10), (30, 5), (40, 20) の平均:
合計は 120 404で割って (30, 10)
4
平均
平均は,データ集合代表とみる
ことができる場合がある
計測に誤差があるとき,
複数の計測を繰り返し,平均をとる
ことで,誤差を軽減できることも
平均を使ときの注意点
5
平均
データの分布によっては,平均では役に
立たないこともある.
(平均は万能ではない)
平均
このような平均に,
意味があるでしょうか?
2. 母集団と標本
6
母集団
母集団は,調査や研究の対象となる全体の集団のこと
母集団把握と理解が重要
(例)人類全体、20歳以上の人類全体
7
サンプリングと標本
母集団全体を調べることが困難な場合サンプリングを適
切に行
(例)1000名をランダムに選ぶ
サンプリングは、母集団から一部を選ぶこと。
母集団全体を調べるのでなく、一部を調べることになる。
標本は、サンプリングで選ばれたもののこと。
8
標本
母集団
サンプリング
サンプリングと標本
9
あるときの標本
128
104
124
85
120
118
110
96
85
109
平均
112.2
平均
103.6
母集団
選ばれた標本によっては、
値が違い平均なども異なってくる
別の標本
十分な数の標本が必要
標本の大きさが小さと、
結果の信頼性が下がる
十分な数の標本を得ることが重要
標本の大きさの決定は簡単に決めることができない
母集団の特徴、調査や研究の目的によって,適切な
本の大きさは変わることに注意しよ10
あるときの標本
128
104
124
85
120
母集団
まとめ
母集団:調査や研究の対象となる全体の集団
サンプリング
母集団全体を調べることが困難な場合、母集団から一部を選
ぶサンプリングを行
母集団の特徴や性質を推測することが可能となる。
標本
標本は、母集団からサンプリングで選ばれた母集団の一部
標本から得られたデータを分析し、母集団全体の性質や傾向
を推測可能。
【注意点】十分な標本サイズの確保が必要。ランダムに選択
するなどの考慮が重要。
11
3. 標本の平均値
今から行ことのイメー
13
たくさんの標本
母平均の推定
平均の算出
母集団
母平均推定の精度を分析する
ために、母集団正規分布である
と仮定
母集団平均
母平均とい
正規分布
正規分布は,平均と分散だけで頻度分布を考える。
分散は,データのらばり度を表す
14
頻度大
頻度小
平均
分散
正規分布
正規分布は,平均と分散だけで頻度分布を考える。
分散は,データのらばり度を表す
15
頻度大
頻度小
平均
分散
母集団は正規分布であるとし、標本の
平均値を算出
16
標本(標本数は n
平均 n 個の数の平均)
母集団
正規分布
母集団は正規分布であるとし、標本の
平均値を算出
17
母集団
正規分布
標本(標本数は n n = 5
128
104
124
85
120
118
110
96
85
109
80
80
126
122
79
母集団は正規分布であるとし、標本の
平均値を算出
18
標本(標本数は n n = 5
母集団
平均 112.2 平均 97.4 平均 103.6
正規分布
128
104
124
85
120
118
110
96
85
109
80
80
126
122
79
平均はばらつく。
母集団は正規分布であるとし、標本の
平均値を算出
19
標本標本数n
母集団
正規分布
母集団正規分布であるとき、
この分布も正規分布
この正規分布の平均
<母平均>に等しい
この正規分布の分散
<母散>/n
平均はばらつく。
母集団の平均は、母平均とい
母集団の分散は、母分散とい
まとめ
20
母集団
標本標本数n
平均
正規分布
この正規分布<分散
は、<母分散>/n
正規分布
この平均から、
母平均を推定したい
母分散が小さいほど精
度がよい。n が大きい
ほど精度がよい
4. 標本の分散値
今から行ことのイメー
22
たくさんの標本
母集団不偏分散の推定
不偏分散の算出
母集団
母不偏分散推定の精度を分析する
ために、母集団t分布であると仮定
t 分布は正規分布と少し異なる形)
母集団不偏分散
知りたい
分散は,データのらばり度を表す
母分散(母集団の分散)は、標本からは推定で
ないもの
母分散の代わりに、不偏分散を用いる
23
標本の分散値を算出
24
標本(標本数は n n = 5
母集団
不偏分散 314.2 170.3 591.8
128
104
124
85
120
118
110
96
85
109
80
80
126
122
79
求まった値はばらつく。
・その分布の平均は、
元の母集団の不偏分散に等しい
n が大きいほど精度がよい
t分布
5. 演習
25
R のベクトル
コンストラクタ(ベクトルデータの組み立て)
c numeric など
添え字によるアクセ []
26
ベクトルとは,データの並びのこと.
各要素に番号(添え字)がある.
R での平均と不偏分散
平均 mean
不偏分散 var
不偏分散は,標本値のばらつきを表す値
27
R での平均と不偏分散
c1 <- c(128, 104, 124, 85, 120)
c2 <- c(118, 110, 96, 85, 109)
c3 <- c(80, 80, 126, 122, 79)
c4 <- c(127, 72, 111, 82, 81)
mean(c1)
mean(c2)
mean(c3)
mean(c4)
var(c1)
var(c2)
var(c3)
var(c4) 28
128
104
124
85
120
118
110
96
85
109
80
80
126
122
79
127
72
111
82
81
今から行こと
29
乱数による
合成データ
サイズ:1,000,000
1,000,000個の中から
ランダムに標本を選ぶ」
128
104
124
85
120
118
110
96
85
109
80
80
126
122
79
標本
標本
標本
今から行こと
30
乱数による
合成データ
サイズ:1,000,000
1,000,000個の中から
ランダムに標本を選ぶ」
128
104
124
85
120
118
110
96
85
109
80
80
126
122
79
標本
標本
標本
Rでは
ベクトルデータ x1,000,000個の中から
ランダムに5個選びたいときは
x[floor( runif(5, 1, 1000000+1) )]
合成データからランダム5個選び標本
作る
x <- round( rnorm(1000000, mean=100, sd=20) )
x[floor( runif(5, 1, 1000000+1) )]
x[floor( runif(5, 1, 1000000+1) )]
x[floor( runif(5, 1, 1000000+1) )]
31
合成データ
タイプ:数値
サイズ:1,000,000
サイズ
の標本
乱数による合成データの生成
毎回違結果が出る
標本を20個作り,各標本の平均や不偏分散を
求める
x <- round( rnorm(1000000, mean=100, sd=20) )
m <- numeric(20)
v <- numeric(20)
for (i in 1:20) {
s <- x[floor( runif(5, 1, 1000000+1) )]
m[i] <- mean(s)
v[i] <- var(s)
}
print(m)
print(v)
32
合成データ
タイプ:数値
サイズ:1,000,000
サイズ
の標本を
20
毎回違結果が出る
各標本の
平均や
不偏分散
合成データからランダムに
5個選び標本を作る
平均と不偏分散
128
104
124
85
120
各標本の平均値を比べる
33
112.2 103.6
112.2 103.6 97.4
112.2 103.6 97.4 94.6
総平均107.9
総平均104.4
総平均101.95
標本2個の各平均値
標本3個の各平均値
標本4個の各平均値
118
110
96
85
109
80
80
126
122
79
127
72
111
82
81
標本の例
各標本の不偏分散値を比べ
34
その平均242.25
その平均358.7667
その平均404.9
314.2 170.3
314.2 170.3 591.8
314.2 170.3 591.8 543.3
標本2個の各不偏分散値
標本3個の各不偏分散値
標本4個の各不偏分散値
128
104
124
85
120
118
110
96
85
109
80
80
126
122
79
127
72
111
82
81
標本
各標本の平均値や不偏分散値を集めて,
均をとる
x <- round( rnorm(1000000, mean=100, sd=20) )
m <- numeric(20)
v <- numeric(20)
for (i in 1:20) {
s <- x[floor( runif(5, 1, 1000000+1) )]
m[i] <- mean(s)
v[i] <- var(s)
}
for (i in 1:20) { print( mean(m[1:i]) ) }
for (i in 1:20) { print( mean(v[1:i]) ) } 35
合成データ
タイプ:数値
サイズ:1,000,000
サイズ
の標本を
20
各標本の
平均値や
不偏分散値
平均
36
ランダムなので,毎回違結果が出る
だんだんと
100 に近づく
だんだんと
400 に近づく
各標本の平均値を集めて
平均を求める
各標本の不偏分散値を集めて
平均を求める
37
ランダムなので,毎回違結果が出る
だんだんと
100 に近づく
何度やっても同じ
だんだんと
400 に近づく
何度やっても同じ
各標本の平均値を集めて
平均を求める
各標本の不偏分散値を集めて
平均を求める
標本の個数を 20 から 1000 の間で変えて,
総平均を求めてみる
38
各標本の平均値を集めて総平均を求める
だんだんと
100 に近づく
標本の個数を 20 から 1000 の間で変えて,
総平均を求めてみる
39
各標本の不偏分散値を集めて総平均を求める
だんだんと
400 に近づく
標本の平均から母平均を推
標本の平均から母平均を推定するときに気を付けること
標本の大きさ
標本の大きさは、母平均の推定精度に大きく影響.標本の
大きさが大きいほど精度が向上
誤差の認識
標本の平均から母集団を推定する際は、必ず誤差が発生す
る(論文などに細かすぎる値を書かないこと)
サンプリングはランダムに
母集団を正確に反映する標本を得ることが重要
母集団のデータの分布の確認
正規分布か確認.統計手法では(t 検定など)、正規分布
を前提としている場合がある
外れ値の考慮
外れ値は,平均値に大きく影響する.外れ値は取り除くか
適切に書き換える 40