rd-4. 標本の平均、母

平均

金子邦彦

データサイエンス演習

（R システムを使用）

https://www.kkaneko.jp/de/rd/index.html

アウトライン

1. 平均

2. 母集団と標本

3. 標本の平均値

4. 標本の分散値

5. 演習

1. 平均

平均

•平均は，データの合計を，データの個数で割った

もの

10, 40, 30, 40 の平均: 120 ÷4で30

•複数の値の組の平均を考えることもある

(10, 5), (40, 10), (30, 5), (40, 20) の平均:

合計は 120 と40．4で割って (30, 10)

平均

平均は，データ集合の代表とみる

ことができる場合がある

計測に誤差があるとき，

複数の計測を繰り返し，平均をとる

ことで，誤差を軽減できることも

平均を使うときの注意点

平均

データの分布によっては，平均では役に

立たないこともある．

（平均は万能ではない）

平均

このような平均に，

意味があるでしょうか？

2. 母集団と標本

母集団

母集団は，調査や研究の対象となる全体の集団のこと

•母集団の把握と理解が重要

（例）人類全体、２０歳以上の人類全体

サンプリングと標本

•母集団全体を調べることが困難な場合、サンプリングを適

切に行う

（例）１０００名をランダムに選ぶ

•サンプリングは、母集団から一部を選ぶこと。

•母集団全体を調べるのでなく、一部を調べることになる。

•標本は、サンプリングで選ばれたもののこと。

標本

母集団

サンプリング

サンプリングと標本

あるときの標本

128

104

124

120

118

110

109

平均

112.2

平均

103.6

母集団

選ばれた標本によっては、

値が違い、平均なども異なってくる

別の標本

十分な数の標本が必要

•標本の大きさが小さいと、

結果の信頼性が下がる

•十分な数の標本を得ることが重要

•標本の大きさの決定は簡単に決めることができない

•母集団の特徴、調査や研究の目的によって，適切な標

本の大きさは変わることに注意しよう10

あるときの標本

128

104

124

120

母集団

まとめ

•母集団：調査や研究の対象となる全体の集団

•サンプリング：

母集団全体を調べることが困難な場合、母集団から一部を選

ぶサンプリングを行う。

母集団の特徴や性質を推測することが可能となる。

•標本：

標本は、母集団からサンプリングで選ばれた母集団の一部。

標本から得られたデータを分析し、母集団全体の性質や傾向

を推測可能。

【注意点】十分な標本サイズの確保が必要。ランダムに選択

するなどの考慮が重要。

3. 標本の平均値

今から行うことのイメージ

たくさんの標本

母平均の推定

平均の算出

母集団

母平均の推定の精度を分析する

ために、母集団は正規分布である

と仮定

母集団の平均を

母平均という

正規分布

正規分布は，平均と分散だけで頻度分布を考える。

分散は，データの散らばり度合を表す

頻度大

頻度小

平均

分散

正規分布

正規分布は，平均と分散だけで頻度分布を考える。

分散は，データの散らばり度合を表す

頻度大

頻度小

平均

分散

母集団は正規分布であるとし、標本の

平均値を算出

標本（標本数は n）

平均（n 個の数の平均）

母集団

正規分布

母集団は正規分布であるとし、標本の

平均値を算出

母集団

正規分布

標本（標本数は n ，n = 5）

128

104

124

120

118

110

109

126

122

母集団は正規分布であるとし、標本の

平均値を算出

標本（標本数は n ，n = 5）

母集団

平均 112.2 平均 97.4 平均 103.6

正規分布

128

104

124

120

118

110

109

126

122

平均はばらつく。

母集団は正規分布であるとし、標本の

平均値を算出

標本（標本数はn ）

母集団

正規分布

母集団が正規分布であるとき、

この分布も正規分布

•この正規分布の平均

＜母平均＞に等しい

•この正規分布の分散

＜母分散＞／n

平均はばらつく。

•母集団の平均は、母平均という

•母集団の分散は、母分散という

まとめ

母集団

標本（標本数はn ）

平均

正規分布

この正規分布の＜分散

＞は、＜母分散＞／n

正規分布

この平均から、

母平均を推定したい

母分散が小さいほど精

度がよい。n が大きい

ほど精度がよい

4. 標本の分散値

今から行うことのイメージ

たくさんの標本

母集団の不偏分散の推定

不偏分散の算出

母集団

母不偏分散の推定の精度を分析する

ために、母集団はt分布であると仮定

（t 分布は正規分布と少し異なる形）

母集団の不偏分散を

知りたい

•分散は，データの散らばり度合を表す

•母分散（母集団の分散）は、標本からは推定でき

ないもの

•母分散の代わりに、不偏分散を用いる

標本の分散値を算出

標本（標本数は n ，n = 5）

母集団

不偏分散 314.2 170.3 591.8

128

104

124

120

118

110

109

126

122

求まった値はばらつく。

・その分布の平均は、

元の母集団の不偏分散に等しい

・n が大きいほど精度がよい

t分布

5. 演習

R のベクトル

•コンストラクタ（ベクトルデータの組み立て）

c やnumeric など

•添え字によるアクセス []

ベクトルとは，データの並びのこと．

各要素に番号（添え字）がある．

R での平均と不偏分散

•平均 mean

•不偏分散 var

※ 不偏分散は，標本値のばらつきを表す値

R での平均と不偏分散

c1 <- c(128, 104, 124, 85, 120)

c2 <- c(118, 110, 96, 85, 109)

c3 <- c(80, 80, 126, 122, 79)

c4 <- c(127, 72, 111, 82, 81)

mean(c1)

mean(c2)

mean(c3)

mean(c4)

var(c1)

var(c2)

var(c3)

var(c4) 28

128

104

124

120

118

110

109

126

122

127

111

今から行うこと

乱数による

合成データ

サイズ：1,000,000

「1,000,000個の中から

ランダムに標本を選ぶ」

128

104

124

120

118

110

109

126

122

標本

今から行うこと

乱数による

合成データ

サイズ：1,000,000

「1,000,000個の中から

ランダムに標本を選ぶ」

128

104

124

120

118

110

109

126

122

標本

Rでは

ベクトルデータ xの1,000,000個の中から

ランダムに5個選びたいときは

x[floor( runif(5, 1, 1000000+1) )]

合成データからランダムに5個選び標本を

作る

x <- round( rnorm(1000000, mean=100, sd=20) )

x[floor( runif(5, 1, 1000000+1) )]

合成データ

タイプ：数値

サイズ：1,000,000

サイズ５

の標本

乱数による合成データの生成

毎回違う結果が出る

標本を20個作り，各標本の平均や不偏分散を

求める

x <- round( rnorm(1000000, mean=100, sd=20) )

m <- numeric(20)

v <- numeric(20)

for (i in 1:20) {

s <- x[floor( runif(5, 1, 1000000+1) )]

m[i] <- mean(s)

v[i] <- var(s)

}

print(m)

print(v)

合成データ

タイプ：数値

サイズ：1,000,000

サイズ５

の標本を

20個

毎回違う結果が出る

各標本の

平均や

不偏分散

合成データからランダムに

5個選び標本を作る

平均と不偏分散

128

104

124

120

各標本の平均値を比べる

112.2 103.6

112.2 103.6 97.4

112.2 103.6 97.4 94.6

総平均：107.9

総平均：104.4

総平均：101.95

標本２個の各平均値

標本３個の各平均値

標本４個の各平均値

118

110

109

126

122

127

111

標本の例

各標本の不偏分散値を比べる

その平均：242.25

その平均：358.7667

その平均：404.9

314.2 170.3

314.2 170.3 591.8

314.2 170.3 591.8 543.3

標本２個の各不偏分散値

標本３個の各不偏分散値

標本４個の各不偏分散値

128

104

124

120

118

110

109

126

122

127

111

標本

各標本の平均値や不偏分散値を集めて，平

均をとる

x <- round( rnorm(1000000, mean=100, sd=20) )

m <- numeric(20)

v <- numeric(20)

for (i in 1:20) {

s <- x[floor( runif(5, 1, 1000000+1) )]

m[i] <- mean(s)

v[i] <- var(s)

}

for (i in 1:20) { print( mean(m[1:i]) ) }

for (i in 1:20) { print( mean(v[1:i]) ) } 35

合成データ

タイプ：数値

サイズ：1,000,000

サイズ５

の標本を

20個

各標本の

平均値や

不偏分散値

平均

ランダムなので，毎回違う結果が出る

だんだんと

100 に近づく

だんだんと

400 に近づく

各標本の平均値を集めて

平均を求める

各標本の不偏分散値を集めて

平均を求める

ランダムなので，毎回違う結果が出る

だんだんと

100 に近づく

何度やっても同じ

だんだんと

400 に近づく

何度やっても同じ

各標本の平均値を集めて

平均を求める

各標本の不偏分散値を集めて

平均を求める

標本の個数を 20 から 1000 の間で変えて，

総平均を求めてみる

各標本の平均値を集めて総平均を求める

だんだんと

100 に近づく

標本の個数を 20 から 1000 の間で変えて，

総平均を求めてみる

各標本の不偏分散値を集めて総平均を求める

だんだんと

400 に近づく

標本の平均から母平均を推定

標本の平均から母平均を推定するときに気を付けること

•標本の大きさ

標本の大きさは、母平均の推定精度に大きく影響．標本の

大きさが大きいほど精度が向上

•誤差の認識

標本の平均から母集団を推定する際は、必ず誤差が発生す

る（論文などに細かすぎる値を書かないこと）

•サンプリングはランダムに

母集団を正確に反映する標本を得ることが重要

•母集団のデータの分布の確認

正規分布か確認．統計手法では（t 検定など）、正規分布

を前提としている場合がある

•外れ値の考慮

外れ値は，平均値に大きく影響する．外れ値は取り除くか

適切に書き換える 40