1
rd-5. t 検定
金子邦彦
データサイエンス演習
R システムを使用)
https://www.kkaneko.jp/de/rd/index.html
アウトライン
5-1. 母集団と標本
5-2. t 検定
2
5-1 母集団と標本
3
母集団
母集団は,調査や研究の対象となる全体の集団のこと
母集団把握と理解が重要
(例)人類全体、20歳以上の人類全体
4
サンプリングと標本
母集団全体を調べることが困難な場合サンプリングを適
切に行う
(例)1000名をランダムに選ぶ
サンプリングは、母集団から一部を選ぶこと。
母集団全体を調べるのでなく、一部を調べることになる。
標本は、サンプリングで選ばれたもののこと。
5
標本
母集団
サンプリング
サンプリングと標本
6
あるときの標本
128
104
124
85
120
118
110
96
85
109
平均
112.2
平均
103.6
母集団
選ばれた標本によっては、
値が違い平均なども異なってくる
別の標本
十分な数の標本が必要
標本の大きさが小さいと、結果の信頼性が下がる
十分な数の標本を得ることが重要
標本の大きさの決定は簡単に決めることができない
母集団の特徴、調査や研究の目的によって,適切な
本の大きさは変わることに注意しよう 7
あるときの標本
128
104
124
85
120
母集団
まとめ
母集団:調査や研究の対象となる全体の集団
サンプリング
母集団全体を調べることが困難な場合、母集団から一部を選
ぶサンプリングを行う。
母集団の特徴や性質を推測することが可能となる。
標本
標本は、母集団からサンプリングで選ばれた母集団の一部
標本から得られたデータを分析し、母集団全体の性質や傾向
を推測可能。
【注意点】十分な標本サイズの確保が必要。ランダムに選択
するなどの考慮が重要。
8
5-2 t 検定
9
t 検定
t 検定は、2つの標本平均値統計的に有意に異
なるかどうかを判断するための統計手法
【注意点】
標本が正規分布に従っていること
外れ値が存在する場合は、取り除いたり、適切に
修正すること
十分な標本サイズを確保すること.小さな標本サ
イズでは、結果の信頼性が下がる可能性がある
10
複数の母集団
母集団が複数あるという考え方は重要
あなたは大学生です。授業Aを受けた人と、授業A
を受けていない人の調査し、比較してみたいと考
ました
母集団が2つ 11
母集団 母集団
授業Aを受けた人 授業Aを受けていない人
2つの母集団と2つの標本
12
標本母集団
サンプリング
標本
別の母集団
サンプリング
t 検定と p
t 検定は、2つの標本平均値統計的に有意に異
なるかどうかを判断するための統計手法
pは、2つの標本の差が偶然による(有意でな
い)確率を示す
13
p= 0.99 のとき.「偶然による確率は99%」
有意であるとも有意でないともいえない
P= 0.0005 のとき、「偶然による確率は0.05%」
おそらく有意である
2つの母集団と2つの標本
14
母集団
別の母集団
2つの標本から t 検定の
p 値を算出0.006908
2つの標本の差が偶然による
(有意でない)確率が低い
128
104
124
85
120
180
191
189
131
130
150
2つの母集団と2つの標本
15
母集団
別の母集団
128
104
124
85
120
100
106
89
89
105
2つの標本から t 検定の
p 値を算出0.1541
有意であるとも有意でないとも言えな
p 値と有意性
t 検定pは、2つの標本の差が偶然による
率を示す
p値が小さいとき「とても偶然とは思えず、有意で
ある」と考える
p値が大きいときは「偶然であるとも、偶然でない
とも言えない」と考える
16
まとめ
t検定
t検定は、2つの標本の平均値の統計的な有意性を判断す
統計手法
標本が正規分布に従い、外れ値を適切に扱い、十分な標
本サイズを確保することが重要
t検定のp
t検定のp値は、2つの標本の差が偶然である確率
p値が低いとき、差が統計的に有意である可能性が高まる
p値の解釈
p値が小さいとき、「差は統計的に有意であり、偶然と
は考えにくい」と考える
p値が大きいときは、「差は統計的に有意であるとは言
いきれない。偶然であるとも、偶然でないとも言えな
」と考える 17
R での t 検定
R システム: t.test(<標本1>, <標本2>, var.equal=F)
18
p値が表示される
t.test( c(128, 104, 124, 85, 120), c(100, 106, 89, 89,
105), var.equal=F )
t 検定
19
p < 0.05 が,判断の分かれ目の目安という考え
方も
演習の例
1. サイズが5以上の数値データを,2個準備しなさ
2. 1のデータについて t検定を行い,その p 値を求
めなさい
20
データ1
データ2
p値>