1
rd
-5.
t
検定
金子邦彦
データサイエンス演習
(
R
システムを使用)
https://www
.kkaneko.jp
/de/
rd
/inde
x.html
アウトライン
5-1.
母集団と標本
5-2. t
検定
2
5-
1
母集団と標本
3
母集団
母集団
は,調査や研究の対象となる
全体の集団
のこと
•
母集団
の
把握と理解
が重要
(例)人類全体、20歳以上の人類全体
4
サンプリングと標本
•
母集団全体を調べることが困難な場合
、
サンプリング
を適
切に行う
(例)1000名をランダムに選ぶ
•
サンプリング
は、
母集団から一部を選ぶ
こと。
•
母集団全体を調べるのでなく、
一部を調べる
ことになる。
•
標本
は、
サンプリングで選ばれたもの
のこと。
5
標本
母集団
サンプリング
サンプリングと標本
6
あるときの標本
128
104
124
85
120
1
18
1
10
96
85
109
平均
1
12.2
平均
103.6
母集団
選ばれた標本によっては、
値が違い
、
平均なども異なってくる
別の標本
十分な数の標本が必要
•
標本の大きさが
小さい
と、
結果の信頼性が下
がる
•
十分な数の標本を得る
ことが重要
•
標本の大きさの決定は簡単に決
めることができない
•
母集団の特徴、調査や研究の目
的に
よって,適切な
標
本の大きさは変わる
ことに注意しよう
7
あるときの標本
128
104
124
85
120
母集団
まとめ
•
母集団
:調査や研究の対象となる
全体の集団
•
サンプリング
:
母集団全体を調べることが困難
な場合、
母集団から一部を選
ぶサンプリング
を行う。
母集団の特徴や性質を
推測
することが可能となる。
•
標本
:
標本
は、母集団からサンプリング
で選ばれた
母集団の一部
。
標本から得られたデータを分析し、
母集団全体の性質や傾向
を推測
可能。
【注意点】
十分な標本サイズの確保
が必要。ランダムに選択
するなどの考慮が重要。
8
5-
2 t
検定
9
t
検定
t
検定
は、
2つの標本
の
平均値
が
統計的に有意に異
なるかどうかを
判断するための
統計手法
【注意点】
•
標本が正規分布
に従っていること
•
外れ値
が存在する場合は、取り除いたり、適切に
修正すること
•
十分な標本サイズ
を確保すること.小さな標本サ
イズでは、結果の信頼性が下がる可能性がある
10
複数の母集団
•
母集団が複数あるという考え方は重要
あなたは大学生です。授業
A
を受けた人と、授業
A
を受けていない人の調査し、比較してみたいと考
え
ました
母集団が2つ
11
母集団
母集団
授業
A
を受けた人
授業
A
を受けていない人
2つの母集団と2つの標本
12
標本
母集団
サンプリング
標本
別の母集団
サンプリング
t
検定と
p
値
•
t
検定
は、
2つの標本
の
平均値
が
統計的に有意に異
なるかどうかを
判断するための
統計手法
•
p
値
は、
2つの標本の差が偶然による
(有
意でな
い)確率を示す
13
p
値
= 0.99
のとき.「偶然による確率は99%」
⇒
有意であるとも有意でないともいえない
P
値
= 0.00
05
のとき、「偶然による確率は0.05%」
⇒
おそらく
有意である
2つの母集団と2つの標本
14
母集団
別の母集団
2つの標本
から
t
検定の
p
値を算出
:
0.006908
2つの標本の差が偶然による
(有意でない)
確率が低い
128
104
124
85
120
180
1
91
189
131
130
150
2つの母集団と2つの標本
15
母集団
別の母集団
128
104
124
85
120
100
106
89
89
105
2つの標本
から
t
検定の
p
値を算出
:
0.1541
有意であるとも有意でないとも言えな
い
p
値と有意性
•
t
検定
の
p
値
は、
2つの標本の差が偶然による
確
率を示す
•
p
値が小さい
とき「
とても偶然とは思えず、有
意で
ある
」と考える
•
p
値が大きい
ときは「
偶然であるとも、偶然でない
とも言えない
」と考える
16
まとめ
•
t
検定
•
t
検定
は、
2
つの標本の平均値の統計的な有意性
を判断す
る
統計手法
•
標本が正規分布
に従い、
外れ値
を適切に扱い、
十分な標
本サイズ
を確保することが重要
•
t
検定の
p
値
•
t
検定の
p
値は、
2
つの標本の差が偶然
である
確率
•
p
値が低いとき、差が統計的に有意である可能性が高まる
•
p
値の解釈
•
p
値が小さい
とき、「
差は統計的に有意であり、偶然と
は考えにくい
」と考える
•
p
値が大きい
ときは、「差は統計的に有意であるとは言
いきれない。
偶然であるとも、偶然でないとも言えな
い
」と考える
17
R
での
t
検定
R
システム:
t.test
(
<標本1>
,
<標本2>
,
var
.equal
=F)
18
p
値が表示される
t.test
(
c(128, 104, 124, 85
, 120
),
c(
100, 106, 89, 89
,
105
), var
.equal=F )
t
検定
19
■
p
値
<
0.05
が,
判断の分かれ目
の目安という考え
方も
演習の例
1.
サイズが5以上の数値データを,
2
個準備しなさ
い
2.
1
のデータについて
t
検定を行い,その
p
値を求
めなさい
20
データ1
データ2
<
p
値>