群馬大学 | 医学部 | サイトトップ | 医学情報処理演習

医学情報処理演習第5回「データの分布と検定の概念」課題解答例

2009年11月9日

課題

第1回に入力されたデータを元に加工して作成し第2回,第3回の課題で使ったsample02.txtを読み込み,BMIの値が正規分布しているかどうか男女別に検定するコードを書き,実行して結果を考察せよ。なお,検定の有意水準は5%とする。学籍番号・氏名とともに,下のフォームにRのコードと考察を貼り付けて送信すること。

解答例

一番簡単に実行するには,次のように,読み込みコードの他には1行だけで片付く。

dat <- read.delim("http://phi.med.gunma-u.ac.jp/medstat/sample02.txt")
tapply(dat$BMI,dat$SEX,shapiro.test)

実行結果は以下の通り得られる。p-valueが有意確率を示す。女性のBMIデータについて「正規分布に従う」という帰無仮説を検定して得られる有意確率は0.21と0.05より大きいので帰無仮説は棄却されず,女性のBMIはとりあえず「正規分布に従う」とみなして差し支えないと考えられる(積極的に「正規分布に従う」ことをサポートする証拠があるわけではない)。一方,男性のBMIデータについて「正規分布に従う」という帰無仮説を検定して得られる有意確率は0.03612と0.05より小さいので,有意水準5%で帰無仮説は棄却され,男性のBMIは正規分布に従わないといえる。

$F

        Shapiro-Wilk normality test

data:  X[[1L]] 
W = 0.9432, p-value = 0.21


$M

        Shapiro-Wilk normality test

data:  X[[2L]] 
W = 0.938, p-value = 0.03612

なお,「有意」かどうか,帰無仮説が棄却されるかどうか,有意確率が有意水準より小さいかどうかといったことは,帰無仮説が「データが正規分布に従っている(データの分布と正規分布に差がない)」だとすると,次の表の形にまとめることができる。

有意確率<有意水準有意確率≧有意水準
帰無仮説が棄却される帰無仮説は棄却されない
データの分布と正規分布には有意差があるデータの分布と正規分布には有意差がない
データは正規分布に従わない
(データの分布は正規分布と異なる)
データは正規分布に従っていることは否定されない
(データの分布が正規分布と異なるとは言えない)

別解

地道にやるには,以下のコードのように,男女別にBMIの値を付値した変数を作成し,作図をした上で,シャピロ=ウィルクの検定を行うのがよい。結果の解釈は既に示した通りである。

dat <- read.delim("http://phi.med.gunma-u.ac.jp/medstat/sample02.txt")
maleBMI <- subset(dat,SEX=="M")$BMI
# maleBMI <- dat$BMI[dat$SEX=="M"] でも同じこと。
femaleBMI <- subset(dat,SEX=="F")$BMI
# femaleBMI <- dat$BMI[dat$SEX=="F"] でも同じこと。
hist(maleBMI)
qqnorm(maleBMI)
shapiro.test(maleBMI)
hist(femaleBMI)
qqnorm(femaleBMI)
shapiro.test(femaleBMI)