東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd

社会調査第4回
「標本抽出(サンプリング)の方法」(2001年5月10日)

全部を一括して読む

トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 社会調査

最終更新: 2001年7月26日 木曜日 18時07分


講義概要

  1. 何故標本抽出を行うのか?
    ●完全に全数が測れて,コスト的にも問題なく,対象者にも調査者にも負担がないならば,標本調査をする必要はない
    ●ほぼ完全に均質な対象なら1例でよい
    ●上記どちらにも当てはまらない場合は「標本(サンプル)」という「代表性をもった部分」を全体から抽出する作業が必要
  2. 上野駅中央改札風景(写真=166,067 bytes, jpeg形式
  3. どんな種類のサンプルがあるか?
    ●時間的にも空間的にも母集団を代表する性質をもつ=確率サンプル
    ●確率サンプルの代表性を高めるには,サンプルとして選ばれる確率が均等だったことを確かにする方向性と,サンプル数を増やす方向性がある
  4. サンプル数の計算
    ●適当なサンプルサイズは,母集団の均質性,サブグループ数,母集団のパラメータ推定に求めたい正確さ,注目している現象の出現頻度,予算などで変わる。
    ●変数が1つなら,信頼区間5%(標本統計量の誤差の幅)で95%の確率サンプルをする(標本統計量が正しくないリスクが5%)には,最大384でよい。
    ●サンプル数を求める式は,χ2NP(1-P)/{C2(N-1)+χ2P(1-P)}。Pは最悪の場合でも0.5(先行研究を参照して得る)。Nは母集団の人数。Cは信頼区間(5%なら0.05)。χ2はカイ二乗分布の95%点(3.84)または99%点(6.64)。
  5. サンプルされる確率を均等に
    ●まず母集団の人数を調べる(電話帳,住民登録,あるいは自分でセンサス)
    ●確率サンプリング

    ●非確率サンプリング
  6. 単純無作為抽出
    ●乱数表,さいころ,コンピュータなどを使って全員に順番に乱数を与えていき,必要なサンプル数の値より小さい順位だった人を対象とする。例えば,
    ●(0,1)の一様乱数を与える
    ●小さい順に並べ替える
    ●小さい方から必要なところまで対象とする
  7. 層化抽出法
    ●年齢別,性別,人種別など階層毎に単純無作為抽出する
    ●サンプリング以前に,階層の情報がわかっていなければならない(が,予備的にその集団について階層を調べたりすると,それ自体が本調査に影響するかもしれない)
    ●階層の出現頻度が事前にはわからない
    ●時間と金がかかる
    ●総サンプル数が決まっている場合,階層毎のサンプル数が減ってしまう
  8. クラスターサンプリング
    ●多段抽出の1つ
    ●複数の村を含む州の調査などで,村をランダムに選んで,選ばれた村は全数調べる
    ●集落抽出法とも呼ばれる
  9. サイズ比例確率サンプリング(PPS)
    ●多段抽出の1つ
    ●全体が不均質な場合,ほぼ均質と考えられる複数のブロックに分ける
    ●ブロック毎の人口規模に比例してサンプル数を割り当てる
    ●ブロック内は単純無作為抽出と同じ
    ●費用が莫大。
  10. 問題
    ●上野駅中央改札の水曜朝の1分間の映像から
    1. 上野駅を利用する男性のうちネクタイをしている割合を推定したい場合,
    2. 中央改札の一日利用者数を推定したい場合,

    の各々について,どういう標本抽出をしたことになるのか説明してください
    ●成人男性人口500人のメキシコ人の村で,USでの不法就労経験者割合を推定したいとき,信頼区間5%で95%確率サンプルを単純無作為抽出するには,何人にインタビューしたらよいか?

フォロー(問題の解説)

上野駅映像はどういうサンプリングか?
●サンプリングとは,母集団から,それを代表するような部分を選ぶ過程ですから,まず母集団を特定する必要があります。
●「上野駅を利用する男性のうちネクタイをしている割合を推定したい場合」の母集団は「上野駅を利用する男性」です。あの映像に映った男性を観察すれば,「男性のうちネクタイをしている割合」を計算できますから,問題は,「上野駅を利用する男性」に対して,「映像に映った男性」がどういう部分集団になっているかということになります。ネクタイの着用の有無に関して,公園口と中央口と浅草口では,出口の外にある施設が違うので服装が異なっていても不思議はないので,中央口の空間的代表性には疑問がもたれます。時間的にも,通勤ラッシュの時刻と昼下がりではネクタイ着用率には差があって当然ですから,朝の1分間だけというサンプルの代表性は疑問です。他の出口のデータと,昼下がりのデータが補足されれば「層化抽出法」の一部にはなりえますが,あれだけでは行き当たりばったりの「偶然サンプリング」です。正解者はありませんでした。
●「中央改札の一日利用者数を推定したい場合」の母集団は「中央改札の一日利用者数」なので,朝の1分間という時間的代表性と改札の一部しか映っていないという空間的代表性が問題となります。このうち空間的代表性に関しては,たぶん上野駅くらい利用者が多ければゲート間の偏りは無視していいかもしれませんが,時間帯や日による差があることは明らかです。ただ,一日利用者数といった場合は平日と休日の数を混ぜてはいけないと考えると,平日の朝を代表していると考えてもそれほど無理はないでしょう上野駅の時間帯別利用者割合を既存資料から得て逆比例配分すれば,一日利用者数は推定できると考えられます。「朝の1分間」はランダムサンプルされたものではないので,割り当てサンプリングといえるでしょう。
メキシコ人村落でのUS不法就労経験者割合を推定するために必要なサンプルサイズ
●式に値を代入すれば,3.84x500x0.25/(0.05x0.05x499+3.84x0.25)=217(人)
●カイ二乗分布の95パーセント点が3.84なのに,それをさらに二乗するという誤りが多かったので注意してください。