東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd
社会調査第9回
「尺度,信頼性,妥当性」(2001年6月14日)
トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 社会調査
最終更新:
2001年7月26日 木曜日 18時33分
講義概要
- 尺度
- ●尺度とは,測定に用いられるモノサシである。
- 尺度の種類
- ●狭義の尺度(scale):調査の各項目の値の一次式(合計得点のような場合が多い)
- ●指数(index):一次式以外の代数式(比など)
- ●指標:例えば,文化程度が砂糖消費量で測られるというとき,砂糖消費量は文化の指標である。
- ●どの尺度についても,信頼性(reliability)と妥当性(validity)を備えていなくてはいけない。
- 信頼性:その尺度によって特定対象から同じ結果が繰り返しえられること。test-retest reliabilityでは,折半法でスピアマン・ブラウンの公式(α=2r/(1+r),rは相関係数)を使って信頼性係数(クロンバックのα係数,α=
(K-1)/K(1-Σsi2/st2)K/(K-1)(1-Σsi2/st2),Kは項目数)を求めることが多い。(2001年6月28日注記:森岡清志「ガイドブック社会調査」日本評論社,1998のp.192の式が間違っているのをそのまま写していたので,間違っていた。実際には統計パッケージの出力を使うことが普通で,手計算などしないので,誰も「ガイドブック社会調査」の誤りを指摘していないのだと思われる)
- 妥当性:その尺度が測定したい事柄を正しく測定できていること。内容的妥当性(測定したい概念が含む下位概念を,その尺度が全て包摂している場合に内容的妥当性が高いという),基準関連妥当性(その尺度と構成概念または理論的に関連する概念を測定している,信頼性と妥当性が確立している他の尺度を基準とし,その尺度と基準との関連が高いときに基準関連妥当性が高いという),構成概念妥当性(設定した構成概念を本当に測れているかどうかについての妥当性。ただし,簡単なチェック方法はない)がある。
- 狭義の尺度のいろいろ
- 任意尺度:社会経済的地位尺度(チェイビン,1928年),ポイント尺度,序列尺度,評定(品等)尺度,文章尺度
- 判定尺度:等現間隔尺度を含む
- 内的一貫性尺度(項目分析,尺度分析,因子分析などにより得られる)
- 予測的尺度
- 第二種尺度:評定法,序列法,一対比較法,社会的距離尺度など
- 測定の水準による尺度のいろいろ
- 名義尺度(nominal scale):たんに対象の異同のみ示す
- 順序(順位)尺度(ordinal scale):異同に加え,その測定値が大小,上下等の順序関係を示す
- 間隔尺度(interval scale):測定値間の差が対象間の違いに1対1対応(摂氏温度など)
- 比(比率)尺度(ratio scale):絶対的な原点が存在し,何倍という比を考えることに意味がある(収入,耕地面積など)
フォロー
- 小テストについて
- ●採点基準は? → ○,△,×の3段階を予定しています。
- ●そのものは返って来ない? → 採点が終わってから返します。
- ●挽回可能? → もちろんです。
- ●(2)でカイ二乗検定をしたときの期待度数の計算方法 → 質問パタンと回答が独立(無関係)なら,例えば,質問パタンAで支持と答える人の人数は,質問パタンAに答えた人の人数に,両質問合計で支持と答えた人の割合を掛けた値になることが期待されます。
- 「どちらともいえない」の影響はない?
- 入れないと本当にどちらともいえない人を無理やりどちらかに分けてしまうことでバイアスが生じますし,入れると,本当はどちらかに偏った意見をもっている人の判断を「どちらともいえない」に取り込んでしまうことでバイアスが生じる可能性があります。一長一短です。入れるべきかどうかは質問項目次第です。
- 折半法と信頼性の計算が難しかったので例示希望。
- 多くの概念は直接聞き取ることができないので,複数の質問を組み合わせることによって対象者の差異をより細かく把握しようと試みることになります。例えば,自然への親近感を聞き取りたい場合,(1)あなたは自然が好きですか? 嫌いですか? (好き,どちらかといえば好き,どちらかといえば嫌い,嫌い)だけでは対象者は4群にしか分かれません(順序尺度として数値化すると,好きを4点,嫌いを1点として1点から4点の4段階になります)。しかし,(2)休日に海や山で過ごすのと映画館や遊園地で遊ぶのとどちらが好きですか? (海や山,どちらかといえば海や山,どちらかといえば映画館や遊園地,映画館や遊園地)を加えて,これも「海や山」を4点,「映画館や遊園地」を1点とする順序尺度として扱うことにすれば,(1)と(2)の回答の合計点を計算すると,2点から8点までの7群に回答者が類別される可能性があり,より細かい把握が可能になるわけです。さらに(3)無人のジャングルで野生生物の観察をする仕事に魅力を感じますか? それとも感じませんか? (感じる,どちらかといえば感じる,どちらかといえば感じない,感じない)の4点を加えると,3点から12点までの10段階になります。
- これらは同じ「自然への親近感」という概念を構成する項目(下位概念)として聞き取られているので,互いに回答が同じ傾向になることが期待されます。つまり(1)で好きと答えた人なら,(2)では海や山と答える人が多いだろうし,(3)では感じないと答えるよりも感じると答える人が多いだろうと思われるわけです。同じ概念を構成する質問に対して同じ傾向の回答が得られれば,その質問群は信頼性が高いと考えられます。
- 複数の変数(項目)の関連をみる指標の1つに,相関係数というものがあります。変数xと変数yの相関係数rxyは,i番目の人のxに対する回答をxi,yに対する回答をyi,xについての回答の平均値をX,yについての回答の平均値をY,総回答者数をnと書くことにすれば(^は累乗を表す記号で,^2と書けば二乗,^(1/2)と書けば平方根という意味になります),rxy=sxy^2/(sx sy),但しsx=(Σ(xi-X)^2/(n-1))^(1/2),sy=(Σ(yi-Y)^2/(n-1))^(1/2),sxy^2=Σ(xi-X)(yi-Y)/(n-1)として定義されます。相関係数は-1から1までの値をとり,まったく無関係なとき0となり,(xi,yi)をxy平面にプロットしたときに完全に傾きがプラスの直線に乗るとき1となります。
- 上記3つの質問に対して一貫した答えが得られたかどうかを調べる方法の1つに折半法があります。例えば質問(1)と(2)の合計点の変数xと質問(3)の点の変数yという具合に,同じ概念を構成する全質問を2つにわけて,xとyの相関係数をrとすれば,これらの質問の信頼性係数αは,α=2r/(1+r)となるというのがスピアマン・ブラウンの公式です(ふつうは,奇数番目の項目と偶数番目の項目に二分します)。
- しかし,(1)の点と(2)と(3)の合計点という分け方もあるわけで,下位概念が3つ以上ある質問だったら,これらの回答に一貫して同じ傾向があるかどうかをスピアマン・ブラウンの公式で出そうと思うと,αの値はいくつも(n項目だったらn項目を2つに分ける組み合わせの数だけ)計算されます。それをまとめてしまおうというのがクロンバックのαで,仮に(1)(2)(3)の合計得点が「自然への親近感」を表す変数xtだとして,(1)(2)(3)の得点をそれぞれ変数x1,x2,x3とすれば,クロンバックのαは,α=
(3-1)/3 (1-(sx1^2+sx2^2+sx3^2/sxt^2)3/(3-1) (1-(sx1^2+sx2^2+sx3^2/sxt^2)として計算されます。クロンバックのαが0.8以上なら十分な,0.7でもまあまあの,内的一貫性(信頼性)がその項目群にはあるとみなされます。なお,クロンバックのαは,考えられるすべての組み合わせについてスピアマン・ブラウンの公式で計算されるαを求め,その平均値をとった場合と,同じ値を示すものと考えられます。
- 構成概念妥当性の説明を詳しく希望。
- 上の例でいえば,自然の中で遊ぶことは好きでも観察が嫌いな人はいるはずで,(3)の回答は「自然への親近感」という概念を構成するものとして適当でないかもしれません。その場合に,(1)から(3)の得点の和を「自然への親近感」という尺度として用いることは,構成概念妥当性が低いといいます。つまり,ある概念の構成概念を理論的に明確に定義し,その定義と測定されている内容が異なる場合に,構成概念妥当性が低くなります。しかし,これを簡単にチェックする方法はありません。
- 予測的尺度の説明希望。
- 社会調査における予測とは,歴史的文化的条件が変化しないという仮定のもとに,既知の特性から未知の特性を推測することをいいます。その職業に適応して成功するかどうかの予測,結婚生活がうまくいくかどうかの予測,仮釈放すべき囚人が釈放後再犯するかどうかの予測といったものがあります。例えば仮釈放の予測の場合,既に仮釈放されてから数年たった集団をテストグループとして考えると,その中には再犯した者と再犯していない者が混ざっているはずです。このとき,過去の記録を調べて関連を分析すれば,再犯に関連している変数を見つけ出すことができます。例えば,性別,過去の犯罪が単独犯か集団犯かということ,前科の数,身寄りの人数などが関連していることがわかったとします。こうして関連がわかった多くの因子に適当な重みをつけて合計することで,再犯可能性スコアのようなものが得られます。テストグループでは,再犯した者で再犯可能性スコアが高くなっているわけですが,同じスコアをこれから釈放しようとしている囚人に適用すれば,スコアが高いものは再犯可能性が高いので仮釈放しないという判断を取ることもできます。この例でいう再犯可能性スコアのようなものが,予測的尺度です。