東京大学 | 大学院医学系研究科 | 国際保健学専攻 | 人類生態学教室TOP | 2nd
社会調査第12回
「統計的研究資料のデータ化」(2001年7月5日)
トップ | 更新情報 | 研究と教育 | 業績 | 計算機 | 写真 | 枕草子 | 著者 | 目安箱 | 書評 | 社会調査
最終更新:
2001年8月8日 水曜日 09時22分
講義概要
- 統計的研究資料をデータ化するための3つのステップ
- エディティング
→とったデータ(質問紙の回答など)のエラーチェックをしてコーディングできる状態にする
- コーディング
→コード表(調査票上の回答カテゴリーと入力すべきデータとの項目ごとの対応表)をつくる。データ形式も記載することが多い
→コード表に基づいて調査票にコードを振る:最初の項目はIDとし,それ以降の項目は調査票どおりの順序にするのがよい
- データエントリー
→振られたコードをデータとしてコンピュータに入力する。エラーチェックが必要(理想は2回入力して比較)。
- エディティング
- 記入漏れや不完全,不明な回答項目がないかチェックし,誤記を訂正する作業をエディティングと呼ぶ。
- エディティングは2回(調査中と調査完了後)行うのが望ましい
- 必要に応じて再調査し,判読不可能な記載や誤記があれば調査員に確認(自分で調査した場合はフィールドノートやテープ記録などを参照)して,訂正,明確化するなどの処理を行う
- 論理エラーチェックはデータエントリー段階でもするが,ここでもしておいた方がよい。
- 実際に練習(配布資料の右半分で)
- コーディング
- 項目順に回答カテゴリーとそれに対応したコードを示すコード表を作る。
- 調査票の上で回答になんらかのカテゴリー化がされていれば,単純にそれに対応したコードでよい(プリコード質問なら省略可)
- カテゴリー化されていない場合は,すべての調査票をみて,どのようにカテゴリーを設定するかを決定する(いったん,文字情報をそのままコードとして入力し,コンピュータにコードを振らせる方法もある)。
- 欠損値(NA,DK,非該当)には,回答カテゴリー外のコードを与える。枝分かれ質問の場合に欠損値の中身の区分も重要になる
- 複数回答の項目については,複数の項目に分解して,各々を2値データとしてコードを振るのが普通。
- コード表のサンプルを提示して,実際に練習(配布資料右半分で)
- データエントリーの方法
- ●表計算ソフト(Excelなど)
- 簡便,見通しが良いが範囲チェックなし
- 表形式にならないデータは入れにくい
- ●テキストエディタ(Wz,xyzzyなど)
- 入力しにくい
- データ形式(固定長またはCSV,タブ区切り)には汎用性が高い。
- 途中でコンピュータがハングアップするなどしても,部分的に救い出せることが多い。
- メールでデータを送ったりするのが容易。
- ●データベースソフト(Accessなど)
- フォームを作るのが多少面倒
- 調査票と同じく対象者1人分を1画面に入れて入力できるので紛れが少ない
- 範囲チェックも入力時に可能
- Accessだとデータ形式が専用なので,パソコンがハングアップした場合などに救い出しにくい。
- ●HTML+CGI(簡単な例)
- HTMLやCGIを書くのにスキルが必要(ただし使い回しが効く)
- HTMLで1人分のデータを1画面に収めるようにデザインすれば,入力はしやすい
- データ形式はCGIの設定次第
- 範囲チェックもCGIで可能
- Apache for Win32やActive Perlなどを使えば比較的非力なパソコンでも動作が軽快。サーバに設定すれば,離れた場所からでも入力できる
- お薦め。
フォロー
- エディティングの作業を行うとき,人によって誤記の訂正が異なることが起きたらどうする? すべて調査員が訂正した通りになる? 例えば調査員1人と他の人4人がエディティングをしていて,調査員が(1)だと思っても他の4人が(2)だと言った場合はどちらの意見が通るか? 再調査か?
- 丸の位置が微妙だったりする場合は再調査か,NAにします。もっと質的なエディティングだったら,そもそも調査員以外の人にはできません。
- エディティングは「調査中と調査完了後の2回行うのが望ましい」というときの,「調査中」とは,調査がすべて完了する前ということ?
- そうです。普通は,毎日帰ってきたら夜なべ仕事でエディティングをしてしまうのがいいとされています。
- ダブルエントリーで2人とも間違ったら?
- 2人が同じところを同じように間違える可能性は低いので,データファイルには両方の違いがでます。
- 提示されたコード表において,Q2,Q6のDK,NAは,なぜ9?
- 欠損は全てマイナス1でもいいのですが,回答が2値とわかっていれば9にすると入力が1桁で済むので便利だというだけの意味です。
- カラムは今は必要ないとの話だったが,以前は何のために使っていた?
- 以前は統計ソフトが固定長データしか読めなかったので,カラム単位で入力する必要があったのです。パンチカードという記録手段と,それを読み書きしていたFORTRANというプログラム言語の特性のためだったと思います。
- テキストエディタのエディタとはどういう意味?
- 編集する道具という意味です。
- 後期でも統計をするそうだが,統計って何?
- 複数の値を見やすくまとめたり(記述統計),値の間の関係をしらべたりする(仮説検定)技法です。
- エディティングは見直しと似ていない?
- そう,要するに,回答者の回答を見直して,不適切な回答を訂正するということです。
- エディティングはよくわかった。コンピュータの上でデータ化した時以外にもすることはある?
- コンピュータがなかった頃は集計表というものを作って手計算していました。今では手計算で統計処理をすることは,まずありえません。
- エディティングで誤記を再確認するとあるが,欠損値に入れてはいけない? 欠損値はなくした方がいい?
- デザインのとおりに聞けないということなので,欠損値が多いのはよくないです。どうしても再調査が不可能なときは欠損扱いするしかありませんが。
- エコポイントチェックで1時間毎に自動集計というのは,結果はどう見える? また1日に何人くらいの人が回答してくれる?
- 1時間毎の集計というのは,Cで書いた集計プログラムをcronで自動的に実行させているだけです。結果は,WEB上でクリックすれば見えます
- コーディングのときの欠損値は結局後から外すとはどういうこと?
- 欠損値として入力しておかないと,入力し忘れている場合と区別できないからです。
- エクセルだとたしか表から円グラフとか作れると思うが,それも見たい。エクセルの使い方もできれば教えてほしい。
- 次週,報告書作成のときにやります。