山口県立大学 | 看護学部 | 中澤 港
統計学 (Statistics)
講義の目的と概要
およそ世の中のすべての現象は不確実性,予測不可能性を含んでいる。とくに人間が絡む現象はそうである。しかし,予測能力がきわめて大きいことはヒトという動物の特徴であり(そう,リチャード・ドーキンスも語っている通り),我々は不確実ながらも先の見通しを立てて,何とかうまく生きていこうと考えざるを得ない。
では,どうやって見通しを立てればいいのだろうか? 不確実で不安定な現象でも,数多く集めれば,何らかの法則性が見えてくることがある。この,法則性を見出す(検証を含む)方法論が統計学である。本講義では,統計学の考え方の基礎を説明しながら,実際に多くのデータを集めて分析する技術の初歩を解説することを目的とする。
スケジュール
- (2002年4月15日):統計学とは何だろうか?
第1回講義資料(64 KB),PowerPointプレゼンテーション
- (2002年4月22日):統計的な考え方の基礎=確率と確率分布
第2回講義資料(125 KB),PowerPointプレゼンテーション
- (2002年5月13日):データの尺度・データの図示
第3回講義資料(67 KB),Rのプログラム1,Rのプログラム2,PowerPointプレゼンテーション
- (2002年5月20日):データを1つの値にまとめる(代表値)
第4回講義資料(98 KB),Rのプログラム1,MS-EXCELとRによる代表値の求め方一覧(PDF形式)(40 KB),PowerPointプレゼンテーション
- (2002年5月27日):比率に関する推定と検定
第5回講義資料(131 KB),Rのプログラム1,PowerPointプレゼンテーション
- (2002年6月3日):カテゴリ変数2つの分析(1)
第6回講義資料(78 KB),Rのプログラム1,,プログラム1から呼ばれるデータ,PowerPointプレゼンテーション,プレゼンテーション中の動画再生に必要なMPEG1ムービーファイル(8.6 MB)
- (2002年6月10日):カテゴリ変数2つの分析(2)
第7回講義資料(74 KB),関連性の指標を計算する関数crosstabの定義を含むRのプログラム,OpenOffice.org impressプレゼンテーション,PowerPointプレゼンテーション(ただし若干フォントがおかしい)
- (2002年6月17日):平均値に関する推定と検定
第8回講義資料(71 KB),Rのプログラム,OpenOffice.org impressプレゼンテーション,PowerPointプレゼンテーション(ただし若干フォントがおかしい)
- (2002年6月24日):2群の差に関するノンパラメトリックな検定
第9回講義資料(103 KB),Rのプログラム,OpenOffice.org impressプレゼンテーション,PowerPointプレゼンテーション(impressから変換したもの)
- (2002年7月1日):多群間の差を調べる〜一元配置分散分析と多重比較
第10回講義資料(120 KB),Rのプログラム,プログラムから呼び出されるデータ,OpenOffice.org impressプレゼンテーション,PowerPointプレゼンテーション(impressから変換したもの)
- (2002年7月8日):相関と回帰
第11回講義資料(130 KB),Rのプログラム,プログラムから呼び出されるデータ,OpenOffice.org impressプレゼンテーション,PowerPointプレゼンテーション(impressから変換したもの)
- (2002年7月15日):時系列データと間隔データの扱い方
第12回講義資料(147 KB),世界人口変化を図示するRのプログラム,世界人口予測のRのプログラム,時系列解析のRのプログラム,OpenOffice.org impressプレゼンテーション
- (2002年7月22日):一般化線型モデル入門
第13回講義資料(58 KB),OpenOffice.org impressプレゼンテーション
- (2002年7月29日):高度な分析法についての概説
第14回講義資料(89 KB),Rのプログラム,プログラムから呼び出されるデータ
- (2002年8月5日):試験
問題(28 KB),回答用紙(11 KB),解答例(38 KB)
(注)上にリンクした講義資料はPDF形式で提供しており,表示や印刷にはAdobe Acrobat Readerなどが必要である。また,この講義資料のコピー等の扱いは,基本的にGFDL(GNU Free Documentation License; 非公式日本語訳)に準ずるものとする。GNU GPLに従うフリーソフトであるRを使って(Rの使い方そのものについてのTipsも作成中),統計解析をするための解説を書いているのに,その文書について配布制限をするのは論理的におかしいと考えるからである。なお,コピー等が自由であることは,この文書の出版可能性を否定するものではない(Richard Stallmanによる"Why you should use the GNU FDL"【結城浩さんによる日本語訳】を参照されたい)……というか,なんとか出版したいので,この内容に関心をもたれた出版社の方がいらしたら,是非minato@ypu.jpまで,メールでご連絡いただきたい。Rを普及させる上で最大の壁になっているのが,日本語での解説書の少なさだと思うので,こうした文書を全国規模で安く出版して欲しいと思うのだ。基本的に原稿料は要らないし,もし儲けが出たら全額R-projectに寄付したいが,条件としては,このバージョンの文書は,このままウェブでも公開し続けたいので,それを許可していただいた上で出版してくださる出版社を希望する。(2003年6月18日追記:現在,出版を検討してくださっている出版社があり,そのために大幅に改訂した文書を作成した。stat.pdf(pdf形式,約919 KB)としてダウンロードできるようにしてあるので,お読みになってコメント(サポート掲示板またはメールで)いただければ幸いである。)
(注2)なお,これらの講義資料には,いくつかタイプミスやケアレスミスがある。既知の誤りは以下の通りである。ご指摘くださった目黒さんに感謝申し上げる。
- 第3回講義資料で帯グラフを作成する際のRのコマンド文で,頻度を代入する際の変数がpxになっているが,pcの打ち間違いである。別ファイルになっているRのプログラム(l3-1.R)は正しい。
- 同じく第3回で,円グラフを作るRの関数がpiechartとなっているが,これは古いバージョンで使われていた関数で,現在はpieという関数に置き換わっている。
- 第4回でGrimmの説明を間違っていると書いているが,それに代わる説明として示している式も,論理的に矛盾が残る。中央値に関しては,通常の統計ソフトで行われているように,タイがあろうとなかろうと,サンプル数が奇数なら真中の値,偶数なら真中を挟む2つの値の平均とするのが実用的である。それでは困るほどタイが多ければ,中央値を代表値として表すやり方それ自体の妥当性を考えるのが筋である。なお,詳細な計算過程は別に示すが,第4回の講義資料に示した度数分布から中央値を計算する式は正しくなく,Grimmのテキストに載っているL+(N/2-F)/fm*hが正しい式である。
- 第5回で示している視聴率の95%信頼区間は,19.8%から26.5%ではなく,zz <- dbinom(1:600,600,0.229)としてから講義資料に示した式で計算すれば19.5%(=117/600)から26.333...%(=158/600)となる。これは単純なタイプミスである。2項分布の分布関数を使っても,pbinom(117,600,0.229)=0.02501972,pbinom(158,600,0.229)=0.9785232,pbinom(157,600,0.229)=0.9732018となるので,117/600と158/600で良いと考えられる。確率に0.229でなく137/600を用いても,pbinom(117,600,137/600)=0.02733977,pbinom(116,600,137/600)=0.02156798なので,下限は117/600の19.5%でよいが,pbinom(157,600,137/600)=0.9755594,pbinom(156,600,137/600)=0.9696303となるので,上限は157/600の26.2%の方がいいと考えることもできる。しかし,Rで2項検定の関数binom.testを使うと,binom.test(137,600,0.229)でもbinom.test(137,600,137/600)でも,95%信頼区間は0.195から0.264と表示される。Rのhelpには,binom.test関数は,Clopper and Pearson (1934)の方法により,「少なくともその範囲を含むけれども最短であることは保証されない範囲を示す」と書かれているので,少なくとも95%含む範囲でなければならないことになる。26.333...%を切り上げて26.4%と考えれば,真の視聴率を22.9%とした場合でも137/600とした場合でも,信頼区間は117/600から158/600という意味になる。pbinom(157,600,137/600)は0.975を超えているが,それからpbinom(117,600,137/600)を引いた値が0.95を超えないので,上限としては157/600でなく,158/600が採択されたのだと考えられる。いずれにせよ,この例では,95%信頼区間として適切な値は,19.5%から26.333...%(あるいは26.4%)となる。
(注3)群馬大学の青木先生からも,下記のたくさんの誤りや甘い点をご指摘いただいたので(実に詳しくチェックしてくださり,ありがとうございました),遅くなってしまって申し訳ないが,お答えする。試験には無関係だったのでほっとしたが,不正確な点がこんなにも多かったのか,と思い知らされて恥ずかしかった。このページで公開しているpdf形式の資料を読まれるときは参照されたい。
- 第1回で「国勢調査区の面積を表す数値の最初と最後を並べたもの」をランダムな数値の例として挙げているが,おそらく最初の数値は一様分布しないし(1が多い),末尾の数値も四捨五入の影響を受けて一様分布しない可能性があるので,これはランダムな数値の例として適当でないというご指摘。考えてみればその通りである。考えが浅かったことをお詫びする。
- 第2回で「観察を行う面を特定する」とあるのは「場面を」のtypoではないかというご指摘をいただいたが,これは鈴木義一郎「情報量基準による統計解析入門」pp.19にある通りであり,「面を」で間違いない。多面的な現象のどの側面を観察するかを決めるという意味なので,語義を明確にするために書き換えるならば「側面を」となるだろう。
- 同じく第2回,『一般には「どの結果も同程度に起こる」と考える』が紛らわしい表現だというご指摘はその通りである。鈴木の前掲書にあった『最も一般的に用いられるものは,同じウェートの目盛り,つまり「どの結果も同程度に起こる」という考え方である』という表現を簡略化したつもりだったのだが,ぼくの表現は強すぎた。確率を考えるときに各事象の母比率が等しい例が一般的だとは思うが,もちろん母比率が等しくない事象もたくさんあり,その場合は,「どの結果も同程度に起こる」とは考えられない。
- 第3回で予算額を比尺度としているけれども,0円の予算とかマイナス予算がありうるので不正確だというご指摘。言われてみれば想像力が不足していた。もっとも,何%成長とか何%削減という表現に意味があるので,多くの場合に予算額は比尺度といっていいと思うけれど。
- 第4回以降,「標本サイズ」と書くべきところを「標本数」と書いている部分がたくさんあるというご指摘。申し訳ない。
- 第4回資料の2ページ4行目,偏差の和がゼロであるという式には,確かにご指摘の通り括弧が抜けていた。正しくは,もちろん,である。
- 第4回資料で,「年齢階級の正確な年齢の下限は14.5歳,上限は19.5歳であり」は,年齢はふつう満年齢で表記するので,例として不適切というご指摘。たしかに,年齢の場合,15〜19歳といえば,満15歳の誕生日から満20歳の誕生日の前日までを意味するから不適切な例だった。我ながら恥ずかしい間違いで面目ない。
- 中央値を(N+1)/2番目でなくてN/2番目とする定義もあるとのこと。たぶん(N+1)/2番目としている本の方が多いと思うし,論理的にもその方がすっきりするように思うので,ぼくは(N+1)/2番目という方を取りたい。Grimmは自著中で前の方では(N+1)/2番目の立場をとっていながら,度数分布のところでN/2番目にしているのは,やはりおかしいと思う。なお,青木先生も中央値について詳しい考察を展開されているが,通常,そんな細かいことは不要という立場は同じとのこと。
- 第4回のp.5に出てくる「四分位偏差」という用語について,教科書によっては,「四分偏差」あるいは「四分領域」という用語を使うべきとしているとのこと。そういう言い方があるとは初めて知った。ただ,文部省学術用語集数学編では,quartile deviationの訳語として「四分位偏差」となっているし,Harper CollinsのStatisticsの辞書のinterquartile rangeの項にsemi-interquartile range (or quartile deviation)とあるから,これは「四分位偏差」でいいのではないかと思う。
- 第4回のp.6に出てくるVubの式の分母の括弧は不要というご指摘は,その通りである。
- 同じく第4回のp.6で,標準偏差を説明するのに「分散では大きすぎる値になるので」というのは,確かに言い方が悪くて,ご指摘の通り「測定値そのものや平均値とディメンジョン(次元)を揃えるために」という説明の方が適切である。要するに,身長をメートル単位で測った場合,身長の分散の次元はメートルの二乗になってしまうので,その平方根の標準偏差にして次元をメートルに揃えることによって初めて,平均±標準偏差という書き方ができるわけだ。「大きすぎる」という表現は不適切だった。
- 第5回では付値に%lt;-を使っている。%lt;と-の間にスペースがあるように見えるけれども,もちろんスペースはない。TeXで普通に出力すると隙間が空いてしまうのである。それで第6回からは付値を意味する記号として"_"(アンダースコア)を使っているのだが,これも推奨されないことになったので,TeXでうまく付値を表示する方法を考えるつもりである。普通は$¥gets$を使っておいて,これは<と-を続けて打つという意味だと書いておくのかもしれない。
- 第5回資料のp.4最後の2行は,ご指摘いただいたとおり,不正確な表現をしている。正しくは,「1日の交通事故件数がポアソン分布にしたがっていると仮定したとき,得られたデータよりも偏ったデータが得られる確率は約19%あり,珍しいこととはいえない」ということである。
- 第6回資料p.1の脚注[2]の表現がよくないというご指摘もその通りである。「このままのZでは正規分布から若干ずれるので」という部分を,「このZは離散値しかとれないため,連続分布である正規分布による近似の精度を上げるために」と読みかえていただきたい。また脚注[2]の最後はqnormの結果を有意水準5%で検定するように書いてあるが,もちろん,pnormの結果から有意確率を出す方が筋がいい。
- 第6回資料p.2脚注[4]は,「厳密に言えば……」と書いておきながら厳密でなかった。「偶然この値が得られる確率」は「偶然この値以上の値が得られる確率」の誤記である。文脈から明白だとは思うが,ご注意されたい。
- 第6回資料p.4にあるフィッシャーの直接確率の説明は,ご指摘の通りよくなかった。ピアソンの定義に触れるつもりはなかったし,ありうるすべての表について生起確率は直接計算できるのだから,カイ二乗値云々と書いてある括弧内は余計であった。そもそも,「もう少し丁寧に言うと」以前の文は不要であった。
- 第7回資料p.2の「病気のオッズといえば,その病気を発症した人の,発症しなかった人に対する比である」は,「病気のオッズといえば,その病気を発症した人数の発症していない人数に対する比である」という意味で書いたのだが,判りにくかったかもしれない。
- 第8回資料p.2の例題は,平均値が1.383と1.384なので,検定しなくてもぱっと見ただけで差はなさそうだと思われる。「ぱっと見ただけでは差があるかないかさっぱりわからない」のは,「生データを見ただけでは差があるかないかさっぱりわからない」という意味である。
- 第9回資料p.1の脚注[4]で「サンプル数が多いと」は「サンプルサイズが大きいと」とすべきであった。
- 第9回p.4で,optとpes別に分けたデータをデータフレームに戻して,再びgrで分けて計算させているのは無駄というご指摘,まさにその通りである。ファイルから読む以外のデータフレームのつくり方を覚えたのでメモのつもりで書いてしまったが,こんなところで書かなくても,もっと適切な場所があっただろう。
- 第9回p.5で正規スコア検定の定義式は間違っていた。竹内啓・大橋靖雄「入門|現代の数学[11] 統計的推測−2標本問題」日本評論社,昭和56年5月20日発行,のp.81にあったtypoをそのまま書き写してしまったが,もちろん分子は1でなくてiである。
- 第11回p.3で,r<-cov(X,Y)/sqrt(var(X)*var(Y))と示しているが,組み込み関数としてcor()があり,右辺はcor(X,Y)と同値である。
参考文献
統計学の参考書や教科書は数多くあるが,以下のものをお薦めする。
- ラオ,C.R.(藤越康祝,柳井晴夫,田栗正章訳)『統計学とは何か ■偶然を生かす■』(丸善)
◆統計的な「ものの考え方」について,古典的な例や身近な例から,かなり高度な話題まで幅広く取り上げ,切れ味のよい解説を加えた名著である。
- 鈴木義一郎『情報量規準による統計解析入門』(講談社)
◆モデルベースの解析をするために,統計モデルがどういう意味をもつのか,その当てはめはどのように評価すべきか,ということを基礎から丁寧に解説している本であり,初学者にも薦められると思う。
- 浜田知久馬『学会・論文発表のための統計学 統計パッケージを誤用しないために』(真興交易(株)医書出版部)
◆自分でパッケージを使って統計解析をするときに気をつけなくてはいけないポイントを要領よくまとめた本。論文を読むときに,そこで使われている手法のどういう点に注意して結果を読み取らなくてはいけないか,ということもわかる。
- 粕谷英一『生物学を学ぶ人のための統計のはなし―きみにも出せる有意差』(文一総合出版)
◆統計解析をやり始めた大学院生などが陥りやすい罠,統計結果を読むときに間違いやすい点などを対話形式の軽妙な調子で書いた本であり,とっつきやすいと思う。
- ケンドール,M.G.(奥野忠一,大橋靖雄訳)『多変量解析』(培風館)
◆方法の羅列やパッケージの出力の見方に終始する多変量解析の解説書が多い中で,この本は多変量解析の意味を丁寧に,しかも数式は必要最小限しか使わずに解説した良書である。
- 竹村彰通『現代数理統計学』(創文社)
◆統計学を本気で学びたい人は,この本を理解することから入るとよいと思う。腰を据えてかからないと制覇できない高い山であるが,統計学に対する理解の次元が変わる。
評価方法
ペーパーテストを行う。ペーパーテストといっても,統計学は使えることが大事なので,暗記能力を試すものではなく,ノート,配布資料,電卓(暗算能力を問うわけでもないので)を持ち込み可で試験を行う。試験日時は時間割表の通り,8月5日(月)12:50-14:20とする。なお,再試験は行わないので注意されたい。
評価の結果と授業評価してもらった結果を成績評価と授業評価の概要として掲載しておく。なお,個人の成績については公開する訳にいかないので,自分の成績について疑問がある学生は下記のメールアドレスまでメールで問い合わせられるよう,お願いする。
Correspondence to: minato@ypu.jp.
リンクと引用について