群馬大学 | 医学部 | サイトトップ | Software Tips | RについてのTips
Data analysis and graphics using R
最終更新:
2004年 11月 17日 (水曜日) 13時01分
以下は,John Maindonald and John Braun: Data analysis and graphics using R, Cambridge Univ. Press, 2003, Cambridge, ISBN0-521-81336-0の,A Chapter by Chapter Summaryを勝手に適当に訳したものである。章立てだけみても深い見識が伺える。
- 第1章:Rの簡潔な紹介
- この章は,読者がRを使い始めるに当たって十分な情報を提供することを目的としている。Rの広範なオンラインヘルプに注意されたい。Rについて基本的な最小限の知識さえもっていれば,ユーザは必要に応じてヘルプページから追加情報を得ることができる。ヘルプページを容易に使えることは,Rユーザにとっての重要な基本的技術である。
- 第2章:データ解析のお作法
- まずどうやって一組のデータを探って分け入っていったらいいのか知ることは重要な技術である。どういうグラフを描くべきか? グラフのタイプが違えばデータの見え方も違う。どういう見え方が助けになりやすいのか? 変換(とくに対数変換)は,データの分析に先立ってやらねばならない。目的がデータ自身に語らせることである探索的データ解析と対照的に,確証的分析(定式的な推定と検定を含む)では,分析の型はデータを集める前に大部分決まっているべきである。 統計解析はデータをまとめるための一形式である。可能である限りそのまとめがデータの決定的な特徴を捉えているかをチェックすることは重要である。 平均とか相関のような要約統計量には,いつもそれに関連したグラフを調べることが伴わなくてはならない。例えば,相関は便利な要約統計量だけれども,それは,2つの変数の関係が直線的なときだけである。散布図を見れば直線性が視覚的にチェックできる。
- 第3章:統計モデル
- 定式的なデータ解析は,そのベースに統計モデルを仮定している。明示的に書かれていようがいまいが。多くの統計モデルは2つの構成要素をもっている。刺激となる(あるいは決定的な)成分と,雑音となる(あるいは誤差)成分である。 サンプル(ふつう,ランダムに選ばれたものと仮定される)からのデータを使って,モデルを当てはめて信号成分を推定する。当てはめたモデルは,各信号の「当てはめ値」あるいは「予測値」を決定する。その「残差」(雑音成分を推定する)は,信号の観察値から当てはめ値を引いた後の残りである。 正規分布は,雑音成分のモデルとして広く使われている。場当たり的に選んだサンプルは,ランダムサンプルとは区別するべきである。場当たり的に選んだサンプルからの推論は,運任せになることを避けられない。自分で勝手に選んだサンプルは,とくに失敗の可能性が高い。
- 第4章:定式的な推論への招待
- データの定式的な解析は,データが標本抽出されてきた元の母集団についての推論につながる。与えられたデータから計算されうる統計量は,それなしでは未知だった母集団パラメータについての情報をもたらしてきた。本章に記載される推論には,関連した母集団からランダムに選ばれた標本を必要とする。標本分布は,標本統計量の理論分布を記述する。それは,母集団から独立に選ばれた複数のランダムサンプルに基づいている。標本分布の標準偏差は,標準誤差という名称をもつ。充分大きなサンプルについては,正規分布が,平均の,あるいは平均の差の,真の標本分布への良い近似を与える。平均とか平均の差のような母数についての信頼区間は,
統計量±t値×標準誤差
という形をとる。こうした信頼区間は標本統計量を使って母集団パラメータを推定するときの不確かさの度合いの評価を与える。もう1つの視点が仮説検定である。2つの異なる母集団の平均の間に差があると信じるに足る証拠はあるだろうか? 信頼区間と仮説検定が妥当だと考えるのがもっともらしいかどうかを決定するには,チェックすることが重要である。しかしもっともらしさが証拠ではないことに注意しよう! 2次元の表についての標準的なカイ二乗検定は,その表のセルに各項目が独立に入っていると仮定している。そういう検定が妥当でないときでも,「関連がない」モデルからの標準化された残差は,役に立つ洞察を与えてくれる。一次元の場合,標本の値について各グループについて1つずつ,いくつかの独立した集合があるようなときがそれにあたるが,データ構造(例えば処理群と対照群を比べるとか,少数の「興味深い」対照に焦点をあてるとか)は,その推論が適切かどうかを決定する助けになる。一般に,すべての可能な比較を調べるのは不適切である。量的な値についての一次元の配置の場合は,回帰によるアプローチが適切なのが普通である。
- 第5章:予測変数1つの回帰
- 相関は2変数の依存関係の粗く,極度に単純な要約尺度である。可能なところでは常に,それらの変数間の関係について,より深い洞察を得るためのフレームワークとしてより豊かな,回帰を用いるべきである。反応変数yの予測変数xへの回帰に対する直線あるいは曲線は,xのyへの回帰の直線または曲線とは異なる。推論された関係が予測変数の値について条件付きであることに注意しよう。モデル行列は,推定された係数とともに,予測値あるいは当てはめ値と残差の計算に使われる。その計算に続けて,グラフで判定する標準的な形式を使って当てはめたモデルを評価するのはいいやり方である。生の形でデータを使って直線回帰を代替するものとしては,
- x及び/またはyを変換する
- 多項式回帰を用いる
- 滑らかな曲線を当てはめる
がある。データのサイズと形については,相対成長のモデルが良い開始点である。このモデルは,サイズ変数の対数をとった値の間の回帰関係が直線であると仮定している。
- 第6章:線型重回帰
- 回帰モデルを当てはめるのに先立って,散布図行列が役に立つ洞察を提供してくれるかもしれない。回帰の当てはめに続いて,それに関連した診断用のプロットをして調べてみるべきである。各々の回帰係数は,他の説明変数が一定である場合の,対応する説明変数の変化の効果の推定量である。
- 用いる説明変数の組が違えば,両方のモデルで同じ変数が出てきてもそれらの係数は大きく変わってくることもありうる。
- データ収集における選択の影響は,当てはめられた回帰関係に大きな影響をもちうる。
- 代替的ないくつかのモデルを比較するためには,AICかそれと同等な統計量(Mallows Cpを含む)が便利なことがある。R2統計量には限定的な便利さしかない。
- 変数選択の影響が無視されたら,予測力の推定値は実際以上に大きく膨らんでしまうことがある。
- 回帰モデルが観察データに当てはめられるとき,そしてとくに,多くの説明変数がある場合,推定さえた回帰係数は,個々の変数の効果について,間違った指標を与える可能性がある。
- 予測力についての最も役に立つ検定は,新しいデータセットから期待される予測の正確さを決定することによって得られる。
- クロスヴァリデーション(交叉妥当性検証)は,新しいサンプルにおいて期待される予測の正確さを評価するのに使いうる,有力で,広く利用可能な方法である。
- 第7章:線型モデルフレームワークの活用
- 回帰関係の研究では,複数の回帰直線より多くの可能性がある! もし1本の直線が適当なら,それを使えばいい。でもそれは,直線(群)に限られてはいない。
- 線型モデルで質的な因子を取り扱うための良くある方法は,初期水準をベースラインにすることだ。他の水準についてはそのベースラインからの偏りとして推定される推定量を使う。
- 自由度nの多項式も,モデルに行列を導入することによって扱える(xの値のカラムに加えて,x2,x3,...,xnに対応するカラムをもつ)。典型的には,nは2か3か4である。
- 複数の直線が,変数とある因子の交互作用として当てはめられる。異なる線があるだけ多くの水準がある(?意味不明。誤訳かも? 原文は,Multiple lines are fitted as an interaction between the variable and a factor with as many levels as there are different lines.)。
- 散布図の平滑化と,重回帰モデルでの平滑化項も,線型モデルの枠組みの中で扱うことができる。
- 第8章:ロジスティック回帰と他の一般化線型モデル
- 一般化線型モデル(GLMs)は,線型モデルの拡張である。GLMsでは,反応変数の期待値yの関数が線型モデルとして表現される。さらなる一般化は,yが二項分布,ポアソン分布,あるいはそれ以外の非正規分布をもつかもしれないということである。
- よく知られている重要なGLMsはロジスティックモデルとポアソン回帰モデルである。
- 生存時間解析は,GLMの枠組みを特別な方向でさらに拡張したものとみることもできよう。
- 第9章:マルチレベルモデル,時系列,繰り返し測定
- マルチレベルモデルでは,ランダム成分が構造をもっている。それは別々の誤差項の和である。
- 適切なバランスを示すマルチレベルモデルは,伝統的に分散分析の枠組みの中で分析されてきた。アンバランスなマルチレベルデザインは,もっと一般化されたマルチレベルモデリングの方法論を必要とする。
- 経時的にとられたオブザーベーションは,時間に基づいた依存関係を示す。時間的に密接して一緒にとられたオブザーベーションは,間が広く離れたものよりもずっと高い相関を示す。自己相関関数は,時系列における系列相関の水準を評価するのに使うことができる。
- 繰り返し測定のモデルは,同じ個体について,時間及び/または空間的に複数の点での測定値をもつ。それは典型的には時系列を分析するときに用いられるのと同様な相関構造のモデリングを要する。
- 第10章:決定木に基づく分類と回帰
- 決定木に基づくモデルは,分類あるいは回帰モデルの形について非常に弱い仮定をおく。そういうモデルは,連続あるいは順序型の説明変数の順序付ける性質を限定的なやり方で使う。小さなデータセットに使うのには向いていない。
- 決定木に基づくモデルは,非線形かつ/または複雑な相互作用を含むようなデータを分析するときに,非常に効果的なツールとなりうる。
- この分析で生成される決定木は複雑であるかもしれないし,それだとモデルの予測に関して限られた洞察しか提供しないかもしれない。
- クロスヴァリデーション(相互参照による妥当性検証)と,訓練データとテストデータセットを使うことが,決定木の大きさを選択するためにも,新しいデータセットについて期待される正確さを評価するためにも,本質的に重要なツールとなる。
- 第11章:多変量データの探索的データ解析と判別
- 主成分分析は重要な多変量の説明的データ解析ツールの1つである。この章では,2つの代替的な判別方法(多変量ロジスティック回帰を含むロジスティック回帰と,線形判別分析である)の利用を示している。
- 主成分分析でも判別分析でも,オブザーベーション1つずつについて計算される,主成分得点あるいは判別関数得点というスコアの計算をすることができる。このスコアは,それ自身,例えば回帰分析における変数として使うことができる。
- 第12章:Rシステム:追加トピック
- 最終章はRのさらなる可能性のいくつかへのポインタを示す。それは,すさまじい威力と柔軟性をもって,本書で扱った基本的なトピックを超えてRを利用するスキルを広げる人が利用できるヒントとなるだろう。この章での情報は,前の章での計算につながるリファレンスとしても用いることができるように意図したものである。
リンクと引用について
Correspondence to: minato@phi.med.gunma-u.ac.jp.