医学情報処理演習：2008年度第1回課題の回答例

課題

p01-2008.xlsを読み込み，データ構造について記述せよ。（ただし実習時はデータファイルに余計な行番号がついていたので，それを削除した後でないと，正しいデータ構造が得られない）

回答例

それほど大規模なデータではないので，クリップボード経由でRに取り込む。右図のように範囲を選んでコピーし，Rに移って，

dat3 <- read.delim("clipboard")

を実行するとデータをdat3という変数に読み込める。そこで，

str(dat3)

を実行すると，下記の表示が得られ，データ構造がわかる（行番号を削除せずにクリップボード経由で取り込んだ場合は，10変数となって，最後の変数がXとなっていたはずである）。変数COUNTRYは要因型(Factor)で，サンプルサイズと等しい123の水準があるが，国名なので当然である。GINIは所得の不均衡度の指標であるGINIの集中係数を表す数値型(num)の変数である。GDPPCUSDは国民一人当たりGDP（USドル）を示す整数型(int)の変数である。

'data.frame':   123 obs. of  9 variables:
 $ COUNTRY : Factor w/ 123 levels "Albania ","Algeria ",..: 1 2 3 4 5 6 7 8 9 10 ...
 $ GINI    : num  26.7 35.3 48.3 41 35.2 31 36.5 31.8 30.4 25 ...
 $ YEAR.x  : Factor w/ 25 levels "1985","1987",..: 20 8 22 19 7 16 15 14 14 9 ...
 $ LIFEEXP : num  77.6 73.5 76.3 72.1 80.6 ...
 $ YEAR.y  : Factor w/ 1 level "2007 est.": 1 1 1 1 1 1 1 1 1 1 ...
 $ GDPPCUSD: int  5700 7600 15200 5700 33300 34700 7500 2300 8100 33000 ...
 $ YEAR    : Factor w/ 2 levels "2005 est.","2006 est.": 2 2 2 2 2 2 2 2 2 2 ...
 $ RP      : Factor w/ 2 levels "POOR","RICH": 1 1 2 1 2 2 1 1 1 2 ...
 $ EU      : Factor w/ 2 levels "Egaritarian",..: 1 2 2 2 2 1 2 1 1 1 ...

リンクと引用について