Latest update on 2018年3月7日 (水) at 15:42:47.
【第1194回】 特急しなの9号で長野へ向かう途中にRの情報更新(2015年12月30日)
- 6:00起床。レトルトご飯を電子レンジ加熱し,目玉焼き2個と高菜をおかずにして食べた。
- 7:25のバスで神戸駅へ。みどりの窓口で神戸=長野の往復乗車券と,大阪→長野の自由席特急券を買い,8:01の新快速で大阪へ。8:57発しなの9号が出る30分前に着いたが,例によって指定席は満席とのことだが,自由席に並ぶ人は各乗車口数人ずつしかいなかった。予想通り座れたので,6月から更新が滞っていたRについてのnews and tipsのページに,この鵯記から関連情報をピックアップするという作業をしている。京都でいったん満席になったが,米原で降りる人が何人かいて,意外に空席がある(たぶん名古屋で満席になると思うが)。
- 一昨日だったか三中さんのtweetで,Springerの本の多くについて無料でpdfがダウンロードできるようになっていることを知って(世間でもSpringerダウンロード祭り状態になっているようである),昨日までにダウンロードした本をいくつかメモしておく。多すぎてチェックしきれていないので,今後まだ増えると思う。
- pdfのみダウンロードできたのは,Probability, Statistics and Modelling in Public Health,Between People and Statistics,A Topical Dictionary of Statisticsの3冊で,Social Statistics and Ethnic Diversity (2015)とStatistics in Clinical Vaccine Trials (2011)の2冊は,pdfのみならずePubも公開されていた。スマホや電子ブックリーダで読むにはePubの方が良いと思う。
- やはり名古屋で満席になった。が,立っている人はちらほらいるくらいの感じなので,たぶん乗車率は110%くらいだろう。
- ■三重大学の奥村先生の「Data http://link.springer.com/book/10.1007/978-1-4612-5098-2 … 1985年の懐かしい本。有名なIrisのデータなど多数。今となっては紙に印刷したデータなど無意味だが」というtweetを見て,書誌情報を調べてみたら,Andrews DF, Herzberg AM (1985) Data: A Collection of Problems from Many Fields for the Student and Research Worker. Springer, ISBN: 978-1-4612-9563-1 (Print) 978-1-4612-5098-2 (Online) であった。奥村先生は別のtweetで,「 (Springer祭りには関係ないオープンアクセス本) Linked Open Data -- Creating Knowledge Out of Interlinked Data (2014) 」も紹介されていた。この本も面白そうだが,それはさておき。
- ■irisはRにデフォルトで入っているが,他のデータはどうだろうと思って,??"coal-mining"を調べてみたら,boot::coalが表示されたが,Datesが実数で入っているだけだった。英国で大規模な炭鉱災害が起こった日付のデータであり,元の本には西暦の年月日が整数で与えられ,各事故の死者数データも入っているのに残念と思い,「確かに。リンク付でオープンデータになっていて欲しいですね。irisはRのdatasets::irisで使えますが,Coal-Mining Disasterはboot::coalに日付だけ入っていました。他はどうなんでしょう? 」とtweetしてみた。
- ■すると奥村先生が,「さっきの「Data」という本,いちおうpdftotextでテキスト抽出できることを確認。ただ今でいうセル結合したもので,データにするには手作業が必要」「というわけでCoal-Mining Disastersデータを『Data』本からCSV化。Rのboot::coalには死者数が入ってない」というご返事tweetをくださった。
- ■これは凄い! と思ったが,いちいちテキスト抽出するのは大変だし,既に誰かやっているのではないかと思って調べてみた。すると,Exploring Dataという別の本(Amazonでハードカバー2万円くらいする。データそのものはリンク先のサイトからダウンロードできるが)のCompanion siteに,Andrews and Herzbergの"Data"のデータは,ここで提供されていると書かれていた。しかし,喜び勇んでブラウザで開こうとしたら,残念ながら404 Not Foundと,オリジナルは消えていた。
- ■こういうときはミラーアーカイヴを探そう。Googleの検索語としてオリジナルのURLを入れて検索してみたら,それらしいものが見つかり,開いてみたらビンゴであった。このサイトはAnonymous FTPで接続できるサーバにリンクされていて,このページでは各データのhead4行とtail4行を繋いだものが見えるのでイメージしやすい。しかも,ftpなので一括ダウンロードが簡単であった。いくつか開いてみたところ,スペース区切りテキストか固定長テキストにみえるのが若干残念で,できればタブ区切りかコンマ区切りであって欲しかったが,むしろAnonymous FTPで取れるということは,各データへのアクセスインターフェースをパッケージ化できるかもしれないことを意味する。というか,既にあるんじゃないかという気がして仕方がない。このサーバってrcom.univie.ac.atだし。
- ■ダウンロードできるデータがあったことをtweetしたら,奥村先生が「多分同じものが次のところにもありました: Andrews and Herzberg Data Sets」というtweetをしてくださった。確かにデータは同じようだ。こちらのページの方が一覧表としては見やすいと思う。
- ■考えてみれば,Rでデータを選択してダウンロードする関数が書けそうだ。R Consoleならmenu()かselect.list()で選ぶようにすれば良いし,RcmdrやEZRに実装しても便利そうだ。
- 定刻より3分遅れで長野着。平安堂でカレーを食べてから帰宅。
- コタツが動作しないので電源ケーブルを買ってきて欲しいと言われており,ヤマダ電機に行って買ってきたが,やはり動作しなかった。壊れているのは電源ケーブルではなく,本体というか赤外線照射ユニットの方であったらしい。ヤマダ電機にはその部分も部品として売られていたが,そこまでいくと本体ごと買い換えるのと大差ないかもしれない。
- 長野の家ではWOWOWを契約しているのでCDJ1516を見ることができたのだが,残念なことにリトグリはもう終わってしまったようだった。しかしYouTubeに凄い演奏があることに気づいた。神業か。
- 米を炊き,キャベツとウインナーのスープを作って晩飯。風呂を洗って入浴剤を入れてゆっくり風呂に入った。やはり狭くて深い神戸の職員宿舎の風呂よりも,こっちの広くて浅い風呂の方が入り心地が良い。
△Read/Write COMMENTS
▼前【1193】(supervising(2015年12月29日)
) ▲次【1195】(忙しい大晦日(2015年12月31日)
) ●Top
Notice to cite or link here | [TOP PAGE]