Rで解析：文字列データからクラスと構造を整える！「iotools」パッケージ

Rのデータハンドリングは利用パッケージに合わせた「データのクラスや構造」に注意が必要です。パッケージヘルプのデータではうまく動くのに、自身で準備したデータでは期待した結果が出力されない。そんな経験はないでしょうか。

そんな場合は、strコマンドで用意したデータの構造を確認後、as.numericやas.integerなどのコマンドでクラスを変更で解決することが多いです。でも、できればデータの準備時に「データの構造やクラスは整えたい」ものです。

データの構造やクラスを整えるパッケージはいくつかありますが、「文字列データからクラスと構造を整える」ちょっと変わった「iotools」パッケージを紹介します。

パッケージのバージョンは0.1-22。R version 3.2.1でコマンドを確認しています。

パッケージのインストール

下記コマンドを実行してください。

#パッケージのインストール
install.packages("iotools")

実行コマンドの紹介

詳細はコメント、パッケージヘルプを確認してください。紹介していませんがread.csv.rawコマンドは使用環境によりRごと落ちるかもしれません。ファイルの読み込みは他パッケージの利用をオススメします。

#&#12497;&#12483;&#12465;&#12540;&#12472;&#12398;&#35501;&#12415;&#36796;&#12415;
library("iotools")

#&#25991;&#23383;&#21015;&#12363;&#12425;&#34892;&#21015;&#12434;&#20316;&#25104;:.default.formatter&#12467;&#12510;&#12531;&#12489;
#\t&#12391;&#34892;&#21517;&#12392;&#12487;&#12540;&#12479;&#12434;&#21306;&#21029;,&#12487;&#12540;&#12479;&#12399;|&#12391;&#21306;&#20999;&#12426;&#12414;&#12377;
TestData <- c("&#12390;&#12377;&#12392;\tB|3|D", "&#12390;&#12377;&#12392;2\tB|3|B", "&#12390;&#12377;&#12392;\tA|1|E")
.default.formatter(TestData)
[,1] [,2] [,3]
&#12390;&#12377;&#12392;  "B"  "3"  "D" 
&#12390;&#12377;&#12392;2 "B"  "3"  "B" 
&#12390;&#12377;&#12392;  "A"  "1"  "E"
#&#20197;&#19979;matrix&#12467;&#12510;&#12531;&#12489;&#12392;&#21516;&#12376;
matrix(c("B", "B", "A", "3", "3", "1", "D", "B", "E"), nrow = 3, ncol = 3,
       dimnames = list(c("&#12390;&#12377;&#12392;", "&#12390;&#12377;&#12392;2", "&#12390;&#12377;&#12392;")))

#&#12487;&#12540;&#12479;&#12398;&#12463;&#12521;&#12473;&#12434;&#25351;&#23450;&#12375;&#12487;&#12540;&#12479;&#12501;&#12524;&#12540;&#12512;&#12434;&#20316;&#25104;:dstrsplit&#12467;&#12510;&#12531;&#12489;
#&#12487;&#12540;&#12479;&#20363;&#12398;&#20316;&#25104;
#\t&#12391;&#34892;&#21517;&#12392;&#12487;&#12540;&#12479;&#12434;&#21306;&#21029;,&#12487;&#12540;&#12479;&#12399;|&#12391;&#21306;&#20999;&#12426;&#12414;&#12377;
TestData = c("&#12471;&#12515;&#12540;&#12525;&#12483;&#12488;\t5|2.7|&#21451;&#21033;|0d|1|2015-02-05 20:22:57",
             "&#21270;&#29289;&#35486;\t7|3e3|&#31070;&#21407;|e4|1+3i|2015-02-05",
             "&#12384;&#12435;&#12414;&#12385;\te|1.8|&#12504;&#12473;&#12486;&#12451;&#12450;|77|4.2i|2001-02-05")
#&#12463;&#12521;&#12473;&#12398;&#25351;&#23450;:col_types&#12458;&#12503;&#12471;&#12519;&#12531;
#"character", "numeric", "logical", "integer", "complex", "raw", "POSIXct"&#12364;&#25351;&#23450;&#21487;&#33021;
TDF <-  dstrsplit(x = TestData, sep = "|", nsep = "\t",
                  col_types = c("integer", "numeric", "character", "raw", "complex", "POSIXct"))
#&#12487;&#12540;&#12479;&#27083;&#36896;&#12398;&#30906;&#35469;
str(TDF)
'data.frame':	3 obs. of  7 variables:
  $ rowindex: chr  "&#12471;&#12515;&#12540;&#12525;&#12483;&#12488;" "&#21270;&#29289;&#35486;" "&#12384;&#12435;&#12414;&#12385;"
$ V1      : int  5 7 NA
$ V2      : num  2.7 3000 1.8
$ V3      : chr  "&#21451;&#21033;" "&#31070;&#21407;" "&#12504;&#12473;&#12486;&#12451;&#12450;"
$ V4      : raw  0d e4 77
$ V5      : cplx  1+0i 1+3i 0+4.2i
$ V6      : POSIXct, format: "2015-02-05 20:22:57" "2015-02-05 00:00:00" "2001-02-05 00:00:00"

#tapply&#12467;&#12510;&#12531;&#12489;&#12398;&#39640;&#36895;&#29256;:ctapply&#12467;&#12510;&#12531;&#12489;
#&#20006;&#12403;&#26367;&#12360;&#12434;&#23455;&#34892;&#12377;&#12427;&#12398;&#12364;&#12509;&#12452;&#12531;&#12488;&#12391;&#12377;
#&#12487;&#12540;&#12479;&#20363;&#12398;&#20316;&#25104;
i = rnorm(4e6)
names(i) = as.integer(rnorm(1e6))
#&#20006;&#12403;&#26367;&#12360;
i = i[order(names(i))]
#tapply&#12467;&#12510;&#12531;&#12489;&#20966;&#29702;&#36895;&#24230;
system.time(tapply(i, names(i), sum))
&#12518;&#12540;&#12470;   &#12471;&#12473;&#12486;&#12512;       &#32076;&#36942;  
0.383      0.039      0.422 
#ctapply&#12467;&#12510;&#12531;&#12489;&#20966;&#29702;&#36895;&#24230;
system.time(ctapply(i, names(i), sum))
&#12518;&#12540;&#12470;   &#12471;&#12473;&#12486;&#12512;       &#32076;&#36942;  
0.027      0.003      0.031

少しでも、あなたのウェブや実験の解析が楽になりますように！！