data.frameの欠損値や特定条件の出現率を確認するのに便利なパッケージだと考えます。
パッケージバージョンは0.1.4。windows 10のR version 3.3.2で動作を確認しています。
パッケージのインストール
下記コマンドを実行してください。
#パッケージのインストール install.packages("extdplyr")
コマンドの紹介
詳細はコマンド、各パッケージのヘルプを確認してください。
#パッケージの読み込み
library("extdplyr")
###データ例の作成#####
n <- 15
TestData <- data.frame("Group" = sample(paste0("Group", 1:5), n, replace = TRUE),
"Data1" = sample(c(40:60, NA), n, replace = TRUE),
"Data2" = sample(c(1, NA), n, replace = TRUE),
"LETTERS" = sample(LETTERS[1:24], n, replace = TRUE))
#確認
TestData
Group Data1 Data2 LETTERS
1 Group5 52 NA E
2 Group4 53 NA X
3 Group3 52 1 N
4 Group4 50 1 V
5 Group3 46 1 V
6 Group3 42 1 A
7 Group5 58 1 D
8 Group5 44 NA W
9 Group2 49 NA A
10 Group3 51 NA L
11 Group1 50 NA C
12 Group1 42 1 C
13 Group2 56 1 S
14 Group3 58 1 N
15 Group1 53 NA F
########
#データの欠損値を計算:check_missingコマンド
#数または割合を指定:rep_propオプション;FALSE:個数
check_missing(data = TestData, ret_prop = TRUE)
Group Data1 Data2 LETTERS
1 0 0 0.4666667 0
#抽出条件に適合しているか新規列を追加し判断:grp_routineコマンド
#抽出条件が重なったりNAが含まれているとエラー
grp_routine(data = TestData[complete.cases(TestData),],
col = "Check",
#以降に抽出条件を入力
OK = Data1 > 50,
NO = Data1 <= 50)
Group Data1 Data2 LETTERS Check
1 Group3 52 1 N OK
2 Group4 50 1 V NO
3 Group3 46 1 V NO
4 Group3 42 1 A NO
5 Group5 58 1 D OK
6 Group1 42 1 C NO
7 Group2 56 1 S OK
8 Group3 58 1 N OK
#指定した分類での出現率を表示:pct_routineコマンド
#dataオプション以降に分類を記述
pct_routine(data = TestData, Group, LETTERS)
Group LETTERS pct
<fctr> <fctr> <dbl>
1 Group1 C 0.6666667
2 Group1 F 0.3333333
3 Group2 A 0.5000000
4 Group2 S 0.5000000
5 Group3 A 0.2000000
6 Group3 L 0.2000000
7 Group3 N 0.4000000
8 Group3 V 0.2000000
9 Group4 V 0.5000000
10 Group4 X 0.5000000
11 Group5 D 0.3333333
12 Group5 E 0.3333333
13 Group5 W 0.3333333
[/code]
少しでも、あなたの解析が楽になりますように!!このすば「第7話このふてぶてしい鈍らに招待を!」観ました。アクア様の表情最高です。