Rと解析:欠損値の情報をGUIで確認「MissingDataGUI」パッケージ

Rの解析に役に立つ記事

パッケージの導入に手こずるかもしれませんが、欠損値の情報を得るのに便利なパッケージの紹介です。Rに慣れているとコマンドの方が楽ですが、面白いので試してみてはいかがでしょうか。

パッケージではグラフをpng、データをcsvやrdaで出力することができます。

パッケージバージョンは0.2-2。実行コマンドはR version 3.2.2で確認しています。

スポンサーリンク
スポンサーリンク

パッケージのインストール

下記、コマンドを実行してください。

#パッケージのインストール
install.packages("RGtk2")
install.packages("MissingDataGUI")

実行コマンド

詳細はコメント、パッケージのヘルプを確認してください。

#パッケージの読み込み
library("MissingDataGUI")
#使用環境がMACでエラーが出た場合
#GTK+ 2.xを下記URLからインストールしてください
#http://r.research.att.com/
#インストール後、再度パッケージをインストールすることで
#エラーが出なくなります

###データ例の作成#####
set.seed(1234)
n <- 10
TestData <- data.frame(Group = sample(paste0("Group", 1:3), n, replace = TRUE),
                       Data1 = sample(c(NA, 1:3), n, replace = TRUE),
                       Data2 = sample(c(NA, 1:2), n, replace = TRUE))
########

#GUIの立ち上げ
MissingDataGUI(TestData)

###以下、参考コマンド#####
#データ内容の確認
TestData
Group Data1 Data2
1  Group1     2    NA
2  Group2     2    NA
3  Group2     1    NA
4  Group2     3    NA
5  Group3     1    NA
6  Group2     3     2
7  Group1     1     1
8  Group1     1     2
9  Group2    NA     2
10 Group2    NA    NA

#要約
summary(TestData)
Group       Data1          Data2     
Group1:3   Min.   :1.00   Min.   :1.00  
Group2:6   1st Qu.:1.00   1st Qu.:1.75  
Group3:1   Median :1.50   Median :2.00  
Mean   :1.75   Mean   :1.75  
3rd Qu.:2.25   3rd Qu.:2.00  
Max.   :3.00   Max.   :2.00  
NA's   :2      NA's   :6   

#グループ,データ毎にNA値の数を検出
GetNA <- vector("list", 2)
for(n in seq(GetNA)){
  
  #NA値の検出
  GetNA[[n]] <- tapply(TestData[, n + 1], TestData[, 1], function(x) sum(is.na(x)))
  #list成分名の付与
  names(GetNA)[n] <- colnames(TestData[n + 1])
  
}
#内容の確認
GetNA
$Data1
Group1 Group2 Group3 
0      2      0 
$Data2
Group1 Group2 Group3 
1      4      1 

GUI表示の例

・全体表示

MissingDataGUI1

・欠損値情報

MissingDataGUI2

・グラフ表示1

MissingDataGUI3

・グラフ表示2

MissingDataGUI_Below10_hist_1

少しでも、あなたの解析が楽になりますように!!

タイトルとURLをコピーしました