欠損値をデータの中央値もしくはランダムフォレスト法による予測値により補完するパッケージです。データの欠損値を補完する方法の一つになるのではないでしょうか。
バージョンは0.0.3。実行コマンドはR version 4.2.2で確認しています。
パッケージのインストール
下記コマンドを実行してください。
#パッケージのインストール
install.packages("imputeMissings")
実行コマンド
詳細はコメント、パッケージヘルプを確認してください。
#パッケージの読み込み
library("imputeMissings")
###データ例の作成#####
set.seed(1234)
n <- 10
TestData <- data.frame(Group = sample(c("Gloup1", "Gloup2", NA), n, replace = TRUE),
Data1 = sample(c(3:10,NA), n, replace = TRUE),
Data2 = as.numeric(sample(c(3:10,NA), n, replace = TRUE)),
Data3 = as.numeric(sample(c(3:10,NA), n, replace = TRUE)))
#内容の確認
TestData
########
#構造の確認
str(TestData)
'data.frame': 10 obs. of 4 variables:
$ Group: Factor w/ 2 levels "Gloup1","Gloup2": 2 NA 2 2 2 NA 2 1 1 NA
$ Data1: int 5 3 3 4 4 5 10 8 4 4
$ Data2: num 4 3 6 10 10 NA 6 NA 8 3
$ Data3: num 9 3 NA 10 7 7 3 8 3 8
########
#NAへのデータ補完:imputコマンド
#補完方法の指定:methodオプション;"median/mode", "randomForest"が指定可能
impute(TestData, method = "median/mode")
Group Data1 Data2 Data3
1 Gloup2 5 4 9
2 Gloup2 3 3 3
3 Gloup2 3 6 7
4 Gloup2 4 10 10
5 Gloup2 4 10 7
6 Gloup2 5 6 7
7 Gloup2 10 6 3
8 Gloup1 8 6 8
9 Gloup1 4 8 3
10 Gloup2 4 3 8
少しでも、あなたの解析が楽になりますように!!