Rで解析:データセットのクリーニングに便利です「janitor」パッケージ

Rの解析に役に立つ記事

データ内の欠損値を含むデータの削除、データ名の整形、指定値を欠損値に変換するコマンドが収録されているパッケージの紹介です。

「dplyr」パッケージと組み合わせると、とても便利だと思います。

・Rで解析:data.frameの操作が楽々な「tidyr」パッケージ
 https://www.karada-good.net/analyticsr/r-491/

パッケージバージョンは2.1.0.9000。実行コマンドはR version 4.2.2で確認しています。

スポンサーリンク
スポンサーリンク

パッケージのインストール

下記コマンドを実行してください。

#パッケージのインストール
install.packages("devtools")
devtools::install_github("sfirke/janitor")

実行コマンドの紹介

詳細はコマンド、パッケージのヘルプを確認してください。

#パッケージの読み込み
library("janitor")

###データ例の作成#####
n <- 100
TestData <- data.frame("Group" = sample(paste0("Group", 1:3), n, replace = TRUE),
                       "Data 1" = sample(rnorm(10), n, replace = TRUE),
                       "Data 2" = sample(LETTERS[1:10], n, replace = TRUE))
#欠損値を追加
TestData[50:100,] <- NA
TestData <- cbind(TestData, NAData = NA)
#構造確認
summary(TestData)
   Group               Data.1            Data.2           NAData       
Length:100         Min.   :-1.36203   Length:100         Mode:logical  
Class :character   1st Qu.:-0.72351   Class :character   NA's:100      
Mode  :character   Median : 0.03051   Mode  :character                 
                   Mean   :-0.01202                                    
                   3rd Qu.: 0.63263                                    
                   Max.   : 1.21745                                    
                   NA's   :51      
########

#データ名の重複を無くし,英小文字,文字間はアンダーバーに整形:clean_namesコマンド
CleanNameData <- clean_names(TestData)
#確認
colnames(CleanNameData)
[1] "group"  "data_1" "data_2" "nadata"

#欠損値のみの行を削除:remove_emptyコマンド
#summary(remove_empty(ConvertNADAta))

少しでも、あなたの解析が楽になりますように!!

タイトルとURLをコピーしました