データを指定した範囲で区分しラベルを付与するパッケージの紹介です。データの区分は大変重要です。簡単に作業できる「fancycut」パッケージはおすすめです。
パッケージバージョンは0.1.2。実行コマンドはwindows 11のR version 4.1.2で確認しています。
パッケージのインストール
下記コマンドを実行してください。
#パッケージのインストール
install.packages("fancycut")
実行コマンドの紹介
詳細はコマンド、パッケージのヘルプを確認してください。
#パッケージの読み込み
library("fancycut")
###データ例の作成#####
set.seed(220306)
n <- 100
TestData <- data.frame(Group = sample(paste0("Group", 1:5), n, replace = TRUE),
Data1 = sample(c(-5:5, NA), n, replace = TRUE))
#内容確認
head(TestData)
# Group Data1
#1 Group4 2
#2 Group2 -3
#3 Group2 0
#4 Group4 4
#5 Group5 -1
#6 Group1 3
#Data1の分布を確認
summary(factor(TestData[, 2]))
#-5 -4 -3 -2 -1 0 1 2 3 4 5 NA's
#6 10 13 8 4 9 8 11 7 7 6 11
#######
#データを区分けする:wafflecutコマンド
#データを指定:xオプション
#区分け内容を指定:intervalsオプション;[:含める,(:含めない
#ラベルを指定:bucketsオプション
#区分け内容外のラベルを指定:unmatched.bucketオプション
CutLabel <- wafflecut(x = TestData[, 2],
intervals = c("[-5, -2)", "[-2, 3)", "[3, 5]"),
buckets = c("小", "中", "大"),
unmatched.bucket = "範囲外")
#内容確認
summary(CutLabel)
#小 中 大 <NA> 範囲外
#29 40 20 0 11
#元データに結合
TestData <- cbind(TestData, CutLabel)
#内容確認
head(TestData)
# Group Data1 CutLabel
#1 Group4 2 中
#2 Group2 -3 小
#3 Group2 0 中
#4 Group4 4 大
#5 Group5 -1 中
#6 Group1 3 大
あなたの解析がとっても楽になりますように!!