Rで解析:データを区分するのに便利です。「fancycut」パッケージ


データを指定した範囲で区分しラベルを付与するパッケージの紹介です。コマンド例ではラベルにあえて日本語を使用していますが、実際の作業では英語ラベルのほうが管理しやすいと考えます。

データの区分は大変重要です。簡単に作業できる本パッケージはおすすめです。

パッケージバージョンは0.1.1。windows 10のR version 3.3.2で動作を確認しています。

パッケージのインストール

下記コマンドを実行してください。

#パッケージのインストール
install.packages("fancycut")

実行コマンドの紹介

詳細はコマンド、パッケージのヘルプを確認してください。

#パッケージの読み込み
library("fancycut")

###データ例の作成#####
n <- 100
TestData <- data.frame(Group = sample(paste0("Group", 1:5), n, replace = TRUE),
                       Data1 = sample(c(-5:5, NA), n, replace = TRUE))
#内容確認
head(TestData)
   Group Data1
1 Group5     1
2 Group4    NA
3 Group1     5
4 Group5    -2
5 Group3     5
6 Group5     3
#Data1の分布を確認
summary(factor(TestData[, 2]))
-5   -4   -3   -2   -1    0    1    2    3    4    5 NA's
 3    2    5   16    6    5    3   13   12   11   11   13
#######

#データを区分けする:fancycutコマンド
#データを指定:xオプション
#区分け内容を指定:intervalsオプション;[:含める,(:含めない
#ラベルを指定:bucketsオプション
#区分け内容外のラベルを指定:unmatched.bucketオプション
CutLabel <- fancycut(x = TestData[, 2],
                     intervals = c("[-5, -2)", "[-2, 3)", "[3, 5]"),
                     buckets = c("小", "中", "大"),
                     unmatched.bucket = "範囲外")
#内容確認
summary(CutLabel)
小     中     大   <NA> 範囲外 
10     43     34     13      0 
#元データに結合
TestData <- cbind(TestData, CutLabel)
#内容確認
head(TestData)
   Group Data1 CutLabel
1 Group5     1       中
2 Group4    NA     <NA>
3 Group1     5       大
4 Group5    -2       中
5 Group3     5       大
6 Group5     3       大

あなたの解析がとっても楽になりますように!!

スポンサードリンク

おすすめコンテンツ


スポンサードリンク