文字列データの傾向把握に便利なパッケージの紹介です。収録されているコマンドからCommonPattコマンドを紹介します。
パッケージバージョンは0.3.2。windows 10のR version 4.2.2で動作を確認しています。
パッケージのインストール
下記コマンドを実行してください。
#パッケージのインストール
install.packages("GrpString")
実行コマンドの紹介
詳細はコマンド、パッケージのヘルプを確認してください。
#パッケージの読み込み
library("GrpString")
###データ例の作成#####
TestVec <- c("Rはからだにいいもの",
"アニメもいいもの", "いいものアニメもいいもの")
#######
#文字列データの出現パターンを計算:CommonPattコマンド
#データを指定:strings.vecオプション
#出現率を指定:lowオプション;0-100の範囲
Data <- CommonPatt(strings.vec = TestVec, low = 60)
#確認
#Percent_totalの上位5位
#Freq_total:総出現数
#Percent_total:出現割合;Freq_total/データ数
#Length:文字列の長さ
#Freq_str:各データのパターン重複を除く
#Percent_str:パターン重複を除く出現割合;Freq_str/データ数
head(Data[order(Data[, 3]),])
# Pattern Freq_total Percent_total Length Freq_str Percent_str
#16 いいもの 4 133.33% 4 3 100.00%
#15 いいも 4 133.33% 3 3 100.00%
#25 いもの 4 133.33% 3 3 100.00%
#14 アニメもいいもの 2 66.67% 8 2 66.67%
#13 アニメもいいも 2 66.67% 7 2 66.67%
#51 ニメもいいもの 2 66.67% 7 2 66.67%
あなたの解析が少しでも楽になりますように!!