Rで解析:データ集計でよく使う「tidyverse」パッケージのコマンド

データ集計でよく使っている「tidyverse」パッケージのコマンドです。マニアックなことはしていません。数は少ないですが基本的な内容です。

パッケージバージョンは1.2.1。windows 10のR version 3.5.2で動作を確認しています。

パッケージのインストール

下記コマンドを実行してください。

install.packages("tidyverse")

データ例の作成

Rに標準で用意されているirisを変更して使用します。下記コマンドを実行してください。

#tibble&#24418;&#24335;&#12395;&#22793;&#25563;
as.tibble(iris) %>%
&#12288;#id&#24773;&#22577;&#12434;&#20184;&#19982;
  rowid_to_column(var = "ID") %>%
&#12288;#Species&#12395;"_&#33394;&#24773;&#22577;"&#12434;&#20184;&#19982;
  mutate(Species = str_c(Species,
                         c("red", "yellow", "blue"),
                         sep = "_")) %>%
&#12288;#&#21015;&#21517;Species&#12434;"Species_Color"&#12395;&#22793;&#26356;
&#12288;rename("Species_Color" = Species) %>%
&#12288;#&#12487;&#12540;&#12479;&#38918;&#12434;&#22793;&#26356;
  select(ID, Species_Color, everything()) -> TestData

完成データ

データの操作例

①Species_Colorごとの統計量を算出する。

TestData %>%
&#12288;#ID&#12434;&#38500;&#21435;
  select(-ID) %>% 
&#12288;#Species_Color&#12391;&#12464;&#12523;&#12540;&#12503;&#21270; 
  group_by(Species_Color) %>%
&#12288;#&#12487;&#12540;&#12479;&#12434;&#12414;&#12392;&#12417;&#12390;&#20966;&#29702;
  summarise_all(list("Mean" = ~mean(., na.rm = TRUE), #&#24179;&#22343;
                     "sd" = ~sd(., na.rm = TRUE))) %>% #&#27161;&#28310;&#20559;&#24046;
  ungroup() -> PlotData

完成データ

②Spcies_Colorデータを”Species”と”Color”に分割し
“Color” をred,yellow,blueの順序を持つFactorに変換後、 “Species”と”Color” ごとの統計量を算出する。

TestData %>%
  #ID&#12434;&#38500;&#21435;
  select(-ID) %>%
  #Species_Color&#12434;"_"&#12391;&#20998;&#21106;
  separate(Species_Color, into = c("Species", "Color"), sep = "_") %>%
  #Color&#12434;red,blue,yellow&#12398;&#38918;&#24207;&#12434;&#25345;&#12388;Factor&#21270;
&#12288;mutate(Color = factor(Color, c("red", "blue", "yellow"))) %>%
  #Species&#12392;Color&#12391;&#12464;&#12523;&#12540;&#12503;&#21270; 
  group_by(Species, Color) %>%
  #&#12487;&#12540;&#12479;&#12434;&#12414;&#12392;&#12417;&#12390;&#20966;&#29702;
  summarise_all(list("Mean" = ~mean(., na.rm = TRUE), #&#24179;&#22343;
                     "sd" = ~sd(., na.rm = TRUE))) %>% #&#27161;&#28310;&#20559;&#24046;
  ungroup() -> FactorPlotData

完成データ

③TestDataを縦型データにする

TestData %>%
  gather(key = "Label", value = "Value",
&#12288;&#12288;&#12288;&#12288;&#12288;-ID, -Species_Color) -> GatherData

完成データ

④GatherDataを横型データにする

GatherData %>%
  spread(key = Label, value = Value)

少しでも、あなたの解析が楽になりますように！！