Rとウェブ解析:データフレームから項目名で抽出する例


投稿日: Rの解析に役に立つ記事

データフレームからis.elementを使用し素早くデータを抽出する方法です。is.elementの簡易型は%in%です。

データの準備

適当な項目が思いつきませんでしたので、政府統計の総合窓口より平成23年社会生活基本調査スポーツの表21「スポーツの種類」を使用しています。
政府統計の総合窓口は多くの統計情報が公開されています。

http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do

「スポーツの種類」から総数に示されている項目名だけを抜き出し、オリジナルのDATA1と抜き出す項目名のDATA2を作成しました。
データ抽出イメージ


コマンド

###ライブラリーの読み込み#####
library(XLConnect)
library(tcltk)
#####

###データの読み込み#####
###DATA1#####
sheetSelect <- 1 #読み込むシート番号を入力
selectABook <- paste(as.character(tkgetOpenFile(title = "DATA1ファイルを選択",filetypes = '{"xlsxファイル" {".xlsx"}}',initialfile = "*.xlsx")), sep = "", collapse =" ")
MasterAnaData <- loadWorkbook(selectABook)
Data1 <- readWorksheet(MasterAnaData, sheet = sheetSelect)

###DATA2#####
sheetSelect <- 1 #読み込むシート番号を入力
selectABook <- paste(as.character(tkgetOpenFile(title = "DATA2ファイルを選択",filetypes = '{"xlsxファイル" {".xlsx"}}',initialfile = "*.xlsx")), sep = "", collapse =" ")
MasterAnaData <- loadWorkbook(selectABook)
Data2 <- readWorksheet(MasterAnaData, sheet = sheetSelect)

###データの抽出#####
NewData <- subset(Data1, Data1[, 1] %in% Data2[, 1]) #抽出

###データの確認#####
NewData
                   項目 回数
9  ゴルフ(練習場を含む)    9
10                 柔道   10
11                 剣道   11
16 スキー・スノーボード   16
17     登山・ハイキング   17
18         サイクリング   18
19 ジョギング・マラソン   19

少しでも、ウェブや実験の解析が楽になりますように!!

スポンサードリンク

おすすめコンテンツ


スポンサードリンク