Rで解析:ワードのテーブルをデータに変換「docxtractr」パッケージ


doxc形式のワードファイルに記述されている表を「リスト形式で読み込む」パッケージの紹介です。Rではパッケージを利用しエクセルを簡単にデータフレームに読み込めましたが、ワードの表をデータにするのは画期的かと思います。

ワードのみデータがあって困っている方は多いかと思います。エクセル等で再入力していた方にオススメのパッケージです。読み込み後のデータはXLConnectやWriteXLSなどのパッケージで出力することでエクセルで再活用できます。

XLConnectやWriteXLSなどの使用方法はからだにいいこと内を検索してみてください。

パッケージのバージョンは0.1.0.9000。R version 3.2.2でコマンドを確認しています。


パッケージのインストール

下記コマンドを実行してください。

#パッケージのインストール
install.packages("docxtractr")

ワードファイルの例

docxtractrtable


実行コマンド

詳細はコマンド、パッケージヘルプを確認してください。

#パッケージの読み込み
library("docxtractr")

#GUIでワードファイルを読み込む
#tcltkパッケージの読み込み
library("tcltk")
ReadDocs <- read_docx(as.character(tkgetOpenFile(title = "ワードファイルを選択", filetypes = '{"ワードファイル" {".docx"}}', initialfile = c("*.docx")))) #ワード文書内のテーブル数を表示:docx_tbl_countコマンド docx_tbl_count(ReadDocs) [1] 2 #ワード文書内のテーブル情報:docx_describe_tblsコマンド docx_describe_tbls(ReadDocs) Word document [ワードファイル保管場所/てすとです.docx] Table 1 total cells: 20 row count : 4 uniform : likely! has header : likely! => possibly [てすと, テスト, DATA1, DATA2, DATA3] Table 2 total cells: 30 row count : 3 uniform : likely! has header : likely! => possibly [T1, T2, T3, T4, T5, T6, T7, T8, T9, T10] #ワード文書内のテーブルをリストに抽出:docx_extract_allコマンド Tbls <- docx_extract_all(ReadDocs) [[1]] Source: local data frame [3 x 5] てすと テスト DATA1 DATA2 DATA3 1 あ ア 1 4 7 2 い イ 2 5 8 3 う ウ 3 6 9 [[2]] Source: local data frame [2 x 10] T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 1 1 2 3 4 5 6 7 8 9 10 2 11 12 13 14 15 16 17 18 19 20 [/code]


少しでも、あなたのウェブや実験の解析が楽になりますように!!

スポンサードリンク

関連コンテンツ


スポンサードリンク