doxc形式のワードファイルに記述されている表を「リスト形式で読み込む」パッケージの紹介です。Rではパッケージを利用しエクセルを簡単にデータフレームに読み込めましたが、ワードの表をデータにするのは画期的かと思います。
ワードのみデータがあって困っている方は多いかと思います。エクセル等で再入力していた方にオススメのパッケージです。読み込み後のデータはXLConnectやWriteXLSなどのパッケージで出力することでエクセルで再活用できます。
パッケージのバージョンは0.6.5。実行コマンドはwindows 11のR version 4.1.2で確認しています。
パッケージのインストール
下記コマンドを実行してください。
#パッケージのインストール
install.packages("docxtractr")
ワードファイルの表の例
実行コマンド
詳細はコマンド、パッケージヘルプを確認してください。
#GUIでワードファイルを読み込む
#tcltkパッケージの読み込み
library("tcltk")
ReadDocs <- read_docx(as.character(tkgetOpenFile(title = "ワードファイルを選択",
filetypes = '{"ワードファイル" {".docx"}}',
initialfile = c("*.docx"))))
#ワード文書内のテーブル数を表示:docx_tbl_countコマンド
docx_tbl_count(ReadDocs)
[1] 2
#ワード文書内のテーブル情報:docx_describe_tblsコマンド
docx_describe_tbls(ReadDocs)
Word document [ワードファイル保管場所/てすとです.docx]
Table 1
total cells: 20
row count : 4
uniform : likely!
has header : likely! => possibly [てすと, テスト, DATA1, DATA2, DATA3]
Table 2
total cells: 30
row count : 3
uniform : likely!
has header : likely! => possibly [T1, T2, T3, T4, T5, T6, T7, T8, T9, T10]
#ワード文書内のテーブルをリストに抽出:docx_extract_allコマンド
Tbls <- docx_extract_all(ReadDocs)
[[1]]
Source: local data frame [3 x 5]
てすと テスト DATA1 DATA2 DATA3
1 あ ア 1 4 7
2 い イ 2 5 8
3 う ウ 3 6 9
[[2]]
Source: local data frame [2 x 10]
T1 T2 T3 T4 T5 T6 T7 T8 T9 T10
1 1 2 3 4 5 6 7 8 9 10
2 11 12 13 14 15 16 17 18 19 20
少しでも、あなたの解析が楽になりますように!!