Rで解析:ワードのテーブルをデータに変換「docxtractr」パッケージ

Rの解析に役に立つ記事

doxc形式のワードファイルに記述されている表を「リスト形式で読み込む」パッケージの紹介です。Rではパッケージを利用しエクセルを簡単にデータフレームに読み込めましたが、ワードの表をデータにするのは画期的かと思います。

ワードのみデータがあって困っている方は多いかと思います。エクセル等で再入力していた方にオススメのパッケージです。読み込み後のデータはXLConnectやWriteXLSなどのパッケージで出力することでエクセルで再活用できます。

パッケージのバージョンは0.6.5。実行コマンドはwindows 11のR version 4.1.2で確認しています。


スポンサーリンク
スポンサーリンク

パッケージのインストール

下記コマンドを実行してください。

#パッケージのインストール
install.packages("docxtractr")

ワードファイルの表の例

docxtractrtable

実行コマンド

詳細はコマンド、パッケージヘルプを確認してください。

#GUIでワードファイルを読み込む
#tcltkパッケージの読み込み
library("tcltk")
ReadDocs <- read_docx(as.character(tkgetOpenFile(title = "ワードファイルを選択",
                                                    filetypes = '{"ワードファイル" {".docx"}}',
                                                    initialfile = c("*.docx"))))

#ワード文書内のテーブル数を表示:docx_tbl_countコマンド
docx_tbl_count(ReadDocs)
[1] 2

#ワード文書内のテーブル情報:docx_describe_tblsコマンド
docx_describe_tbls(ReadDocs)
Word document [ワードファイル保管場所/てすとです.docx]

Table 1
total cells: 20
row count  : 4
uniform    : likely!
  has header : likely! => possibly [てすと, テスト, DATA1, DATA2, DATA3]

Table 2
total cells: 30
row count  : 3
uniform    : likely!
  has header : likely! => possibly [T1, T2, T3, T4, T5, T6, T7, T8, T9, T10]

#ワード文書内のテーブルをリストに抽出:docx_extract_allコマンド
Tbls <- docx_extract_all(ReadDocs)
[[1]]
Source: local data frame [3 x 5]

てすと テスト DATA1 DATA2 DATA3
1     あ     ア    1    4    7
2     い     イ    2    5    8
3     う     ウ    3    6    9

[[2]]
Source: local data frame [2 x 10]

T1 T2 T3 T4 T5 T6 T7 T8 T9 T10
1  1  2  3  4  5  6  7  8  9  10
2 11 12 13 14 15 16 17 18 19  20

少しでも、あなたの解析が楽になりますように!!

タイトルとURLをコピーしました