Rで解析:文書ファイルの読み込みが便利「textreadr」パッケージ


ワードファイル、テキストファイル、テキスト付きのPDFファイルを簡単にRへ取り込むことができるパッケージの紹介です。URLアドレスを指定し読み込むことも可能なので便利だと思います。

パッケージバージョンは0.3.0。windows 10のR version 3.3.2で動作を確認しています。

パッケージのインストール

下記コマンドを実行してください。

#パッケージのインストール
install.packages("textreadr")

実行コマンドの紹介

詳細はコマンド、パッケージのヘルプを確認してください。

#パッケージの読み込み
library("textreadr")

#アドレスを指定してファイルをダウンロード:downloadコマンド
#アドレスを設定:urlオプション
#保存場所を指定:locオプション;初期値:tempdir()
#Rで解析:頻度が高い?20のグラフィックスパラメータのまとめ
#https://www.karada-good.net/analyticsr/r-91
#で紹介しているPDFを作業フォルダに保存
download(url = "https://www.karada-good.net/wp/wp-content/uploads/2015/05/GraphicalParameters.pdf",
         loc = paste(as.character(tcltk::tkchooseDirectory(title = "ファイルの保存場所を選択"),
                                  sep = "", collapse ="")))

#指定フォルダ内の全文書ファイルを読込む:read_dirコマンド
ReadTxt <- read_dir(path = setwd(paste(as.character(tcltk::tkchooseDirectory(title = "フォルダを選択"),
                                                    sep = "", collapse =""))))
#確認
head(ReadTxt)
document                                         content
1 GraphicalParameters   コマンド例                                   
2 GraphicalParameters                          x <- rep(seq(1, 5), 5)
3 GraphicalParameters                 y <- sort(x, decreasing = TRUE)
4 GraphicalParameters        plot(x, y, pch = 1:25, xlim = c(1, 6), a
5 GraphicalParameters    xlab = "シンボルの種類", ylab = "", cex = 2.
6 GraphicalParameters                         text(x + 0.2, y , 1:25)
.                 ...                                      ... 

#指定した文書ファイルを読み込む:read_documentコマンド
#抽出したテキストを結合:combineオプション;TRUEで結合
ReadDoc <- read_document(file = paste0(as.character(tcltk::tkgetOpenFile(title = "ファイルを選択",
                                                                         filetypes = '{"文書ファイル" {".doc" | ".docx" | ".txt" | ".pdf"}}',
                                                                         initialfile = c("*.*"))), collapse = " "),
                         combine = FALSE)
#内容確認
length(ReadDoc)
[1] 109
ReadDoc[5]
[1] "   xlab = \"シンボルの種類\", ylab = \"\", cex = 2.5, col = \"red\")"

あなたの解析がとっても楽になりますように!!

スポンサードリンク

おすすめコンテンツ


スポンサードリンク