Rで解析：文書ファイルの読み込みが便利「textreadr」パッケージ

ワードファイル、テキストファイル、テキスト付きのPDFファイルを簡単にRへ取り込むことができるパッケージの紹介です。URLアドレスを指定し読み込むことも可能なので便利だと思います。

パッケージバージョンは0.3.0。windows 10のR version 3.3.2で動作を確認しています。

パッケージのインストール

下記コマンドを実行してください。

#パッケージのインストール
install.packages("textreadr")

実行コマンド

詳細はコマンド、パッケージのヘルプを確認してください。

#&#12497;&#12483;&#12465;&#12540;&#12472;&#12398;&#35501;&#12415;&#36796;&#12415;
library("textreadr")

#&#12450;&#12489;&#12524;&#12473;&#12434;&#25351;&#23450;&#12375;&#12390;&#12501;&#12449;&#12452;&#12523;&#12434;&#12480;&#12454;&#12531;&#12525;&#12540;&#12489;:download&#12467;&#12510;&#12531;&#12489;
#&#12450;&#12489;&#12524;&#12473;&#12434;&#35373;&#23450;:url&#12458;&#12503;&#12471;&#12519;&#12531;
#&#20445;&#23384;&#22580;&#25152;&#12434;&#25351;&#23450;:loc&#12458;&#12503;&#12471;&#12519;&#12531;;&#21021;&#26399;&#20516;:tempdir()
#R&#12391;&#35299;&#26512;&#65306;&#38971;&#24230;&#12364;&#39640;&#12356;&#65311;20&#12398;&#12464;&#12521;&#12501;&#12451;&#12483;&#12463;&#12473;&#12497;&#12521;&#12513;&#12540;&#12479;&#12398;&#12414;&#12392;&#12417;
#https://www.karada-good.net/analyticsr/r-91
#&#12391;&#32057;&#20171;&#12375;&#12390;&#12356;&#12427;PDF&#12434;&#20316;&#26989;&#12501;&#12457;&#12523;&#12480;&#12395;&#20445;&#23384;
download(url = "https://www.karada-good.net/wp/wp-content/uploads/2015/05/GraphicalParameters.pdf",
         loc = paste(as.character(tcltk::tkchooseDirectory(title = "&#12501;&#12449;&#12452;&#12523;&#12398;&#20445;&#23384;&#22580;&#25152;&#12434;&#36984;&#25246;"),
                                  sep = "", collapse ="")))

#&#25351;&#23450;&#12501;&#12457;&#12523;&#12480;&#20869;&#12398;&#20840;&#25991;&#26360;&#12501;&#12449;&#12452;&#12523;&#12434;&#35501;&#36796;&#12416;:read_dir&#12467;&#12510;&#12531;&#12489;
ReadTxt <- read_dir(path = setwd(paste(as.character(tcltk::tkchooseDirectory(title = "&#12501;&#12457;&#12523;&#12480;&#12434;&#36984;&#25246;"),
                                                    sep = "", collapse =""))))
#&#30906;&#35469;
head(ReadTxt)

#&#25351;&#23450;&#12375;&#12383;&#25991;&#26360;&#12501;&#12449;&#12452;&#12523;&#12434;&#35501;&#12415;&#36796;&#12416;:read_document&#12467;&#12510;&#12531;&#12489;
#&#25277;&#20986;&#12375;&#12383;&#12486;&#12461;&#12473;&#12488;&#12434;&#32080;&#21512;:combine&#12458;&#12503;&#12471;&#12519;&#12531;;TRUE&#12391;&#32080;&#21512;
ReadDoc <- read_document(file = paste0(as.character(tcltk::tkgetOpenFile(title = "&#12501;&#12449;&#12452;&#12523;&#12434;&#36984;&#25246;",
                                                                         filetypes = '{"&#25991;&#26360;&#12501;&#12449;&#12452;&#12523;" {".doc" | ".docx" | ".txt" | ".pdf"}}',
                                                                         initialfile = c("*.*"))), collapse = " "),
                         combine = FALSE)
#&#20869;&#23481;&#30906;&#35469;
length(ReadDoc)
[1] 109
ReadDoc[5]
[1] "   xlab = \"&#12471;&#12531;&#12508;&#12523;&#12398;&#31278;&#39006;\", ylab = \"\", cex = 2.5, col = \"red\")"

あなたの解析が少しでも楽になりますように！！