Rでコマンド:「textreadr」パッケージとdocx, txtファイルを読み込むコマンド

Rの解析に役に立つ記事

docxファイルの読み込みに便利な「textreadr」パッケージとパッケージを使用せずにdocx、txtファイルを読み込むコマンドの紹介です。

「textreadr」パッケージは今後のバージョンアップによりpdfファイルやフォルダ内のtxtファイルを一括で読み込むコマンドが追加されるようです。今後が楽しみなパッケージです。

また、read_docxコマンドを参考にdocx、txtファイルを単独またはフォルダに含まれる全てを読み込むコマンド例を作成しました。なお、txtファイルはエンコードがutf-8以外だと環境によっては文字化けする場合があります。

なお、処理に使用したdocx、txtファイルの内容は下記画像の通りです。

textreadr

パッケージバージョンは0.0.1。実行コマンドはR version 3.2.2で確認しています。


スポンサーリンク
スポンサーリンク

パッケージのインストール

下記、コマンドを実行してください。

#パッケージのインストール
install.packages("pacman")
pacman::p_load_gh("trinker/textreadr")

実行コマンド

詳細はコメント、パッケージのヘルプを確認してください。

#パッケージの読み込み
library("textreadr")
#ファイル選択をGUIで行うために読み込み
library("tcltk")

#docxファイルを読み込み:read_docxコマンド
#読み込まない範囲の最終行を指定:skipオプション;1から指定した範囲を飛ばします,0で全て読み込み
#結果は文字列で返されます
#docxファイルを選択
OpenFile

docx、txtファイルを単独またはフォルダに含まれる全てを読み込む例

doxcファイル処理内容の詳細は実行コマンドを参照ください。なお、フォルダ内に拡張子がdocx及びtxt以外が含まれているとコンソールに該当ファイル名を含むエラーメッセージが表示され処理は中止となります。また、該当ファイルは1処理あたり1つの検出としています。

###パッケージを利用しないでdocx or textファイルを読み込む例#####
#必要パッケージの読み込み
library("tcltk")
install.packages("XML")
library("XML")

###単独で処理#####
#ファイルを選択
file

少しでも、あなたのウェブや実験の解析が楽になりますように!!

タイトルとURLをコピーしました