画像ファイルから指定した言語でOCRが可能なパッケージの紹介です。画像の解像度により精度が変化しますが文字データの取得には十分実用的です。大変面白いパッケージです。
パッケージバージョンは5.1.0。実行コマンドはR version 4.2.2で確認しています。
パッケージのインストール
下記コマンドを実行してください。
#パッケージのインストール
install.packages("tesseract")
実行コマンド
詳細はコマンド、各パッケージのヘルプを確認してください。
念のためtraining dataのダウンロード先を紹介します。
・training dataのダウンロード
https://tesseract-ocr.github.io/tessdoc/Data-Files
OCR処理の画像は以下の通りです。

#パッケージの読み込み
library("tesseract")
#tesseractの環境を確認:tesseract_infoコマンド
#初期状態のavailableは"eng" "osd"のみです
TessRact <- tesseract_info()
#確認
TessRact
$datapath
[1] "C:\\Users\\ユーザー名\\AppData\\Local\\tesseract5\\tesseract5\\tessdata/"
$available
[1] "eng" "osd"
$version
[1] "5.1.0"
$configs
[1] "alto" "ambigs.train" "api_config" "bigram"
[5] "box.train" "box.train.stderr" "digits" "get.images"
[9] "hocr" "inter" "kannada" "linebox"
[13] "logfile" "lstm.train" "lstmbox" "lstmdebug"
[17] "makebox" "pdf" "quiet" "rebox"
[21] "strokewidth" "tsv" "txt" "unlv"
[25] "wordstrbox"
#tessdata repositoryからtraining dataを取得:tesseract_downloadコマンド
#langオプションに目的とする言語を指定すると自動で保存されます
#なお、一度ダウンロードすると次回は実行しなくともよいです
#以下は自身でダウンロードする場合の参考です
##日本語:https://github.com/tesseract-ocr/tessdata/raw/4.00/jpn.traineddata
##ダウンロード:utils::download.fileコマンド;初期にインストールされています
##download.file(url = "https://github.com/tesseract-##ocr/tessdata/raw/4.00/jpn.traineddata",
## destfile = paste0(TessRact$datapath, "/jpn.traineddata"))
#トレーニングデータの取得と読み込み
tesseract_download(lang = "jpn")
#画像ファイルからテキストを抽出:ocrコマンド
#処理言語を指定:engineオプション
#画像ファイルを指定
OCRImg <- paste0(as.character(tcltk::tkgetOpenFile(title = "画像ファイルを選択",
filetypes = '{"画像ファイル" {".*"}}',
initialfile = "*.*")))
#OCR処理
GetOCR <- ocr(image = OCRImg,
engine = tesseract("jpn"))
#内容確認
cat(GetOCR)
#以下結果;一部読み込みミスがありますが実用的です
NCBIデータベースをRかちら操作するパッケージはいくつか存在しますが、本パッケージはPubMed
データベースから情報を収集するのに特化したパッケージです。かなり簡単に情報を収集すること
が出来ます。
実行コマンドでは検索クエリに"r statistical software"を指定し、取得したデータをGoogleスプレ
ッドシートへアップロードと「xlsx]」 ファイルで保存する例を紹介します。
パッケージバージョンは2.13。実行コマンドはR version 4.2.2で確認しています。
少しでも、あなたの解析が楽になりますように!!