Rでお遊び:文字列の言語を判断「franc」パッケージ


投稿日: Rの解析に役に立つ記事

パッケージに収録されている335言語(Descriptionより)から、指定した文字列の言語を判断するパッケージです。なお、文字コードの判断ではありません。

同名のJavaScriptも開発されています。興味のある方はご覧ください。何か発見があるかもしれません。
https://github.com/wooorm/franc

パッケージバージョンは1.1.1。実行コマンドはR version 3.2.2で確認しています。


パッケージのインストール

下記、コマンドを実行してください。

#パッケージのインストール
install.packages("franc")

実行コマンド

詳細はコメント、パッケージのヘルプを確認してください。

#パッケージの読み込み
library("franc")

#文字列の言語を判断:francコマンド
#判断する最小の文字数:min_lengthオプション;初期値は10
#設定文字数より短いと"und"[undefined]が返されます
franc("Rとアニメはからだにいいもの")
[1] "jpn"
#短い場合
franc("からだにいいもの")
[1] "und"

#パッケージでサポートしてる310言語と比較:franc_allコマンド
#良い例が思いつかなかったので公式ページより
#https://github.com/mangothecat/franc
head(franc_all("O Brasil caiu 26 posições"))
  language     score
1      por 1.0000000
2      src 0.8800937
3      glg 0.8702576
4      snn 0.8637002
5      bos 0.8168618
6      hrv 0.8103044

少しでも、あなたのウェブや実験の解析が楽になりますように!!

スポンサードリンク

おすすめコンテンツ


スポンサードリンク