Rでお遊び:文字列の言語を判断「franc」パッケージ

Rの解析に役に立つ記事
スポンサーリンク

パッケージに収録されている335言語(Descriptionより)から、指定した文字列の言語を判断するパッケージです。なお、文字コードの判断ではありません。

同名のJavaScriptも開発されています。興味のある方はご覧ください。何か発見があるかもしれません。
https://github.com/wooorm/franc

パッケージバージョンは1.1.1。実行コマンドはR version 3.2.2で確認しています。


スポンサーリンク

パッケージのインストール

下記、コマンドを実行してください。

[code language=”R”]
#パッケージのインストール
install.packages(“franc”)
[/code]

実行コマンド

詳細はコメント、パッケージのヘルプを確認してください。

[code language=”R”]
#パッケージの読み込み
library(“franc”)

#文字列の言語を判断:francコマンド
#判断する最小の文字数:min_lengthオプション;初期値は10
#設定文字数より短いと”und”[undefined]が返されます
franc(“Rとアニメはからだにいいもの”)
[1] “jpn”
#短い場合
franc(“からだにいいもの”)
[1] “und”

#パッケージでサポートしてる310言語と比較:franc_allコマンド
#良い例が思いつかなかったので公式ページより
#https://github.com/mangothecat/franc
head(franc_all(“O Brasil caiu 26 posições”))
language score
1 por 1.0000000
2 src 0.8800937
3 glg 0.8702576
4 snn 0.8637002
5 bos 0.8168618
6 hrv 0.8103044
[/code]


少しでも、あなたのウェブや実験の解析が楽になりますように!!

Amazon audibleの登録の紹介

プライム会員限定で2024年7月22日まで3か月無料体験キャンペーン開催中です。無料体験後は月額1,500円で聞き放題です。なお、聞き放題対象外の本はAudible会員であれば非会員価格の30%引きで購入することが可能です。

Amazon audibleはプロのナレーターが朗読した本をアプリで聞くことができるサービスで、オフライン再生も可能です。通勤や作業のお供にAmazon audibleのご登録はいかがでしょうか。

・AmazonのAudible

https://amzn.to/3L4FI5o

タイトルとURLをコピーしました