sudo apt -y update sudo apt -y install r-base-core sudo apt -y install mecab-utils mecab-ipadic-utf8 mecab-ipadic-utf8 libmecab-dev
URL: https://github.com/IshidaMotohiro/RMeCab
使用条件等は利用者で確認すること.
R library(RMeCab) a <- RMeCabC("これは、ただの鯖です") a q()
wget https://www.kkaneko.jp/ai/nlp/article.txt R library(RMeCab) a <- RMeCabText("article.txt") a q()
ファイルの中に含まれるタームの頻度.日本国憲法前文について.
wget https://www.kkaneko.jp/ai/nlp/article.txt R library(RMeCab) a <- RMeCabFreq("article.txt") a q()
あるディレクトリの中のファイルすべてについて term frequency を求める. 日本国憲法の 12 のファイル(前文と章でファイルが分かれている).
mkdir /tmp/hoge cd /tmp/hoge rm -f /tmp/hoge/* wget https://www.kkaneko.jp/ai/nlp/article.txt wget https://www.kkaneko.jp/ai/nlp/chapter1.txt wget https://www.kkaneko.jp/ai/nlp/chapter2.txt wget https://www.kkaneko.jp/ai/nlp/chapter3.txt wget https://www.kkaneko.jp/ai/nlp/chapter4.txt wget https://www.kkaneko.jp/ai/nlp/chapter5.txt wget https://www.kkaneko.jp/ai/nlp/chapter6.txt wget https://www.kkaneko.jp/ai/nlp/chapter7.txt wget https://www.kkaneko.jp/ai/nlp/chapter8.txt wget https://www.kkaneko.jp/ai/nlp/chapter9.txt wget https://www.kkaneko.jp/ai/nlp/chapter10.txt wget https://www.kkaneko.jp/ai/nlp/chapter11.txt R library(RMeCab) a <- docMatrix("/tmp/hoge", pos=c("名詞", "動詞", "形容動詞"), weight="tf") write.table(a, file="/tmp/a", sep=",") q() more /tmp/a
あるディレクトリの中のファイルすべてについて term frequency を求める. 日本国憲法の 12 のファイル(前文と章でファイルが分かれている).
mkdir /tmp/hoge cd /tmp/hoge rm -f /tmp/hoge/* wget https://www.kkaneko.jp/ai/nlp/article.txt wget https://www.kkaneko.jp/ai/nlp/chapter1.txt wget https://www.kkaneko.jp/ai/nlp/chapter2.txt wget https://www.kkaneko.jp/ai/nlp/chapter3.txt wget https://www.kkaneko.jp/ai/nlp/chapter4.txt wget https://www.kkaneko.jp/ai/nlp/chapter5.txt wget https://www.kkaneko.jp/ai/nlp/chapter6.txt wget https://www.kkaneko.jp/ai/nlp/chapter7.txt wget https://www.kkaneko.jp/ai/nlp/chapter8.txt wget https://www.kkaneko.jp/ai/nlp/chapter9.txt wget https://www.kkaneko.jp/ai/nlp/chapter10.txt wget https://www.kkaneko.jp/ai/nlp/chapter11.txt R library(RMeCab) a <- docMatrix2("/tmp/hoge", pos=c("名詞", "動詞", "形容動詞"), weight="tf") write.table(a, file="/tmp/a", sep=",") q() more /tmp/a
weight="" のところは "tf*idf*norm" のように指定できる
あるディレクトリの中のファイルすべてについて求める. 日本国憲法の 12 のファイル(前文と章でファイルが分かれている).
mkdir /tmp/hoge cd /tmp/hoge rm -f /tmp/hoge/* wget https://www.kkaneko.jp/ai/nlp/article.txt wget https://www.kkaneko.jp/ai/nlp/chapter1.txt wget https://www.kkaneko.jp/ai/nlp/chapter2.txt wget https://www.kkaneko.jp/ai/nlp/chapter3.txt wget https://www.kkaneko.jp/ai/nlp/chapter4.txt wget https://www.kkaneko.jp/ai/nlp/chapter5.txt wget https://www.kkaneko.jp/ai/nlp/chapter6.txt wget https://www.kkaneko.jp/ai/nlp/chapter7.txt wget https://www.kkaneko.jp/ai/nlp/chapter8.txt wget https://www.kkaneko.jp/ai/nlp/chapter9.txt wget https://www.kkaneko.jp/ai/nlp/chapter10.txt wget https://www.kkaneko.jp/ai/nlp/chapter11.txt R library(RMeCab) a <- docMatrix("/tmp/hoge", pos=c("名詞", "動詞", "形容動詞"), weight="tf*idf") write.table(a, file="/tmp/a", sep=",") q() more /tmp/a
あるディレクトリの中のファイルすべてについて求める. 日本国憲法の 12 のファイル(前文と章でファイルが分かれている).
mkdir /tmp/hoge cd /tmp/hoge rm -f /tmp/hoge/* wget https://www.kkaneko.jp/ai/nlp/article.txt wget https://www.kkaneko.jp/ai/nlp/chapter1.txt wget https://www.kkaneko.jp/ai/nlp/chapter2.txt wget https://www.kkaneko.jp/ai/nlp/chapter3.txt wget https://www.kkaneko.jp/ai/nlp/chapter4.txt wget https://www.kkaneko.jp/ai/nlp/chapter5.txt wget https://www.kkaneko.jp/ai/nlp/chapter6.txt wget https://www.kkaneko.jp/ai/nlp/chapter7.txt wget https://www.kkaneko.jp/ai/nlp/chapter8.txt wget https://www.kkaneko.jp/ai/nlp/chapter9.txt wget https://www.kkaneko.jp/ai/nlp/chapter10.txt wget https://www.kkaneko.jp/ai/nlp/chapter11.txt R library(RMeCab) a <- docMatrix("/tmp/hoge", pos=c("名詞", "動詞", "形容動詞"), weight="tf*idf") b <- docMatrix("/tmp/hoge", pos=c("名詞", "動詞", "形容動詞"), weight="tf") c = a / b apply( ifelse(is.nan(c), 0, c), 1, max ) write.table(c, file="/tmp/c", sep=",") q() more /tmp/a
あるディレクトリの中のファイルすべてについて求める. 日本国憲法の 12 のファイル(前文と章でファイルが分かれている).
mkdir /tmp/hoge cd /tmp/hoge rm -f /tmp/hoge/* wget https://www.kkaneko.jp/ai/nlp/article.txt wget https://www.kkaneko.jp/ai/nlp/chapter1.txt wget https://www.kkaneko.jp/ai/nlp/chapter2.txt wget https://www.kkaneko.jp/ai/nlp/chapter3.txt wget https://www.kkaneko.jp/ai/nlp/chapter4.txt wget https://www.kkaneko.jp/ai/nlp/chapter5.txt wget https://www.kkaneko.jp/ai/nlp/chapter6.txt wget https://www.kkaneko.jp/ai/nlp/chapter7.txt wget https://www.kkaneko.jp/ai/nlp/chapter8.txt wget https://www.kkaneko.jp/ai/nlp/chapter9.txt wget https://www.kkaneko.jp/ai/nlp/chapter10.txt wget https://www.kkaneko.jp/ai/nlp/chapter11.txt R library(RMeCab) a <- docMatrix("/tmp/hoge", pos=c("名詞", "動詞", "形容動詞"), co=1) write.table(a, file="/tmp/a", sep=",") q() more /tmp/a