Juman++ を使ってみる(Google Colab あるいは Ubuntu 上)
形態素解析は、文章を形態素に分割し、それぞれの品詞等を判定すること.
Juman++ は,次のURLで公開されている形態素解析のソフトウェア.利用条件等は利用者自身で確認すること.
Google Colab へのリンク
Google Colaboratory のページ:
次のリンクをクリックすると,Google Colaboratory のノートブックが開く. そして,Google アカウントでログインすると,Google Colaboratory のノートブック内のコード等を編集したり再実行したりができる.編集した場合でも,他の人に影響が出たりということはない.そして,編集後のものを,各自の Google ドライブ内に保存することもできる.
https://colab.research.google.com/drive/1crvKLXzky5IX4xAmZiLJdvsyPu6VReqK?usp=sharing
前準備
pip と setuptools と venv の更新,Python 開発環境,Python コンソール(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, spyder)のインストール(Ubuntu 上)
pip と setuptools と venv の更新,Python 開発環境,Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, spyder のインストールを行う
次のコマンドを実行.
sudo apt -y update
sudo apt -y install python-is-python3 python3-dev python-dev-is-python3 python3-pip python3-setuptools python3-venv build-essential
sudo pip3 uninstall -y ptyprocess sniffio terminado tornado jupyterlab jupyter jupyter-console jupytext nteract_on_jupyter spyder
sudo apt -y install jupyter jupyter-qtconsole spyder3
sudo apt -y install python3-ptyprocess python3-sniffio python3-terminado python3-tornado
sudo pip3 install -U jupyterlab jupyter jupyter-console jupytext nteract_on_jupyter
Juman++ を動かしてみる(Ubuntu 上)
Juman++ の準備
- アセットの確認
- eigen3, protobuf のインストール
sudo apt -y update sudo apt -y install libeigen3-dev libprotobuf-dev protobuf-c-compiler
- Python の pyknp のインストール
pyknp の URL: https://pyknp.readthedocs.io/en/latest/
利用条件などは利用者で確認すること。
sudo apt -y update sudo apt -y install libeigen3-dev libprotobuf-dev protobuf-c-compiler
- Juman++ のソースコード(事前学習済みモデルを含む)のダウンロードとインストール
次のコマンドは,2.0.0-rc3 を試したいときの手順
バージョンはアセットで確認できる
sudo apt -y update sudo apt -y install libeigen3-dev libprotobuf-dev protobuf-c-compiler sudo pip3 install -U pyknp cd /tmp wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz tar -xvJof jumanpp-2.0.0-rc3.tar.xz cd jumanpp-2.0.0-rc3 mkdir build cd build rm CMakeCache.txt cmake .. -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=/usr/local make sudo make install
使ってみる
- echo を用いて動作確認
echo 'こんにちは,今日は晴れです' | jumanpp
- Python で動かしてみる
https://pyknp.readthedocs.io/en/latest/ で公開されているソースコードを使用.
from pyknp import Juman jumanpp = Juman() # default is JUMAN++: Juman(jumanpp=True). if you use JUMAN, use Juman(jumanpp=False) result = jumanpp.analysis("下鴨神社の参道は暗かった。") for mrph in result.mrph_list(): # 各形態素にアクセス print("見出し:%s, 読み:%s, 原形:%s, 品詞:%s, 品詞細分類:%s, 活用型:%s, 活用形:%s, 意味情報:%s, 代表表記:%s" \ % (mrph.midasi, mrph.yomi, mrph.genkei, mrph.hinsi, mrph.bunrui, mrph.katuyou1, mrph.katuyou2, mrph.imis, mrph.repname))