ipadic 辞書(CSV ファイル)から SQLite 3 データベースを生成(Ubuntu 上)
このページでは,
- Ubuntu で mecab-ipadic-utf8 パッケージをインストール
- mecab-ipadic-utf8 パッケージに含まれる IPA 辞書を用いて、SQLite 3 のテーブル ipadic の生成
を行う。
前準備
SQLite 3 のインストール
あらかじめ決めておく事項
このページでは,SQLite 3 データベースの生成を行う. 生成するSQLite 3 データベースのデータベース名を決めておくこと.
生成するSQLite3 データベース名: /tmp/ipadic.db
データベース名は,自由に決めてよいが,半角文字(つまり英字と英記号)を使い,スペースを含まないこと,
使用する CSV ファイルの確認(Ubuntu 上)
端末で,次のコマンドを実行する.
ls /usr/share/mecab/dic/ipadic/*.csv
SQLite 3 データベースの生成
テーブル定義
ipadic(表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音)
- csvkit, mecab, nkf のインストール
sudo apt -y install csvkit mecab-ipadic-utf8 nkf
- 各列の属性名
rm -f
/tmp/header echo "表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音" > /tmp/header - CSV ファイルの生成
- 生成する CSV ファイル名: /tmp/ipadic.csv
cd /usr/share/mecab/dic/ipadic rm -f /tmp/ipadic.csv cat
/tmp/header *.csv | nkf -w > /tmp/ipadic.csv - CSV ファイルから SQLite 3 データベースの生成
- 処理する CSV ファイル名: /tmp/ipadic.csv
- 生成するSQLite3 データベース名: /tmp/ipadic.db
rm -f /tmp/ipadic.db csvsql --db sqlite:////tmp/ipadic.db --insert /tmp/ipadic.csv echo "vacuum;" | sqlite3 /tmp/ipadic.db echo "select * from ipadic limit 20;" | sqlite3 /tmp/ipadic.db