gensim を使ってみる
gensim の URL : https://radimrehurek.com/gensim/
先人に感謝.
前準備
Python 3.10 のインストール(Windows 上)
Pythonは,プログラミング言語の1つ.
【手順】
- Windows で,コマンドプロンプトを管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
- 次のコマンドを実行
次のコマンドは,Python ランチャーとPython 3.10をインストールする.
【関連する外部ページ】
- Python の公式ページ: https://www.python.org/
【サイト内の関連ページ】
【関連項目】 Python
gensim パッケージのインストール
- Windows で,コマンドプロンプトを管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
- gensim をインストール
python -m pip install -U gensim
- インストール終了の確認
Word2Vec に関するサンプルプログラムを動かしてみる
次のページで公開されているプログラムを使用する.
上のページの注意書きにもある通り,2G バイトのファイルがダウンロードされます.
- データのダウンロードと語彙の確認
import gensim.downloader as api wv = api.load('word2vec-google-news-300') for i, word in enumerate(wv.vocab): if i == 10: break print(word)
- 単語ベクトルの表示
words = ['car', 'minivan', 'bicycle', 'airplane', 'cereal', 'communism'] for w in words: print(wv[w])
- 2単語間の類似度
pairs = [ ('car', 'minivan'), # a minivan is a kind of car ('car', 'bicycle'), # still a wheeled vehicle ('car', 'airplane'), # ok, no wheels, but still a vehicle ('car', 'cereal'), # ... and so on ('car', 'communism'), ] for w1, w2 in pairs: print('%r\t%r\t%.2f' % (w1, w2, wv.similarity(w1, w2)))
- 単語の類似検索
print(wv.most_similar(positive=['car', 'minivan'], topn=5))