gensim を使ってみる

gensim の URL : https://radimrehurek.com/gensim/

先人に感謝．

前準備

Python 3.10 のインストール（Windows 上）

Pythonは，プログラミング言語の１つ．

【手順】

Windows で，管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）。
次のコマンドを実行
次のコマンドは，Python ランチャーとPython 3.10をインストールする．
winget install --scope machine Python.Launcher winget install --scope machine Python.Python.3.10

【関連する外部ページ】

Python の公式ページ: https://www.python.org/

【サイト内の関連ページ】

Python詳細ガイド：別ページ »

【関連項目】 Python

gensim パッケージのインストール

Windows で，管理者権限でコマンドプロンプトを起動（手順：Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」）。
gensim をインストール
python -m pip install -U gensim
インストール終了の確認

Word2Vec に関するサンプルプログラムを動かしてみる

次のページで公開されているプログラムを使用する．

https://radimrehurek.com/gensim/auto_examples/tutorials/run_word2vec.html#sphx-glr-auto-examples-tutorials-run-word2vec-py

上のページの注意書きにもある通り，2G バイトのファイルがダウンロードされます．

データのダウンロードと語彙の確認

import gensim.downloader as api
wv = api.load('word2vec-google-news-300')

for i, word in enumerate(wv.vocab):
    if i == 10:
        break
    print(word)

単語ベクトルの表示

words = ['car', 'minivan', 'bicycle', 'airplane', 'cereal', 'communism']
for w in words:
    print(wv[w])

2単語間の類似度

pairs = [
    ('car', 'minivan'),   # a minivan is a kind of car
    ('car', 'bicycle'),   # still a wheeled vehicle
    ('car', 'airplane'),  # ok, no wheels, but still a vehicle
    ('car', 'cereal'),    # ... and so on
    ('car', 'communism'),
]
for w1, w2 in pairs:
    print('%r\t%r\t%.2f' % (w1, w2, wv.similarity(w1, w2)))

単語の類似検索

print(wv.most_similar(positive=['car', 'minivan'], topn=5))