金子邦彦研究室プログラミングR のプログラム例 R システムで編集距離を求める(R システムを使用)

R システムで編集距離を求める(R システムを使用)

R システムを用いて,テキストの編集距離を求める.

関連する外部ページ

R システムの CRAN の URL: https://cran.r-project.org/

前準備

R システムのインストール

R システムの CRAN の URL: https://cran.r-project.org/

stringdist パッケージのインストール

R システムで,次のコマンドを実行し,インストールする. vignette で説明を表示.

このとき「Secure CRAN mirrors」のような,ミラーサイトの選択画面が出たときは「Japan」のものを選ぶ.

install.packages("stringdist") 
vignette("stringdist")

この操作でインストールが行われる. R システムのパッケージのインストールについては、 必要に応じて「R システムでのパッケージのインストール」のページを参考にしてください.

編集距離を求める(stringdist を使用)

  1. パッケージの読み込み
    library(stringdist)
    

    [image]
  2. 編集距離を求める
    # optimal string alignment
    stringdist("empty", "entropy")
    # Damerau-Levenshtein distance (multiple editing of substrings allowed)
    stringdist("empty", "entropy", method="dl")
    # Levenshtein distance
    stringdist("empty", "entropy", method="lv")
    # Longest common substring distance.
    stringdist("empty", "entropy", method="lcs")
    # q-gram distance.
    stringdist("empty", "entropy", method="qgram")
    # cosine distance between q-gram profiles
    stringdist("empty", "entropy", method="cosine")
    # Jaccard distance between q-gram profiles
    stringdist("empty", "entropy", method="jaccard")
    # Jaro, or Jaro-Winker distance.
    stringdist("empty", "entropy", method="jw")
    

    [image]