金子邦彦研究室3次元,地図日本語処理,言語処理Web ページのダウンロード,単語に切り分け,形態素解析(Python, Mecab, BeautifulSoap を使用)

Web ページのダウンロード,単語に切り分け,形態素解析(Python, Mecab, BeautifulSoap を使用)

前準備

Python のインストール(Windows 上)

Windows での Python 3.10,関連パッケージ,Python 開発環境のインストール: 別ページ »で説明

サイト内の関連ページ

Python のまとめ: 別ページ »にまとめ

関連する外部ページ

Python の公式ページ: https://www.python.org/

MeCab のインストール

辞書の文字コードは UTF-8 を選ぶ.

python の mecab, bs4 のインストール

日本語文書からの単語の切り出し,品詞の判定

  1. Jupyter Qt Console を起動

    jupyter qtconsole
    

    [image]

    Python プログラムを動かして,結果をビジュアルに見たい.

    ここでは,Jupyter Qt Console を使っている. 他の開発環境(SpyderPyCharmPyScripter

    ここから先は,Jupyter Qt Console の画面で説明する.

  2. プログラムの実行

    日本語の文章から,単語を切り出し,品詞を自動判定する Python プログラム

    import sys
    import MeCab
    m = MeCab.Tagger("-Ochasen")
    print(m.parse ("日本国民は、正当に選挙された国会における代表者を通じて行動し"))
    

    [image]

Web ページのダウンロードと単語の切り出し

  1. Web ページのダウンロード

    URL を指定して,Web ページをダウンロード.そして,確認表示を行う Python プログラム.

    import urllib.request
    r =  urllib.request.urlopen('https://www.kkaneko.jp')
    html = r.read()
    print(html.decode())
    

    [image]
  2. HTML タグの除去

    いまダウンロードした Web ページについて,BeautifulSoap を用いて,HTML タグを取り除く Python プログラム.テキストと JavaScript が残る.

    from bs4 import BeautifulSoup
    soup = BeautifulSoup(html,'html5lib')
    t = soup.get_text()
    print(t) 
    

    [image]
  3. プログラムの実行

    いまダウンロードした日本語の Web ページについて,MeCab を用いて,単語を切り出す Python プログラム

    import sys
    import MeCab
    m = MeCab.Tagger("-Ochasen")
    a = m.parse(t)
    words = [i.split()[0] for i in a.splitlines()]
    print(words) 
    

    [image]