金子邦彦研究室人工知能Windows で動く人工知能関係 Pythonアプリケーション,オープンソースソフトウエア)Web ページのダウンロード,単語に切り分け,形態素解析(Python, Mecab, BeautifulSoap を使用)

Web ページのダウンロード,単語に切り分け,形態素解析(Python, Mecab, BeautifulSoap を使用)

前準備

Python のインストール(Windows 上)

サイト内の関連ページ

関連する外部ページ

Python の公式ページ: https://www.python.org/

MeCab のインストール

辞書の文字コードは UTF-8 を選ぶ.

python の mecab, bs4 のインストール

日本語文書からの単語の切り出し,品詞の判定

  1. Python プログラムの実行

    Python プログラムの実行

    Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.

    Python のまとめ: 別ページ »にまとめ

    日本語の文章から,単語を切り出し,品詞を自動判定する Python プログラム

    import sys
    import MeCab
    m = MeCab.Tagger("-Ochasen")
    print(m.parse ("日本国民は、正当に選挙された国会における代表者を通じて行動し"))
    

    [image]

Web ページのダウンロードと単語の切り出し

  1. Web ページのダウンロード

    URL を指定して,Web ページをダウンロード.そして,確認表示を行う Python プログラム.

    import urllib.request
    r =  urllib.request.urlopen('https://www.kkaneko.jp')
    html = r.read()
    print(html.decode())
    

    [image]
  2. HTML タグの除去

    いまダウンロードした Web ページについて,BeautifulSoap を用いて,HTML タグを取り除く Python プログラム.テキストと JavaScript が残る.

    from bs4 import BeautifulSoup
    soup = BeautifulSoup(html,'html5lib')
    t = soup.get_text()
    print(t) 
    

    [image]
  3. プログラムの実行

    いまダウンロードした日本語の Web ページについて,MeCab を用いて,単語を切り出す Python プログラム

    import sys
    import MeCab
    m = MeCab.Tagger("-Ochasen")
    a = m.parse(t)
    words = [i.split()[0] for i in a.splitlines()]
    print(words) 
    

    [image]