【サイト内の関連ページ】
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
辞書の文字コードは UTF-8 を選ぶ.
Windows では,コマンドプロン プトを管理者として実行する.
次のコマンドを実行.
python -m pip install mecab bs4
sudo pip3 install mecab bs4
Python プログラムの実行
Python 開発環境(Jupyter Qt Console, Jupyter ノートブック (Jupyter Notebook), Jupyter Lab, Nteract, Spyder, PyCharm, PyScripterなど)も便利である.
Python のまとめ: 別ページ »にまとめ
日本語の文章から,単語を切り出し,品詞を自動判定する Python プログラム
import sys import MeCab m = MeCab.Tagger("-Ochasen") print(m.parse ("日本国民は、正当に選挙された国会における代表者を通じて行動し"))
URL を指定して,Web ページをダウンロード.そして,確認表示を行う Python プログラム.
import urllib.request r = urllib.request.urlopen('https://www.kkaneko.jp') html = r.read() print(html.decode())
いまダウンロードした Web ページについて,BeautifulSoap を用いて,HTML タグを取り除く Python プログラム.テキストと JavaScript が残る.
from bs4 import BeautifulSoup soup = BeautifulSoup(html,'html5lib') t = soup.get_text() print(t)
いまダウンロードした日本語の Web ページについて,MeCab を用いて,単語を切り出す Python プログラム
import sys import MeCab m = MeCab.Tagger("-Ochasen") a = m.parse(t) words = [i.split()[0] for i in a.splitlines()] print(words)