Windows での Python 3.10,関連パッケージ,Python 開発環境のインストール: 別ページ »で説明
【サイト内の関連ページ】
Python のまとめ: 別ページ »にまとめ
【関連する外部ページ】
Python の公式ページ: https://www.python.org/
辞書の文字コードは UTF-8 を選ぶ.
Windows では,コマンドプロン プトを管理者として実行する.
次のコマンドを実行.
python -m pip install mecab bs4
sudo pip3 install mecab bs4
jupyter qtconsole
Python プログラムを動かして,結果をビジュアルに見たい.
ここでは,Jupyter Qt Console を使っている. 他の開発環境(Spyder,PyCharm,PyScripter
ここから先は,Jupyter Qt Console の画面で説明する.
日本語の文章から,単語を切り出し,品詞を自動判定する Python プログラム
import sys import MeCab m = MeCab.Tagger("-Ochasen") print(m.parse ("日本国民は、正当に選挙された国会における代表者を通じて行動し"))
URL を指定して,Web ページをダウンロード.そして,確認表示を行う Python プログラム.
import urllib.request r = urllib.request.urlopen('https://www.kkaneko.jp') html = r.read() print(html.decode())
いまダウンロードした Web ページについて,BeautifulSoap を用いて,HTML タグを取り除く Python プログラム.テキストと JavaScript が残る.
from bs4 import BeautifulSoup soup = BeautifulSoup(html,'html5lib') t = soup.get_text() print(t)
いまダウンロードした日本語の Web ページについて,MeCab を用いて,単語を切り出す Python プログラム
import sys import MeCab m = MeCab.Tagger("-Ochasen") a = m.parse(t) words = [i.split()[0] for i in a.splitlines()] print(words)