日本語版 Wikipedia ダンプのダウンロード,ファイル分割(XMLファイル)(Python を使用)
利用条件は,利用者自身で確認すること.
前準備
Git のインストール
Git の URL: https://git-scm.com/
Python の準備(Windows,Ubuntu 上)
- Windows での Python 3.10,関連パッケージ,Python 開発環境のインストール(winget を使用しないインストール): 別ページ »で説明
- Ubuntu では,システム Pythonを使うことができる.Python3 開発用ファイル,pip, setuptools のインストール: 別ページ »で説明
【サイト内の関連ページ】
- Python のまとめ: 別ページ »にまとめ
- Google Colaboratory の使い方など: 別ページ »で説明
【関連する外部ページ】 Python の公式ページ: https://www.python.org/
日本語版 Wikipedia のダウンロード
- Wikipedia のデータベースダウンロードページを開く.
利用条件,注意事項,ダウンロード手順を確認する.
- 日本語版 Wikipedia ダンプのページを開く
- 日付を選ぶ
- jawiki-...-pages-articles-multistream.xml.bz2 をダウンロード
「...」のところは日付.
日本語版 Wikipedia ファイルの分割(Python, git, attardi/wikiextractor を使用)
- まず,ダウンロードしたファイル名を確認
- 次のコマンドで,ダウンロードしたファイルを分割する.
「jawiki-20200701-pages-articles-multistream.xml.bz2」は 実際のファイル名に読み替えること.
終わるまで数時間かかるので待つ.
* Windows の場合は「python」,Ubuntu の場合は「python3」.
git clone https://github.com/attardi/wikiextractor.git mkdir jawiki python wikiextractor/WikiExtractor.py s -b 500M -o jawiki/ jawiki-20200701-pages-articles-multistream.xml.bz2
- 表示を確認
エラーメッセージが出ていないこと.
結果は,ディレクトリ名 jawiki のディレクトリに置かれる.