金子邦彦研究室人工知能データセット(人工知能関連)英語版 Wikipedia ダンプのダウンロード,ファイル分割(XMLファイル)(Python を使用)

英語版 Wikipedia ダンプのダウンロード,ファイル分割(XMLファイル)(Python を使用)

利用条件は,利用者自身で確認すること.

前準備

Git のインストール

Git の URL: https://git-scm.com/

Python の準備(Windows,Ubuntu 上)

サイト内の関連ページ

関連する外部ページ

Python の公式ページ: https://www.python.org/

Python のまとめ: 別ページ »にまとめ

Python の公式ページ: https://www.python.org/

英語版 Wikipedia のダウンロード

  1. Wikipedia のデータベースダウンロードページを開く.

    利用条件,注意事項,ダウンロード手順を確認する.

    https://en.wikipedia.org/wiki/Wikipedia:Database_download

  2. 英語版 Wikipedia ダンプのページを開く

    https://dumps.wikimedia.org/enwiki/

  3. 日付を選ぶ

    [image]
  4. enwiki-...-pages-articles-multistream.xml.bz2 をダウンロード

    「...」のところは日付.

    [image]

英語版 Wikipedia ファイルの分割(Python, git, attardi/wikiextractor を使用)

  1. まず,ダウンロードしたファイル名を確認
  2. 次のコマンドで,ダウンロードした英語版 Wikipedia ファイルを分割する.

    「enwiki-20200701-pages-articles-multistream.xml.bz2」は 実際のファイル名に読み替えること.

    終わるまで数時間かかるので待つ.

    Windows の場合は「python」,Ubuntu の場合は「python3」.

    git clone https://github.com/attardi/wikiextractor.git
    mkdir enwiki
    python wikiextractor/WikiExtractor.py -s -b 500M -o enwiki/ enwiki-20200701-pages-articles-multistream.xml.bz2
    

    結果は,ディレクトリ名 enwiki のディレクトリに置かれる.