金子邦彦研究室人工知能データセット(人工知能関連)日本語版 Wikipedia ダンプのダウンロード,ファイル分割(XMLファイル)(Python を使用)

日本語版 Wikipedia ダンプのダウンロード,ファイル分割(XMLファイル)(Python を使用)

利用条件は,利用者自身で確認すること.

前準備

Git のインストール

Git の URL: https://git-scm.com/

Python の準備(Windows,Ubuntu 上)

サイト内の関連ページ

関連する外部ページ

Python の公式ページ: https://www.python.org/

日本語版 Wikipedia のダウンロード

  1. Wikipedia のデータベースダウンロードページを開く.

    利用条件,注意事項,ダウンロード手順を確認する.

    https://ja.wikipedia.org/wiki/Wikipedia:Database_download

  2. 日本語版 Wikipedia ダンプのページを開く

    https://dumps.wikimedia.org/jawiki/

  3. 日付を選ぶ

    [image]
  4. jawiki-...-pages-articles-multistream.xml.bz2 をダウンロード

    「...」のところは日付.

    [image]

日本語版 Wikipedia ファイルの分割(Python, git, attardi/wikiextractor を使用)

  1. まず,ダウンロードしたファイル名を確認
  2. 次のコマンドで,ダウンロードしたファイルを分割する.

    「jawiki-20200701-pages-articles-multistream.xml.bz2」は 実際のファイル名に読み替えること.

    終わるまで数時間かかるので待つ.

    Windows の場合は「python」,Ubuntu の場合は「python3」.

    git clone https://github.com/attardi/wikiextractor.git
    mkdir jawiki
    python wikiextractor/WikiExtractor.py s -b 500M -o jawiki/ jawiki-20200701-pages-articles-multistream.xml.bz2
    

    [image]
  3. 表示を確認

    エラーメッセージが出ていないこと.

    [image]

    結果は,ディレクトリ名 jawiki のディレクトリに置かれる.