HierText データセットのインストール(テキスト検出,文字認識のデータセット)(Windows 上)

前準備

Python 3.10,Git のインストール(Windows 上)

Pythonは,プログラミング言語の1つ. Gitは,分散型のバージョン管理システム.

手順

  1. Windows で,コマンドプロンプト管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)

    次のコマンドを実行

    次のコマンドは,Python ランチャーとPython 3.10とGitをインストールし,Gitパスを通すものである.

    次のコマンドでインストールされるGitは 「git for Windows」と呼ばれるものであり, Git,MinGW などから構成されている.

    winget install --scope machine Python.Launcher
    winget install --scope machine Python.Python.3.10
    winget install --scope machine Git.Git
    powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\Git\cmd\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"
    

関連する外部ページ

サイト内の関連ページ

関連項目Python, Git バージョン管理システム, Git の利用

HierText のインストール(Windows 上)

AWS コマンドラインツールのインストール

  1. Windows で,コマンドプロンプト管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
  2. AWS コマンドラインツールのインストール

    次のコマンドを実行し,その後,画面の指示に従う.

    msiexec.exe /i https://awscli.amazonaws.com/AWSCLIV2.msi
    

7-Zip のインストール(Windows 上)

7-Zipは,ファイル圧縮・展開(解凍)ツール

  1. Windows で,コマンドプロンプト管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
  2. 次のコマンドを実行

    次のコマンドは,7-Zipをインストールするものである.

    winget install --scope machine 7zip.7zip
    powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\7-Zip\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"
    

関連する外部ページ

mkdir %USERPROFILE%\7zip
cd /d c:%HOMEPATH%\7zip
curl -O https://www.7-zip.org/a/7z2405-x64.exe
.\7z2405-x64.exe
powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\7-Zip\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"

HierText のインストール

  1. Windows で,コマンドプロンプト管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
  2. 次のコマンドを実行
    cd /d c:%HOMEPATH%
    rmdir /s /q hiertext
    git clone https://github.com/google-research-datasets/hiertext.git
    cd hiertext
    python -m pip install -r requirements.txt
    "c:\Program Files\7-Zip\7z.exe" x sample_output.jsonl.gz
    cd gt
    "c:\Program Files\7-Zip\7z.exe" x validation.jsonl.gz
    "c:\Program Files\7-Zip\7z.exe" x train.jsonl.gz
    cd /d c:%HOMEPATH%\hiertext
    aws s3 --no-sign-request cp s3://open-images-dataset/ocr/train.tgz .
    aws s3 --no-sign-request cp s3://open-images-dataset/ocr/validation.tgz .
    aws s3 --no-sign-request cp s3://open-images-dataset/ocr/test.tgz .
    move train.tgz train.tar.gz
    move validation.tgz validation.tar.gz
    move test.tgz test.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x train.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x validation.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x test.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x train.tar
    "c:\Program Files\7-Zip\7z.exe" x validation.tar
    "c:\Program Files\7-Zip\7z.exe" x test.tar
    


    (以下省略)