HierText データセットのインストール(テキスト検出,文字認識のデータセット)(Windows 上)

前準備

Python 3.12,Git のインストール(Windows 上)

Pythonは,プログラミング言語の1つ. Gitは,分散型のバージョン管理システム.

手順

  1. Windows で,コマンドプロンプト管理者権限で起動する(手順:Windowsキーまたはスタートメニュー,「cmd」と入力,右クリックメニューなどで「管理者として実行」を選択)

    次のコマンドを実行

    次のコマンドは,Python ランチャーとPython 3.12とGitをインストールし,Gitパスを通すものである.

    次のコマンドでインストールされるGitは 「git for Windows」と呼ばれるものであり, Git,MinGW などから構成されている.

    reg add "HKLM\SYSTEM\CurrentControlSet\Control\FileSystem" /v LongPathsEnabled /t REG_DWORD /d 1 /f
    REM Python, Git をシステム領域にインストール
    winget install --scope machine --id Python.Python.3.12 --id Python.Launcher --id Git.Git -e --silent
    REM Python のパス
    set "INSTALL_PATH=C:\Program Files\Python312"
    echo %PATH% | find /i "%INSTALL_PATH%" >nul
    if errorlevel 1 setx PATH "%PATH%;%INSTALL_PATH%" /M >nul
    echo %PATH% | find /i "%INSTALL_PATH%\Scripts" >nul
    if errorlevel 1 setx PATH "%PATH%;%INSTALL_PATH%\Scripts" /M >nul
    REM Git のパス
    set "NEW_PATH=C:\Program Files\Git\cmd"
    if exist "%NEW_PATH%" echo %PATH% | find /i "%NEW_PATH%" >nul
    if exist "%NEW_PATH%" if errorlevel 1 setx PATH "%PATH%;%NEW_PATH%" /M >nul
    

関連する外部ページ

サイト内の関連ページ

関連項目Python, Git バージョン管理システム, Git の利用

HierText のインストール(Windows 上)

AWS コマンドラインツールのインストール

  1. Windows で,コマンドプロンプト管理者権限で起動する(手順:Windowsキーまたはスタートメニュー,「cmd」と入力,右クリックメニューなどで「管理者として実行」を選択)
  2. AWS コマンドラインツールのインストール

    次のコマンドを実行し,その後,画面の指示に従う.

    msiexec.exe /i https://awscli.amazonaws.com/AWSCLIV2.msi
    

7-Zip のインストール(Windows 上)

7-Zipは,ファイル圧縮・展開(解凍)ツール

  1. Windows で,コマンドプロンプト管理者権限で起動する(手順:Windowsキーまたはスタートメニュー,「cmd」と入力,右クリックメニューなどで「管理者として実行」を選択)
  2. 次のコマンドを実行

    次のコマンドは,7-Zipをインストールするものである.

    winget install --scope machine 7zip.7zip
    powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\7-Zip\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"
    

関連する外部ページ

mkdir %USERPROFILE%\7zip
cd /d c:%HOMEPATH%\7zip
curl -O https://www.7-zip.org/a/7z2405-x64.exe
.\7z2405-x64.exe
powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\7-Zip\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"

HierText のインストール

  1. Windows で,コマンドプロンプト管理者権限で起動する(手順:Windowsキーまたはスタートメニュー,「cmd」と入力,右クリックメニューなどで「管理者として実行」を選択)
  2. 次のコマンドを実行
    cd /d c:%HOMEPATH%
    rmdir /s /q hiertext
    git clone https://github.com/google-research-datasets/hiertext.git
    cd hiertext
    python -m pip install -r requirements.txt
    "c:\Program Files\7-Zip\7z.exe" x sample_output.jsonl.gz
    cd gt
    "c:\Program Files\7-Zip\7z.exe" x validation.jsonl.gz
    "c:\Program Files\7-Zip\7z.exe" x train.jsonl.gz
    cd /d c:%HOMEPATH%\hiertext
    aws s3 --no-sign-request cp s3://open-images-dataset/ocr/train.tgz .
    aws s3 --no-sign-request cp s3://open-images-dataset/ocr/validation.tgz .
    aws s3 --no-sign-request cp s3://open-images-dataset/ocr/test.tgz .
    move train.tgz train.tar.gz
    move validation.tgz validation.tar.gz
    move test.tgz test.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x train.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x validation.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x test.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x train.tar
    "c:\Program Files\7-Zip\7z.exe" x validation.tar
    "c:\Program Files\7-Zip\7z.exe" x test.tar
    


    (以下省略)