HierText データセットのインストール(テキスト検出,文字認識のデータセット)(Windows 上)

前準備

Python 3.12 のインストール

インストール済みの場合は実行不要。

以下のコマンドを管理者権限コマンドプロンプトで実行する (手順:Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」)。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。

REM Python 3.12 をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent --accept-source-agreements --accept-package-agreements
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
if exist "%PYTHON_PATH%" setx PYTHON_PATH "%PYTHON_PATH%" /M >nul
if exist "%PYTHON_SCRIPTS_PATH%" setx PYTHON_SCRIPTS_PATH "%PYTHON_SCRIPTS_PATH%" /M >nul
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
echo "%SYSTEM_PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PYTHON_PATH%;%PYTHON_SCRIPTS_PATH%;%SYSTEM_PATH%" /M >nul

【関連する外部サイト】

【サイト内の関連ページ】

Git のインストール

以下のコマンドを管理者権限コマンドプロンプトで実行する (手順:Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」)。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。

REM Git をシステム領域にインストール
winget install --scope machine --id Git.Git -e --silent --accept-source-agreements --accept-package-agreements
REM Git のパス設定
set "GIT_PATH=C:\Program Files\Git\cmd"
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
if exist "%GIT_PATH%" (
    echo "%SYSTEM_PATH%" | find /i "%GIT_PATH%" >nul
    if errorlevel 1 setx PATH "%GIT_PATH%;%SYSTEM_PATH%" /M >nul
)

関連する外部ページ

HierText のインストール(Windows 上)

AWS コマンドラインツールのインストール

  1. Windows で,管理者権限コマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)。
  2. AWS コマンドラインツールのインストール

    次のコマンドを実行し,その後,画面の指示に従う.

    msiexec.exe /i https://awscli.amazonaws.com/AWSCLIV2.msi
    

7-Zip のインストール

以下のコマンドを管理者権限コマンドプロンプトで実行する (手順:Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」)。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。

REM 7-Zip をシステム領域にインストール
winget install --scope machine --id 7zip.7zip -e --silent
REM 7-Zip のパス設定
set "SEVENZIP_PATH=C:\Program Files\7-Zip"
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
if exist "%SEVENZIP_PATH%" (
    echo "%SYSTEM_PATH%" | find /i "%SEVENZIP_PATH%" >nul
    if errorlevel 1 setx PATH "%SEVENZIP_PATH%;%SYSTEM_PATH%" /M >nul
)

HierText のインストール

  1. Windows で,管理者権限コマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー > cmd と入力 > 右クリック > 「管理者として実行」)。
  2. 次のコマンドを実行
    cd /d c:%HOMEPATH%
    rmdir /s /q hiertext
    git clone https://github.com/google-research-datasets/hiertext.git
    cd hiertext
    python -m pip install -r requirements.txt
    "c:\Program Files\7-Zip\7z.exe" x sample_output.jsonl.gz
    cd gt
    "c:\Program Files\7-Zip\7z.exe" x validation.jsonl.gz
    "c:\Program Files\7-Zip\7z.exe" x train.jsonl.gz
    cd /d c:%HOMEPATH%\hiertext
    aws s3 --no-sign-request cp s3://open-images-dataset/ocr/train.tgz .
    aws s3 --no-sign-request cp s3://open-images-dataset/ocr/validation.tgz .
    aws s3 --no-sign-request cp s3://open-images-dataset/ocr/test.tgz .
    move train.tgz train.tar.gz
    move validation.tgz validation.tar.gz
    move test.tgz test.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x train.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x validation.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x test.tar.gz
    "c:\Program Files\7-Zip\7z.exe" x train.tar
    "c:\Program Files\7-Zip\7z.exe" x validation.tar
    "c:\Program Files\7-Zip\7z.exe" x test.tar
    


    (以下省略)