HierText データセットのインストール(テキスト検出,文字認識のデータセット)(Windows 上)
前準備
Python 3.12 のインストール
インストール済みの場合は実行不要。
以下のコマンドを管理者権限のコマンドプロンプトで実行する
(手順:Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」)。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要である。
REM Python 3.12 をシステム領域にインストール
winget install --scope machine --id Python.Python.3.12 -e --silent --accept-source-agreements --accept-package-agreements
REM Python のパス設定
set "PYTHON_PATH=C:\Program Files\Python312"
set "PYTHON_SCRIPTS_PATH=C:\Program Files\Python312\Scripts"
if exist "%PYTHON_PATH%" setx PYTHON_PATH "%PYTHON_PATH%" /M >nul
if exist "%PYTHON_SCRIPTS_PATH%" setx PYTHON_SCRIPTS_PATH "%PYTHON_SCRIPTS_PATH%" /M >nul
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
echo "%SYSTEM_PATH%" | find /i "%PYTHON_PATH%" >nul
if errorlevel 1 setx PATH "%PYTHON_PATH%;%PYTHON_SCRIPTS_PATH%;%SYSTEM_PATH%" /M >nul
【関連する外部サイト】
【サイト内の関連ページ】
- Python ガイド:別ページで説明 »
Git のインストール
以下のコマンドを管理者権限のコマンドプロンプトで実行する
(手順:Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」)。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。
REM Git をシステム領域にインストール
winget install --scope machine --id Git.Git -e --silent --accept-source-agreements --accept-package-agreements
REM Git のパス設定
set "GIT_PATH=C:\Program Files\Git\cmd"
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
if exist "%GIT_PATH%" (
echo "%SYSTEM_PATH%" | find /i "%GIT_PATH%" >nul
if errorlevel 1 setx PATH "%GIT_PATH%;%SYSTEM_PATH%" /M >nul
)
【関連する外部ページ】
- Git の公式ページ: https://git-scm.com/
HierText のインストール(Windows 上)
AWS コマンドラインツールのインストール
- Windows で,管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー >
cmdと入力 > 右クリック > 「管理者として実行」)。 - AWS コマンドラインツールのインストール
次のコマンドを実行し,その後,画面の指示に従う.
msiexec.exe /i https://awscli.amazonaws.com/AWSCLIV2.msi
7-Zip のインストール
以下のコマンドを管理者権限のコマンドプロンプトで実行する
(手順:Windowsキーまたはスタートメニュー → cmd と入力 → 右クリック → 「管理者として実行」)。管理者権限は、wingetの--scope machineオプションでシステム全体にソフトウェアをインストールするために必要となる。
REM 7-Zip をシステム領域にインストール
winget install --scope machine --id 7zip.7zip -e --silent
REM 7-Zip のパス設定
set "SEVENZIP_PATH=C:\Program Files\7-Zip"
for /f "skip=2 tokens=2*" %a in ('reg query "HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\Environment" /v Path') do set "SYSTEM_PATH=%b"
if exist "%SEVENZIP_PATH%" (
echo "%SYSTEM_PATH%" | find /i "%SEVENZIP_PATH%" >nul
if errorlevel 1 setx PATH "%SEVENZIP_PATH%;%SYSTEM_PATH%" /M >nul
)
HierText のインストール
- Windows で,管理者権限でコマンドプロンプトを起動(手順:Windowsキーまたはスタートメニュー >
cmdと入力 > 右クリック > 「管理者として実行」)。 - 次のコマンドを実行
cd /d c:%HOMEPATH% rmdir /s /q hiertext git clone https://github.com/google-research-datasets/hiertext.git cd hiertext python -m pip install -r requirements.txt "c:\Program Files\7-Zip\7z.exe" x sample_output.jsonl.gz cd gt "c:\Program Files\7-Zip\7z.exe" x validation.jsonl.gz "c:\Program Files\7-Zip\7z.exe" x train.jsonl.gz cd /d c:%HOMEPATH%\hiertext aws s3 --no-sign-request cp s3://open-images-dataset/ocr/train.tgz . aws s3 --no-sign-request cp s3://open-images-dataset/ocr/validation.tgz . aws s3 --no-sign-request cp s3://open-images-dataset/ocr/test.tgz . move train.tgz train.tar.gz move validation.tgz validation.tar.gz move test.tgz test.tar.gz "c:\Program Files\7-Zip\7z.exe" x train.tar.gz "c:\Program Files\7-Zip\7z.exe" x validation.tar.gz "c:\Program Files\7-Zip\7z.exe" x test.tar.gz "c:\Program Files\7-Zip\7z.exe" x train.tar "c:\Program Files\7-Zip\7z.exe" x validation.tar "c:\Program Files\7-Zip\7z.exe" x test.tar
(以下省略)