HierText データセットのインストール(テキスト検出,文字認識のデータセット)(Windows 上)
前準備
Python 3.12,Git のインストール(Windows 上)
Pythonは,プログラミング言語の1つ. Gitは,分散型のバージョン管理システム.
【手順】
- Windows で,コマンドプロンプトを管理者権限で起動する(手順:Windowsキーまたはスタートメニュー,「cmd」と入力,右クリックメニューなどで「管理者として実行」を選択)
次のコマンドを実行
次のコマンドは,Python ランチャーとPython 3.12とGitをインストールし,Gitにパスを通すものである.
次のコマンドでインストールされるGitは 「git for Windows」と呼ばれるものであり, Git,MinGW などから構成されている.
reg add "HKLM\SYSTEM\CurrentControlSet\Control\FileSystem" /v LongPathsEnabled /t REG_DWORD /d 1 /f REM Python, Git をシステム領域にインストール winget install --scope machine --id Python.Python.3.12 --id Python.Launcher --id Git.Git -e --silent REM Python のパス set "INSTALL_PATH=C:\Program Files\Python312" echo %PATH% | find /i "%INSTALL_PATH%" >nul if errorlevel 1 setx PATH "%PATH%;%INSTALL_PATH%" /M >nul echo %PATH% | find /i "%INSTALL_PATH%\Scripts" >nul if errorlevel 1 setx PATH "%PATH%;%INSTALL_PATH%\Scripts" /M >nul REM Git のパス set "NEW_PATH=C:\Program Files\Git\cmd" if exist "%NEW_PATH%" echo %PATH% | find /i "%NEW_PATH%" >nul if exist "%NEW_PATH%" if errorlevel 1 setx PATH "%PATH%;%NEW_PATH%" /M >nul
【関連する外部ページ】
- Python の公式ページ: https://www.python.org/
- Git の公式ページ: https://git-scm.com/
【サイト内の関連ページ】
【関連項目】 Python, Git バージョン管理システム, Git の利用
HierText のインストール(Windows 上)
AWS コマンドラインツールのインストール
- Windows で,コマンドプロンプトを管理者権限で起動する(手順:Windowsキーまたはスタートメニュー,「cmd」と入力,右クリックメニューなどで「管理者として実行」を選択)
- AWS コマンドラインツールのインストール
次のコマンドを実行し,その後,画面の指示に従う.
msiexec.exe /i https://awscli.amazonaws.com/AWSCLIV2.msi
7-Zip のインストール(Windows 上)
7-Zipは,ファイル圧縮・展開(解凍)ツール
- Windows で,コマンドプロンプトを管理者権限で起動する(手順:Windowsキーまたはスタートメニュー,「cmd」と入力,右クリックメニューなどで「管理者として実行」を選択)
- 次のコマンドを実行
次のコマンドは,7-Zipをインストールするものである.
winget install --scope machine 7zip.7zip powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\7-Zip\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"
【関連する外部ページ】
- 7-Zip の公式ページ: https://7-zip.opensource.jp/
mkdir %USERPROFILE%\7zip
cd /d c:%HOMEPATH%\7zip
curl -O https://www.7-zip.org/a/7z2405-x64.exe
.\7z2405-x64.exe
powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\7-Zip\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"
HierText のインストール
- Windows で,コマンドプロンプトを管理者権限で起動する(手順:Windowsキーまたはスタートメニュー,「cmd」と入力,右クリックメニューなどで「管理者として実行」を選択)
- 次のコマンドを実行
cd /d c:%HOMEPATH% rmdir /s /q hiertext git clone https://github.com/google-research-datasets/hiertext.git cd hiertext python -m pip install -r requirements.txt "c:\Program Files\7-Zip\7z.exe" x sample_output.jsonl.gz cd gt "c:\Program Files\7-Zip\7z.exe" x validation.jsonl.gz "c:\Program Files\7-Zip\7z.exe" x train.jsonl.gz cd /d c:%HOMEPATH%\hiertext aws s3 --no-sign-request cp s3://open-images-dataset/ocr/train.tgz . aws s3 --no-sign-request cp s3://open-images-dataset/ocr/validation.tgz . aws s3 --no-sign-request cp s3://open-images-dataset/ocr/test.tgz . move train.tgz train.tar.gz move validation.tgz validation.tar.gz move test.tgz test.tar.gz "c:\Program Files\7-Zip\7z.exe" x train.tar.gz "c:\Program Files\7-Zip\7z.exe" x validation.tar.gz "c:\Program Files\7-Zip\7z.exe" x test.tar.gz "c:\Program Files\7-Zip\7z.exe" x train.tar "c:\Program Files\7-Zip\7z.exe" x validation.tar "c:\Program Files\7-Zip\7z.exe" x test.tar
(以下省略)