HierText データセットのインストール(テキスト検出,文字認識のデータセット)(Windows 上)
前準備
Python 3.10,Git のインストール(Windows 上)
Pythonは,プログラミング言語の1つ. Gitは,分散型のバージョン管理システム.
【手順】
- Windows で,コマンドプロンプトを管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
次のコマンドを実行
次のコマンドは,Python ランチャーとPython 3.10とGitをインストールし,Gitにパスを通すものである.
次のコマンドでインストールされるGitは 「git for Windows」と呼ばれるものであり, Git,MinGW などから構成されている.
winget install --scope machine Python.Launcher winget install --scope machine Python.Python.3.10 winget install --scope machine Git.Git powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\Git\cmd\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"
【関連する外部ページ】
- Python の公式ページ: https://www.python.org/
- Git の公式ページ: https://git-scm.com/
【サイト内の関連ページ】
【関連項目】 Python, Git バージョン管理システム, Git の利用
HierText のインストール(Windows 上)
AWS コマンドラインツールのインストール
- Windows で,コマンドプロンプトを管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
- AWS コマンドラインツールのインストール
次のコマンドを実行し,その後,画面の指示に従う.
msiexec.exe /i https://awscli.amazonaws.com/AWSCLIV2.msi
7-Zip のインストール(Windows 上)
7-Zipは,ファイル圧縮・展開(解凍)ツール
- Windows で,コマンドプロンプトを管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
- 次のコマンドを実行
次のコマンドは,7-Zipをインストールするものである.
winget install --scope machine 7zip.7zip powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\7-Zip\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"
【関連する外部ページ】
- 7-Zip の公式ページ: https://7-zip.opensource.jp/
mkdir %USERPROFILE%\7zip
cd /d c:%HOMEPATH%\7zip
curl -O https://www.7-zip.org/a/7z2405-x64.exe
.\7z2405-x64.exe
powershell -command "$oldpath = [System.Environment]::GetEnvironmentVariable(\"Path\", \"Machine\"); $oldpath += \";c:\Program Files\7-Zip\"; [System.Environment]::SetEnvironmentVariable(\"Path\", $oldpath, \"Machine\")"
HierText のインストール
- Windows で,コマンドプロンプトを管理者権限で起動する(例:Windowsキーを押し,「cmd」と入力し,「管理者として実行」を選択)
- 次のコマンドを実行
cd /d c:%HOMEPATH% rmdir /s /q hiertext git clone https://github.com/google-research-datasets/hiertext.git cd hiertext python -m pip install -r requirements.txt "c:\Program Files\7-Zip\7z.exe" x sample_output.jsonl.gz cd gt "c:\Program Files\7-Zip\7z.exe" x validation.jsonl.gz "c:\Program Files\7-Zip\7z.exe" x train.jsonl.gz cd /d c:%HOMEPATH%\hiertext aws s3 --no-sign-request cp s3://open-images-dataset/ocr/train.tgz . aws s3 --no-sign-request cp s3://open-images-dataset/ocr/validation.tgz . aws s3 --no-sign-request cp s3://open-images-dataset/ocr/test.tgz . move train.tgz train.tar.gz move validation.tgz validation.tar.gz move test.tgz test.tar.gz "c:\Program Files\7-Zip\7z.exe" x train.tar.gz "c:\Program Files\7-Zip\7z.exe" x validation.tar.gz "c:\Program Files\7-Zip\7z.exe" x test.tar.gz "c:\Program Files\7-Zip\7z.exe" x train.tar "c:\Program Files\7-Zip\7z.exe" x validation.tar "c:\Program Files\7-Zip\7z.exe" x test.tar
(以下省略)