Tesseract OCR のインストール(Ubuntu 上)
前準備
Ubuntu のシステム更新
Ubuntu で OS のシステム更新を行うときは, 端末で,次のコマンドを実行する.
Ubuntu で OS のシステム更新を行うときは, 端末で,次のコマンドを実行する。これは、パッケージ情報を最新の状態に保ち、インストール済みのパッケージをセキュリティアップデートやバグ修正を含めて更新するためである。
# パッケージリストの情報を更新
sudo apt update
# インストール済みのパッケージを包括的に更新 (依存関係も考慮)
sudo apt full-upgrade
# カーネル更新等で実際に再起動が必要な場合のみ実行を推奨
# sudo shutdown -r now
Tesseract OCR のインストール(Ubuntu 上)
- インストール操作
# パッケージリストの情報を更新 sudo apt update sudo apt -y install tesseract-ocr tesseract-ocr-jpn libtesseract-dev libleptonica-dev tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert
- 使用できる言語の確認
tesseract --list-langs
- テスト実行
画像ファイルを用意し、テスト実行してみる
tesseract 48.png outbase -l jpn cat outbase.txt
関連ソフトウェアのインストール
gImageReader は Tesseract OCR の GUI フロントエンド
# パッケージリストの情報を更新
sudo apt update
sudo apt -y install gimagereader