Tesseract OCR のインストール(Ubuntu 上)

Tesseract OCRは文字認識のソフトウェア

サイト内の関連ページ

● 実演ビデオ(YouTube)「Tesseract OCR 5 のインストール(Ubuntu 上)」

動画リンク: https://www.youtube.com/watch?v=dQu4GHy754o

前準備

Ubuntu のシステム更新

Ubuntu で OS のシステム更新を行うときは, 端末で,次のコマンドを実行する.

Ubuntu で OS のシステム更新を行うときは, 端末で,次のコマンドを実行する。これは、パッケージ情報を最新の状態に保ち、インストール済みのパッケージをセキュリティアップデートやバグ修正を含めて更新するためである。

Ubuntu のインストールはこちらの別ページで説明する。

# パッケージリストの情報を更新
sudo apt update
# インストール済みのパッケージを包括的に更新 (依存関係も考慮)
sudo apt full-upgrade
# カーネル更新等で実際に再起動が必要な場合のみ実行を推奨
# sudo shutdown -r now

Tesseract OCR のインストール(Ubuntu 上)

  1. インストール操作
    # パッケージリストの情報を更新
    sudo apt update
    sudo apt -y install tesseract-ocr tesseract-ocr-jpn libtesseract-dev libleptonica-dev tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert 
    
  2. 使用できる言語の確認
    tesseract --list-langs
    
  3. テスト実行

    画像ファイルを用意し、テスト実行してみる

    tesseract 48.png outbase -l jpn
    cat outbase.txt 
    

関連ソフトウェアのインストール

gImageReader は Tesseract OCR の GUI フロントエンド

# パッケージリストの情報を更新
sudo apt update
sudo apt -y install gimagereader