Windows環境におけるTesseract OCR 5.3.3のインストールと日本語OCR実行手順
【概要】Tesseract OCR 5.3.3は、Windows環境で動作する多言語対応の光学文字認識(OCR)ソフトウェアです。インストールは公式サイトからインストーラーをダウンロードし、ウィザードに従って日本語言語データなどを選択することで完了します。文字認識はコマンドプロンプトから画像ファイルを指定して実行します。また、高解像度の画像を用いることで認識精度が向上する傾向が見られます。インストールはウィザード形式で進められ、各ステップで適切なオプションを選択することで完了できます。縦書きと横書きの日本語テキストにも対応しており、それぞれに最適化された認識モードを選択できる機能を備えています。
【関連する外部ページ】
公式ドキュメント: https://github.com/tesseract-ocr/tessdoc (Tesseract OCRの公式ドキュメント)
【サイト内の関連ページ】
Tesseract OCR 5.3.3 のダウンロードとインストール
- 1. ダウンロード
Tesseract OCR の公式ドキュメントのページを開きます。
https://github.com/tesseract-ocr/tessdoc
Windows の項目にある「Tesseract at UB Mannheim」(ドイツのマンハイム大学が提供するWindows用インストーラー)のリンクをクリックします。
最新版のインストーラー(例: `tesseract-ocr-w64-setup-v5.3.3.20231005.exe`)を選択します。
古い版を使用する場合は、下の「older versions」からダウンロードしてください。
.exe ファイルのダウンロードが開始されます。
- 2. インストーラーの起動と初期設定
ダウンロードした .exe ファイルを実行します。
最初の言語選択画面では「OK」をクリックします。
ようこそ画面では「Next」をクリックします。
ライセンス条項を確認し、同意する場合は「I Agree」をクリックして次に進みます。
インストール対象ユーザーを選択します(Choose Users)。通常は既定値(Install for anyone using this computer)のままで問題ありません。「Next」をクリックします。
- 3. コンポーネント(言語データ)の選択
コンポーネント選択画面 (Choose Components) です。ここでOCR処理に必要な言語データを追加します。日本語を扱うため、以下の項目にチェックを入れてください。
- Additional script data (download) で「Japanese script」と「Japanese vertical script」を選択してください。
- Additional language data (download) で「Japanese」と「Japanese (vertical)」を選択してください。
他のコンポーネントは必要に応じて選択しますが、通常は既定値のままで構いません。「Next」をクリックします。
- 4. インストール先と完了
インストールディレクトリ(フォルダ)を選択します(Choose Install Location)。通常は既定値 (`C:\Program Files\Tesseract-OCR`) のままで問題ありません。「Next」をクリックします。
スタートメニューフォルダを選択します(Choose Start Menu Folder)。通常は既定値のままで問題ありません。「Install」をクリックするとインストールが開始されます。
インストール完了画面が表示されたら、「Next」をクリックします。
最終確認画面です。「Finish」をクリックしてインストーラーを終了します。
画像からの日本語OCR実行手順
- 1. 準備(画像ファイル、コマンドプロンプト)
日本語の文章が書かれた画像ファイルを用意します。
例として、次の画像はWikipedia「日本国憲法前文」から取得したものです。
(参考)Wikipedia「日本国憲法前文」のURL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87
まず、コマンドプロンプトで `cd` コマンドを使い、画像ファイルが保存されているディレクトリ(フォルダ)に移動します。
- 2. コマンド実行(横書き)
画像から文字を認識させます。以下のコマンド形式で実行します。
"C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
コマンド解説:
"C:\Program Files\Tesseract-OCR\tesseract.exe"
: Tesseract OCRの実行ファイルへのパスです。既定の場所にインストールした場合のパスであり、異なる場所にインストールした場合は適宜変更してください。<画像ファイル名>
: 処理したい画像ファイル名(例: `image.png`)を指定します。outbase
: 出力ファイル名のベースを指定します。この場合、認識結果は `outbase.txt` という名前のテキストファイルに出力されます。-l jpn
: 使用する言語データを指定します。日本語の横書き文書の場合は「jpn
」を指定します。日本語の縦書き文書の場合は「-l jpn_vert
」を使用します。
- 3. 結果確認
コマンド実行後、
outbase.txt
というファイルが生成されます。これをメモ帳などのテキストエディタで開いて、認識結果を確認します。notepad outbase.txt
- 4. 高解像度画像での実行と比較
次に、より解像度が高い(画素数が多い)画像を使用して試してみましょう。(例:同じWikipediaページからより大きくキャプチャしたものなど)
同様にコマンドを実行して画像から文字を認識させます。
"C:\Program Files\Tesseract-OCR\tesseract.exe" <高解像度画像ファイル名> outbase_highres -l jpn
生成された `outbase_highres.txt` などのファイルをメモ帳で確認します。
notepad outbase_highres.txt
一般に、文字が大きく鮮明に写っている(解像度が高い)ほど、Tesseractは文字の形状を正確に捉えやすくなるため、認識精度が向上します。
補足情報
- PATH環境変数: コマンドプロンプトで毎回フルパス (`"C:\Program Files\Tesseract-OCR\tesseract.exe"`) を入力する代わりに、Tesseractのインストールディレクトリ (`C:\Program Files\Tesseract-OCR`) をシステムの環境変数PATHに追加すると、単に `tesseract` コマンドとして実行できるようになり便利です(設定方法はWindowsのバージョンにより異なります)。
- トラブルシューティング:
- 言語データが見つからない旨のエラーが出る場合、インストール時に言語データが正しく選択・ダウンロードされたか確認してください。また、`-l`オプションの指定が正しいか確認してください。
- コマンド実行時にエラーが出る場合、画像ファイル名やパスが正しいか、Tesseract OCRのインストールパスが正しいか確認してください。
- 認識精度について: OCRの精度は画像の品質に大きく依存します。画像の傾き、ノイズ、不鮮明さ、特殊なフォントなどは、認識精度を低下させる要因となります。精度が低い場合は、画像編集ソフトウェアなどで傾き補正、ノイズ除去、二値化(白黒化)、コントラスト調整といった前処理を行うことで改善する場合があります。