【要約】 Tesseract OCR 5.2はWindows上での多言語文字認識ソフトウェアである.公式ページからインストール手順を確認し,必要な言語データをダウンロードして適切なディレクトリにインストールする.Windowsでの日本語文書読み取りには,画像を用意しコマンドプロンプトで指定コマンドを入力し,文字認識を行う.高解像度画像を使うことで、認識の精度が向上する傾向にあるようだ.以上がTesseract OCR 5.2のインストールと使い方の手順である.
手順は,公式ページの https://github.com/tesseract-ocr/tessdoc/Training-Tesseract-3.03%E2%80%933.05 による(現在,このページは公開されていない)
【サイト内の関連ページ】
古い版を使いたいときは,下の「older versions」からダウンロード
対応言語を追加できる.
次の画像は、Wikipedia「日本国憲法前文」から取得
Wikipedia「日本国憲法前文」のURL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87
まず,コマンドプロンプトで,カレントディレクトリを,画像のファイルのあるディレクトリに移動する.
「-l jpn」のところ: 日本語の横書き文書なら「-l jpn」、 日本語の縦書き文書なら「-l jpn_vert」、
"C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
notepad outbase.txt
次の画像は、Wikipedia「日本国憲法前文」から取得
その URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87
"C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
notepad outbase.txt