Windows での,Tesseract OCR 5 のインストールと日本語文書読み取りの手順をスクリーンショット等で説明する.Tesseract OCR は,文字認識ソフトウェアである.
種々の利用法は,別ページにまとめている.
手順については https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05
先人に感謝
安定版が欲しいときは,下の「older versions」からダウンロード
対応言語を追加できる.
次の画像は、Wikipedia「日本国憲法前文」から取得
Wikipedia「日本国憲法前文」のURL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87
まず,コマンドプロンプトで,カレントディレクトリを,画像のファイルのあるディレクトリに移動する.
「-l jpn」のところ: 日本語の横書き文書なら「-l jpn」、 日本語の縦書き文書なら「-l jpn_vert」、
"C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
notepad outbase.txt
次の画像は、Wikipedia「日本国憲法前文」から取得
その URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87
"C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
notepad outbase.txt