トップページ -> インストール,設定,利用 -> Windows -> 文字認識ソフト Tesseract 4.1 をインストールして使ってみる(Windows 上)
[サイトマップへ], [サイト内検索へ]

文字認識ソフト Tesseract 4.1 をインストールして使ってみる(Windows 上)

Tesseract は、文字認識のソフトウエア.

手順については https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05

先人に感謝


Tesseract 4.1 のダウンロードとインストール

  1. 「Tesseract OCR のバイナリ」の Web ページを開く

    https://github.com/tesseract-ocr/tesseract/wiki

  2. Windows のところの「Tesseract at UB Mannheim」をクリック

    [image]
  3. Tesseract 4.1」を選ぶ

    [image]
  4. .exe ファイルがダウンロードが始まる

    [image]
  5. ダウンロードした .exe ファイルを実行
  6. ようこそ画面では「Next」をクリック

    [image]
  7. ライセンス条項の確認

    [image]
  8. ユーザの選択 (Choose Users).既定(デフォルト)のままでよい.「Next」をクリック

    [image]
  9. コンポーネントの選択 (Choose Components).既定(デフォルト)のままでよい.「Next」をクリック

    [image]

    [image]
  10. インストールディレクトリ(フォルダ)は、既定(デフォルト)のままでよい.「Next」をクリック

    [image]
  11. スタートメニューフォルダは、既定(デフォルト)のままでよい.「Install」をクリック

    [image]
  12. インストール終了の確認.「Next」をクリック

    [image]
  13. インストール終了の確認.「Finish」をクリック

    [image]
  14. 日本語の文章が書かれた画像を用意する

    次の画像は、Wikipedia「日本国憲法前文」から取得

    URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

    [image]
  15. Windows のコマンドプロンプトを開く
  16. 画像から文字を認識してみる

    「-l jpn」のところ: 日本語の横書き文書なら「-l jpn」、 日本語の書き文書なら「-l jpn_vert」、

    "C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
    

    [image]
  17. outbase.txtというファイルができるので,メモ帳で確認

    [image]
  18. 今度はサイズが大きい画像(画素数が多い画像)」

    次の画像は、Wikipedia「日本国憲法前文」から取得

    URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

    [image]
  19. 画像から文字を認識してみる
  20. "C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> -l jpn outbase

    [image]
  21. outbase.txtというファイルを,メモ帳で確認

    精度が変化することがある.

    [image]

本サイトのサイトマップは,サイトマップのページをご覧下さい. 本サイト内の検索は,サイト内検索のページをご利用下さい.

問い合わせ先: 金子邦彦(かねこ くにひこ) [image]