トップページ -> インストール,設定,利用 -> Windows ソフトウエア -> 日本語対応文字認識ソフト Tesseract 5 のインストールと使用法(Windows 上)
[サイトマップへ], [サイト内検索へ]

日本語対応文字認識ソフト Tesseract 5 のインストールと使用法(Windows 上)

Windows での,Tesseract 5 のインストールと日本語文書読み取りの手順をスクリーンショット等で説明する.Tesseract は,文字認識ソフトウエアである.

種々の利用法は,別ページにまとめている.

手順については https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.03%E2%80%933.05

先人に感謝


Tesseract 5 のダウンロードとインストール

  1. 「Tesseract OCR のバイナリ」の Web ページを開く

    https://github.com/tesseract-ocr/tesseract/wiki

  2. Windows のところの「Tesseract at UB Mannheim」をクリック

    [image]
  3. 最新のアルファ版を選ぶ

    安定版が欲しいときは,下の「older versions」からダウンロード

    [image]
  4. .exe ファイルのダウンロードが始まる

    [image]
  5. ダウンロードした .exe ファイルを実行
  6. ようこそ画面では「Next」をクリック

    [image]
  7. ライセンス条項の確認
    ライセンス条項に同意する場合のみ続行すること.

    [image]
  8. ユーザの選択 (Choose Users).既定(デフォルト)のままでよい.「Next」をクリック

    [image]
  9. コンポーネントの選択 (Choose Components).

    対応言語を追加できる.

  10. インストールディレクトリ(フォルダ)は、既定(デフォルト)のままでよい.「Next」をクリック

    [image]
  11. スタートメニューフォルダは、既定(デフォルト)のままでよい.「Install」をクリック

    [image]
  12. インストール終了の確認.「Next」をクリック

    [image]
  13. インストール終了の確認.「Finish」をクリック

    [image]
  14. 日本語の文章が書かれた画像を用意する

    次の画像は、Wikipedia「日本国憲法前文」から取得

    URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

    [image]
  15. Windows のコマンドプロンプトを開く
  16. 画像から文字を認識してみる

    まず,コマンドプロンプトで,カレントディレクトリを,画像のファイルのあるディレクトリに移動する.

    「-l jpn」のところ: 日本語の横書き文書なら「-l jpn」、 日本語の書き文書なら「-l jpn_vert」、

    "C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
    

    [image]
  17. outbase.txtというファイルができるので,メモ帳で確認
    notepad outbase.txt
    

    [image]

    [image]
  18. 今度はサイズが大きい画像(画素数が多い画像)」

    次の画像は、Wikipedia「日本国憲法前文」から取得

    URL: https://ja.wikipedia.org/wiki/%E6%97%A5%E6%9C%AC%E5%9B%BD%E6%86%B2%E6%B3%95%E5%89%8D%E6%96%87#%E5%89%8D%E6%96%87

    [image]
  19. 画像から文字を認識してみる
    "C:\Program Files\Tesseract-OCR\tesseract.exe" <画像ファイル名> outbase -l jpn
    

    [image]
  20. outbase.txtというファイルができるので,メモ帳で確認
    解像度が精密なので,精度が向上している.
    notepad outbase.txt
    

    [image]

    [image]

本サイトは金子邦彦研究室のWebページです.サイトマップは,サイトマップのページをご覧下さい. 本サイト内の検索は,サイト内検索のページをご利用下さい.

問い合わせ先: 金子邦彦(かねこ くにひこ) [image]