PDFマークダウン変換プログラム

ユーザーガイド・詳細仕様書: README.md

ソースコード: app.py

Windows 11 実行形式ファイル: app.exe (PyInstaller を用いて作成)

利用法:コマンドによる実行.コマンドプロンプトで「app.exe <入力ファイル名> -o <出力ファイル名>」を実行する.「-o <出力ファイル名>」は省略可能.

【概要】本プログラムは,PDFファイルを解析し,テキスト要素とその書式情報を抽出して,マークダウン形式に変換するプログラムである.PDFMinerライブラリ(PDFファイルからテキストを抽出するための高度なライブラリ)を使用し,PDFファイルのテキスト要素,スタイル情報,レイアウト情報を抽出する.PowerPointから生成されたPDFとその他のPDFでは異なる変換基準を適用することにより,文書の階層構造を保持した変換を実現する.また,もとのページ番号をコメントとして含める.


ソースコード app.py の中身: