PDFマークダウン変換プログラム
ユーザーガイド・詳細仕様書: README.md
ソースコード: app.py
Windows 11 実行形式ファイル: app.exe (PyInstaller を用いて作成)
利用法:コマンドによる実行.コマンドプロンプトで「app.exe <入力ファイル名> -o <出力ファイル名>」を実行する.「-o <出力ファイル名>」は省略可能.
【概要】本プログラムは,PDFファイルを解析し,テキスト要素とその書式情報を抽出して,マークダウン形式に変換するプログラムである.PDFMinerライブラリ(PDFファイルからテキストを抽出するための高度なライブラリ)を使用し,PDFファイルのテキスト要素,スタイル情報,レイアウト情報を抽出する.PowerPointから生成されたPDFとその他のPDFでは異なる変換基準を適用することにより,文書の階層構造を保持した変換を実現する.また,もとのページ番号をコメントとして含める.


ソースコード app.py の中身: