简介
MyPDFConverter
是一个用于批量处理 PDF 文件,将其内容(包括表格、图片等)提取并转换为 Markdown 文件的工具。支持图片上传至 MinIO,并自动替换 Markdown 内部图片链接。
依赖
- Python 3.x
- docling_core
- docling
- commonutils
- MinIO(可选,用于图片上传)
主要功能
- 批量处理指定目录下所有 PDF 文件
- 自动提取表格并保存为图片
- 支持 OCR(光学字符识别)
- 生成 Markdown 文件,图片可上传至 MinIO 并替换链接
6/16/25大约 4 分钟