Bella Domify
一个贝壳开源的文档解析Python库。使用Python lib包形式引入,也可以服务化方式运行,支持多种文档格式的解析和转换。
功能特点
支持多种文件格式
- Word文档 (DOCX/DOC)
- Excel表格 (XLSX/XLS)
- CSV文件
- PowerPoint演示文稿 (PPTX)
- 文本文件
- 图片文件
解析功能
- 版面解析 (Layout Parse):提取文档的基本布局结构,包括文本块和图片块
- DOM树解析 (DomTree Parse):构建详细的文档对象模型,便于进一步处理和分析
- Markdown转换:将解析结果转换为Markdown格式
高级功能
- 图像处理