Domtree定义
在RAG(检索增强生成)系统中,高质量的文档解析是确保下游任务准确性和效率的关键基础。作为文档解析模块的核心组成部分,DomTree协议通过结构化表征文档的层级与语义关系,将复杂异构的原始文档转化为可编程、可 推理的树形逻辑结构。
结构定义
| 字段名称 | 字段说明 | 数据类型 |
|---|---|---|
| root | 根节点 | Node |
| source_file | 文档来源 | object |
| id | 文件ID | string |
| name | 文件名 | string |
| type | eg: pdf | string |
| mime_type | eg: application/pdf | string |
| version | 文件版本号 | number |
| summary | 摘要 | string |
| tokens | token预估数量 | number |
| path | 编号的层级信息,例如:[1,2,1] | array[number] |
| element | 元素信息 | Element |
| type | 以下中的一种["Text","Title","List","Catalog","Table","Figure","Formula","Code","ListItem"] | string |
| positions | 位置信息,可能跨页所以是个数组 | array[Position] |
| bbox | 文档中的矩形坐标信息,例如:[90.1,263.8,101.8,274.3] | array[double] |
| page | 页码 | integer |
| name | 如果类型是Table、Figure为其名字 | string |
| description | 如果类型是Table、Figure为其描述 | string |
| text | 文本信息,图片ocr的文字 | string |
| image | 图片信息 | image |
| type | 可以是 image_url、image_base64、image_file | string |
| url | 链接地址 | string |
| base64 |