跳到主要内容

Domtree定义

在RAG(检索增强生成)系统中,高质量的文档解析是确保下游任务准确性和效率的关键基础。作为文档解析模块的核心组成部分,DomTree协议通过结构化表征文档的层级与语义关系,将复杂异构的原始文档转化为可编程、可推理的树形逻辑结构。

结构定义

字段名称字段说明数据类型
root根节点Node
source_file文档来源object
id文件IDstring
name文件名string
typeeg: pdfstring
mime_typeeg: application/pdfstring
version文件版本号number
summary摘要string
tokenstoken预估数量number
path编号的层级信息,例如:[1,2,1]array[number]
element元素信息Element
type以下中的一种["Text","Title","List","Catalog","Table","Figure","Formula","Code","ListItem"]string
positions位置信息,可能跨页所以是个数组array[Position]
bbox文档中的矩形坐标信息,例如:[90.1,263.8,101.8,274.3]array[double]
page页码integer
name如果类型是Table、Figure为其名字string
description如果类型是Table、Figure为其描述string
text文本信息,图片ocr的文字string
image图片信息image
type可以是 image_url、image_base64、image_filestring
url链接地址string
base64图片base64编码string
file_id上传到file-api的文件IDString
rows表格才有的属性,表格的行array[Cell]
cells单元格属性Cell
path单元格在表格中的位置 start row, end row, start column, end columnarray[number]
text文本string
nodes单元格式复杂元素时使用,node内的path从头开始编号array[Node]
children子节点信息array[Node]