Bella-RAG - 智能检索增强生成系统
Bella-RAG是一个基于Django和LlamaIndex框架的RAG(Retrieval-Augmented Generation)最佳实践,提供文档理解、索引构建、检索问答等完整的RAG基础能力。
🚀 核心特性
🏆 技术优势
- 🔥 业界领先的文档解析: 文档结构化解析效果业界领先,支持复杂版面和多模态内容理解,文档解析能力见bella-domify
- 🎯 高精度检索技术: 利用多路召回、small2big、rerank等技术,兼顾语义检索效果与信息完整度,多场景验证综合结果可用率 > 85%
- 🧠 Contextual RAG增强: 支持Contextual RAG技术,在chunk编码前预先添加解释性的上下文信息,大幅提升检索准确率
- 🚀 Deep RAG智能agent模式: 基于Planning and Solve模式的智能agent,通过自动制定执行计划(圈定文件范围 → 阅读文件 → 反思)、步骤式执行和动态重规划,实现比传统RAG更优的问答效果
- 🔧 策略插件化架构: 检索策略完全可插拔,调用方可根据业务场景灵活调整检索策略及参数,满足不同领域需求
🛠️ 系统特性
- 多格式文档支持: 支持PDF、Word、Excel、HTML、Markdown等多种文档格式
- 向量化存储: 集成Qdrant向量数据库(可自部署)或腾讯向量数据库,提供高效的向量存储和检索
- 安全的混合架构: 向量数据库仅存储向量,原始文档内容安全存储在MySQL中
- 灵活的检索策略: 支持多种检索模式和重排序算法
- 完整的API: 提供完整的RESTful API接口
- 异步处理: 与file-api打通,支持Kafka异步任务处理
- 一键初始化: 提供自动化脚本快速完成环境配置