牛了,UMG-RAG实现自适应检索粒度 今天分享普渡大学的 UMG-RAG 论文它回答了一个每个做 RAG 的人都会遇到的问题chunk size 到底该设多少答案是别拍脑袋定一个固定值。不同查询需要不同粒度而检索器自己的分数分布会告诉你——它对当前查询有多确定。粒度权衡粗了有噪声细了会漏检RAG 的检索粒度是一个根本性权衡粗粒度 chunk如 32 句一段保留了完整上下文答案很可能就在里面。但同时也塞了大量无关内容让 LLM 遭遇 lost-in-the-middle——答案确实在上下文里但被噪声淹没模型可能忽略它。细粒度 chunk如 2 句一段更精确噪声少。但短 chunk 可能缺乏语义线索、实体别名或桥接上下文导致检索器根本找不到它。更关键的是不同查询需要不同粒度。一个简单事实查询可能 2 句就够一个需要多跳推理的查询可能需要 16 句的上下文来桥接信息。固定粒度注定无法同时服务两类查询。UMG-RAG 的思路是与其人工选一个粒度不如同时用多种粒度检索然后根据检索器自己对每条查询的确定程度来决定信谁。主方案UMG-RAGUMG-RAG 是 training-free 的。它不训练新 retriever不修改 generator只在现有 dense 和 sparse retriever 之上加了一层自适应融合。第一步多粒度多通道检索文档被切成 5 种粒度的重叠 chunk2、4、8、16、32 句。对每种粒度dense retriever如 BGE-M3和 sparse retriever如 SPLADEv3各自检索 top-M100 个候选。这样每条查询产生 5 × 2 10 组候选列表每组对应一个 expert-粒度对。第二步分数分布 → 证据分布 → 熵 → 置信度核心机制从这里开始。不同 expert、不同粒度的分数不可直接比较——dense 分数和 sparse 分数量级不同粗粒度分数和细粒度分数分布也不同。所以 UMG-RAG 先把每组分数归一化然后转化成证据分布p_{e,g}(u|q) softmax(s̃_{e,g}(q,u))这个分布衡量的是expert e 在粒度 g 下把多少证据质量集中在候选 u 上。然后计算归一化熵H_{e,g}(q) -Σ p·log(p) / log(|C|)低熵 分布集中 检索器有明确偏好 可信****高熵 分布平坦 检索器犹豫不决 不可信置信度就是c_{e,g}(q) 1 - H_{e,g}(q)所有 10 组 expert-粒度对的置信度归一化后作为融合权重w_{e,g}(q)。第三步置信度加权融合 长度惩罚排序每个 chunk 的最终证据概率是所有 expert-粒度对的置信度加权混合P(u|q) Σ w_{e,g}(q) · p_{e,g}(u|q)然后按 evidence utility 排序R(u|q) P(u|q) / sqrt(ℓ(u))ℓ(u)是 chunk 的 token 长度。sqrt 惩罚温和地偏袒紧凑 chunk但如果一个长 chunk 获得了很强的证据支持它仍然可以排名靠前。最终取 top-K5 个 chunk 送入 generator。这个设计的本质是让检索结果自己告诉你它有多可靠。对于词汇匹配明确的查询sparse retriever 在细粒度上的分数分布会很尖锐低熵高置信权重自然偏向它对于需要语义理解的查询dense retriever 在粗粒度上的分数分布可能更集中权重就会偏向它。不需要训练不需要人工调参。UMGP-RAG细粒度做定位器粗粒度做上下文UMG-RAG 还有一个扩展UMGP-RAGP Parent Promotion。问题细粒度 chunk 检索精准但可能上下文不够粗粒度 chunk 上下文完整但噪声多。UMGP-RAG 的解法Parent promotiong2 或 g4 的命中 chunk提升到其 g8 的 parent chunk。细粒度检索充当定位器告诉系统答案大概在这里返回给 generator 的是更宽的 parent提供局部连贯性。Bounded evidence aggregation多个细粒度 chunk 映射到同一个 parent 时用A(v) 1 - Π(1-P(u))聚合证据。多个命中的 parent 会获得更高分数——直觉上如果多个独立检索信号都指向同一个区域那里更可能包含答案。Overlap-aware deduplication如果两个 chunk 的句子重叠超过 75%较短者为准跳过后来的。这避免了返回几乎相同的上下文。实验结果论文在 Natural QuestionsNQ和 HotPotQA 上测试使用 3 个 dense retrieverBERT / BGE-M3 / Qwen3-Embedding-4B SPLADEv3 sparse retriever2 个 generatorQwen2.5-3B / Llama-3.2-3B。最关键的发现检索召回最高 ≠ 生成最好以 BGE-M3 Qwen2.5-3B-Instruct 在 NQ 上为例方法AR5检索F1生成AR生成LongRAG0.91010.45980.4219Hybrid (RRF)0.82410.49270.4727UMG-RAG0.80230.48090.4593UMGP-RAG0.87590.50520.4794LongRAG 的检索召回率最高0.91因为它的 chunk 很长答案几乎一定在里面。但生成 F1 和 AR 却不如 UMGP-RAG——因为长 chunk 里太多噪声答案可能出现在 LLM 不容易注意到的位置。UMGP-RAG 的检索召回略低于 LongRAG但生成质量最好。这验证了论文的核心主张RAG 需要的不是最长的上下文而是紧凑、连贯、与查询对齐的上下文。Parent promotion 持续有效在所有 retriever-generator 组合中UMGP-RAG 都优于 UMG-RAG。这说明自适应融合最有效的方式是用细粒度检索定位用粗粒度 parent 返回上下文。成本多粒度检索确实增加了预处理开销标准 RAG 0.15s/queryUMGP-RAG 5.36s/query。但生成阶段反而更快更省内存0.33s vs 0.71s6716 MiB vs 7558 MiB因为送入 generator 的上下文更紧凑。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】