搜索智能体RAG落地不佳_UIUC开源s3仅需24k样本训练快效果好

2025-06-23

　　06月13日，★◆★◆◆■“神州北极”◆★◆：38支代表队比拼特色■◆“漠河菜”，太阳集团app下载，火狐体育iosapp下载★■，威廉希尔在线余名小球员在京角逐篮球技巧焦健陈楠现场指导，AG技巧平台，可提现的彩票平台，手机版彩票网站下载，澳门银银河480

　　「从原始问题开始检索」是方向正确的保障■■：我们发现，以用户原始问题作为第一轮检索的起点，有助于模型明确搜索目标、建立有效的检索路径。若不设置这一初始点■★，搜索策略往往偏离主题★■★，导致性能显著下降。「文档选择」机制显著降低 token 消耗★■◆★◆：该机制允许模型在每轮检索后主动筛选信息，从而避免将所有检索结果一股脑送入生成器。通过这一设计■★★◆，s3 的输入 token 平均减少了 2.6 至 4.2 倍，不仅提升了效率，也减少了噪声干扰，对生成效果有正面作用。

　　06月13日市场监管信用修复将设全国统一平台体育投注送88AG开户官网尊龙d88用现备用酷宝娱乐

　　06月13日广东气象部门解答11月为何还台风扎堆18bet是大公司吗哪个app可以玩免费德州乐虎国际登录湖南

　　当前，Agentic RAG（Retrieval-Augmented Generation）正逐步成为大型语言模型访问外部知识的关键路径■★。但在真实实践中■★◆■◆■，搜索智能体的强化学习训练并未展现出预期的稳定优势■◆★。一方面，部分方法优化的目标与真实下游需求存在偏离，另一方面，搜索器与生成器间的耦合也影响了泛化与部署效率◆★。

　　06月13日，（巴黎奥运）王鑫杰启蒙教练★◆★■■■：“石佛★■”般的性格让他很适合射击，银河网址下载，新濠天地足球，云顶国际app网址★★■◆★■，必赢亚洲手机app下载

　　将生成纳入训练目标（如 Search-R1），虽然可以提升整体答案准确率，但也会带来问题：

　　我们随后在五个医学领域的 QA 数据集上进一步评估了模型性能，测试使用了两个语料库：Wikipedia2018（与通用测试一致）和 MedCorp（ACL 2024）。结果显示★★◆，Search-R1 在其训练语料上表现良好，但在语料变更后显现出过拟合趋势★■■◆★◆；相比之下，s3 能稳定迁移至不同的数据集与语料库★★◆■■◆，凸显出其基于 searcher-only 优化策略的强泛化能力★★■。

　　在不同配置下，移除组件对性能的影响（平均准确率）。我们使用了三组设定进行对比，结果表明 s3 的设计在准确性与效率之间达到了最优平衡。

　　06月13日斯巴达勇士儿童赛北京站打响近18000名少年参赛威尼斯人游戏官网版下载十大正规体育平台排名K8凯发官网kaiyun体育app官方入口

　　06月13日宁夏：“妈妈的家常菜★■★■◆”让舌尖味道变■★◆■◆■“美丽经济”沙巴体育官网是多少千赢国际直播视讯亚星手机版登录app下载手机体球网足球比分

　　reward 优化曲线展示了我们的 reward 曲线个训练步骤（batch size 为 120）内便迅速「收敛」。这一现象支持两个推断◆★★■：（1）预训练语言模型本身已具备一定的搜索能力■■■★■■，我们只需通过合理的方式「激活」这种能力；（2）在一定范围内，适当增加每轮搜索的文档数量和最大轮次数，有助于提升最终性能。

　　无法判断性能提升究竟来自「更好的搜索」■■■★★◆，还是「更强的语言生成对齐能力」；对 LLM 参数依赖强，不利于模型迁移或集成；微调大模型成本高，限制了训练效率和模块替换的灵活性。

　　两者只要任意一个通过，则视为正确。这一指标在人工对比中与人类判断一致率高达96◆★■★★.4%★◆，相比之下■■◆■，EM 仅为15.8%

　　Search-R1 等方法采用Exact Match (EM)作为主要奖励指标★◆◆★，即答案是否与参字面一致。这一指标过于苛刻、对语义变体不敏感◆◆★◆■，在训练初期信号稀疏，容易导致模型优化「答案 token 对齐」而非搜索行为本身

　　我们（UIUC & Amazon）提出的s3（Search-Select-Serve）是一种训练效率极高、结构松耦合、生成效果导向的 RL 范式■★◆◆★。该方法使用名为Gain Beyond RAG (GBR)的奖励函数◆■■■◆，衡量搜索器是否真的为生成带来了有效提升。实验表明★◆■■■，s3 在使用仅2◆★★■.4k 训练样本的情况下★■◆★◆，便在多个领域问答任务中超越了数据规模大百倍的强基线（如 Search-R1、DeepRetrieval）。

　　如果我们真正关心的是「搜索提升了生成效果」，那就应该只训练搜索器、冻结生成器★★◆■，并以生成结果提升为奖励

　　我们对当前 Agentic RAG 方案效果不稳定、训练难、迁移能力弱的原因，归纳为三点■★◆◆：

　　我发回合制游戏，你来打分，刘德华《焚城》票房预测气象专家解答：海南今年极端天气为何频发？亚洲国际游戏官网澳门永利澳门下注宝博注册送18贝搏体育娱乐网址

　　这种不合理的信号会诱导模型在生成阶段做格式补偿，从而无法反映搜索策略本身是否有效

　　货车司机在车上给狗狗置办全景狗窝，天舟七号发射直播【小新的Vlog】次元壁破了！■■◆◆★“歪果仁”在青海玉树过起了游牧生活威尼斯人唯一官方牛牛真钱二八杠的公式打庄新利18体育

　　即：用 s3 搜索到的上下文喂给 Frozen Generator 之后的生成效果，相比初始的 top-k 检索结果是否更好◆◆◆■。值得注意的是，s3 训练时始终初始化于相同的原始 query，从而能清晰对比 s3 检索对结果带来的真实「增益」。

　　解除跆拳道的诅咒，谢震业疑退出200米强项商务部新闻发言人就欧盟有关单独与相关企业进行价格承诺谈判的表态答记者问纬来体育全站APP王者体育下载不了美高梅登入网站尊龙手机版登录

　　A2◆★★：我们设计 s3 的核心理念是■★◆■◆◆：如果我们想真正优化搜索效果，不应让生成器被训练，否则会混淆「搜索变好」与「语言模型变强」带来的增益。冻结生成器不仅提升了训练效率（节省大模型微调成本），也便于模型迁移到不同任务与生成器，真正做到「搜索能力即插即用」◆■■■★。

　　06月13日，新疆乌什发生7.1级强震阿克苏市区震感强烈民众户外避险，aoa官方体育下载，凯发娱乐app下载，世界杯足球官网★★◆■◆，yabo官网地址

　　A1★■◆◆★◆：Search-R1 原文使用 Exact Match（EM）作为 reward 和评估指标★■◆，并对模型进行了针对性微调。将这种针对 EM 优化的模型■■■■，与其他 zero-shot 方法比较◆■★■■■，略显不公平，也难以衡量搜索本身的效果■◆★◆■。因此我们采用更语义友好的 Generation Accuracy（GenAcc）■★■★，结合 span 匹配和 LLM 判断，与人类评估一致率达 96■◆◆★■.4%。相比之下■◆★★◆，EM 只能捕捉字面一致，反而容易误导模型优化方向。

　　DeepRetrieval◆★：以 Recall、NDCG 等搜索指标为优化目标，专注于检索器本身的能力；Search-R1：将检索与生成联合建模，以最终答案是否 Exact Match 作为强化信号，优化整合式的搜索 - 生成策略。

　　06月13日（文化中国行）国家博物馆馆长：2024年入馆观众中35岁以下年轻人占比超六成tvt体育彩票im与体育有什么不同互博国际手机客户端酷游ku官网登录页

　　EM、span match 等传统 QA 指标主要关注输出结果，与搜索质量关联有限。而 search-oriented 指标（如 Recall@K）虽可度量 retriever 性能■◆，却无法体现这些信息是否真的被模型「用好」◆◆◆◆。这些偏差直接导致现有 RL Agentic RAG 方法在评估、训练和泛化上均存在瓶颈■■■★★。

　　06月13日大熊猫■■“福宝”在四川与公众见面 10天内听懂◆★★◆★■“乡音”添彩网快速入口澳门十大正规游戏澳门威尼斯游戏365bet娱乐场在线日携程副总裁王韦：旅游已成生活必需品旅游业展现强大韧性全民大富翁利来国际AG开元棋牌在哪开户同升国际……

　　我们预筛除掉了「naive RAG 就能答对」的样本；将训练样本集中在需要真正检索的新信息的任务上；Generator 完全冻结，训练代价完全集中在 Searcher。

　　柳叶摘星辰，LOL天龙祈愿抽到了什么美媒★■■：大规模枪案频发美国深陷暴力危机推筒子和二八杠qy88vip千赢国际官网球探网专家竞彩bet365网页版

　　尽管 RL 方法在思路上更具主动性与交互性，但在实际落地中仍面临诸多挑战。

　　06月13日，推动高质量发展·权威发布｜广西已建成36条出省出海出边高速公路通道★★◆◆◆，188宝金博手机版登陆，乐鱼官网登录cba，和记娱乐在线买球，亚娱体育下载

　　06月13日，台风“康妮”携风浪袭福建部分海域渔船到港避风，伟德电子网投，贝博体育官网平台，大发app在线，伟德官网入口

　　06月13日■■★◆■◆，最高法：对性侵害未成年人犯罪始终坚持“零容忍■■”，澳门所有的娱乐平台，亚盈网址★★■■■，易火棋牌官方，cq9武圣规律

　　明日有晴天，詹姆斯连续三场三双第22届亚洲壁球团体锦标赛在大连开赛近200名中外运动员参赛美高梅信誉大红鹰官网登录伟德体育平台网址银河游戏网址7163

　　总体来看，s3 设计中的「起点初始化 + 动态选择」是支撑其高效、强泛化性能的关键◆■。即使在某些数据集上通过增加输入内容能获得短期增益，s3 原始结构在训练效率、推理速度与生成准确率上依然展现出更稳定的优势。

　　迷风花道歉◆◆★■■■，林诗栋法兰克福冠军赛夺冠学者集聚慈溪金仙寺忆浙东抗日历史博狗注册彩金环球app官方沙巴体育充值首页欧冠决赛2017全场回放

关键词：