分享好友 资讯首页 资讯分类 切换频道

RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架

2024-07-10 20:51460

【新智元导读】来自佐治亚理工学院和英伟达的两名华人学者带队提出了名为RankRAG的微调框架,简化了原本需要多个模型的复杂的RAG流水线,用微调的方法交给同一个LLM完成,结果同时实现了模型在RAG任务上的性能提升。

在需要大量事实知识的文本生成任务中,RAG成为了常用的LLM部署技巧。

但佐治亚理工学院和英伟达最近发表的一篇论文提出——RAG可以不止停留在用于推理的pipeline中,类似的思路完全可以移植到微调阶段,于是有了这个名为RankRAG的框架。

图片

论文地址:https://arxiv.org/abs/2407.02485

他们的思路可以概括为:用微调拓展模型的能力,把原来RAG需要额外模型的检索、排名任务全丢回给LLM自己。

结果发现,不仅数据效率提高了,模型性能也有显著增强,相比今年5月刚提出的ChatQA-1.5系列有显著优势。

在9个通用基准和5个生物医学的知识密集型基准上,RankRAG用Llama38B/70B微调出的模型分别超过了同样基座上ChatQA-1.5的两个微调模型,Llama3-ChatQA-1.5-8B和Llama3-ChatQA-1.5-70B。

图片

ChatQA-1.5项目地址:https://chatqa-project.github.io/

图片

检索增强生成技术,简称为RAG(Retrieval-Augmented Generation),被广泛适用于LLM的定制化,尤其是知识密集型的NLP任务。可以帮助模型在不改变权重的情况下掌握「长尾知识」和最新信息,并适应到特定的领域。

通常情况下,RAG的工作流程大致是:对于给定问题,由一个基于文本编码的稠密模型从外部数据库中检索到top-k个文本段,然后输入给LLM进行读取,以此为基础进行生成。

图片

来源:AWS

这个pipeline看起来非常符合直觉,也已经被广泛使用,但作者在论文开篇指出了其中的固有局限,首先就是k值的选择。

如果k值较大(比如top-100),即使是支持长上下文的窗口的LLM也很难快速读取这么多文本块。随着k值的增大,性能会很快饱和。

除了效率原因,之前还有研究表明,k值在5或10这个量级时,生成结果的准确性更高。因为过多上下文会引入不相关内容,妨碍LLM生成准确答案,

图片

《Retrieval meets Long Context Large Language Models》https://arxiv.org/abs/2310.03025

那把k值就定在这个区间不行吗?

如果给定一个较小的k,我们需要一种机制来保证检索结果的高召回率(recall)。

鉴于检索器的表达能力有限(通常是稀疏检索模型如BM25,或中等大小的编码模型如BERT-based),通常无法捕获所有相关信息,因此实际的应用过程还会加上一个交叉编码(cross-encoding)的排名模型。

排名模型从数据库中检索到top-N个候选 (N ≫ k),再经过一次排名得到最终top-k结果。

这种方案的缺陷在于,与通用的LLM本身相比,专家排名模型的零样本泛化能力相对有限,上游检索结果的质量很可能造成下游LLM生成任务的瓶颈。这在许多实证研究中都得到了验证。

基于上述考虑,作者认为可以只使用LLM同时完成上下文检索和内容生成任务,通过设计RAG的指令调优来实现,这种新颖的框架被命名为RankRAG。

OpenAI的GPT-4报告中就发现,检索、排名过程中发展出的「确定文本块与问题是否相关」的能力对答案的生成同样有用,这两者可以被视为「双重能力」。

RankRAG在训练过程中引入了一项带指令的问答任务,让模型能够识别出与问题相关的上下文或段落,便于在推理时对检索结果进行排名。

如果将一部分排名数据集成到指令微调中,还能大大增强LLM在RAG排名任务中的性能,甚至超过了单独用LLM和10×排名数据进行微调的结果。

RankRAG微调框架

在推理阶段,RankRAG的pipeline与上述的的「检索-排名-生成」流程几乎相同,首先检索出带有相关性分数的top-N结果,然后进行重新排名并保留top-k段落,将其与问题连接到一起进行生成。

主要的不同点在于模型训练过程,使用了两个阶段的指令微调(图2)直接增强LLM的相关能力,而不是在模型外部添加额外操作。

图片

第一阶段首先进行监督微调(SFT),128k个样例来自多个数据集的混合,包括对话数据集SODA、Dolly、OpenAssistant,长格式QA数据集ELI5(需要详细答案),LLM合成的指令,以及CoT数据集FLAN。

这个阶段的SFT主要是为了提高LLM的指令跟随能力,虽然与RAG关系不大,但可以为接下来的指令微调过程做好铺垫。

为了提升LLM的检索、排名性能,第二阶段的微调数据集由以下几个部分混合组成(表1):

举报
收藏 0
打赏 0
评论 0
牛 牛 房 间 卡 / 金 花 房 卡 代 理 零 售 神 龙 大 厅 / 微 信 链 接 房 卡 低 价 销 售
日前,电池企业德加能源发公告称,神龙大厅咨询房/卡添加微信:88355042受锂电池原材料价格大幅上涨影响,电池生产成本提高,该公

0评论2026-04-215

牌 九 房 间 卡 / 牛 牛 房 卡 制 作 链 接 西 游 联 盟 / 微 信 链 接 房 卡 批 发 价
西游联盟是一款非常受欢迎的棋牌游戏,咨询房/卡添加微信:【3329006910】或33549083许多玩家在游戏中会购买房卡来享受更好的游戏

0评论2026-04-216

牛 牛 创 建 房 间 / 斗 牛 房 卡 充 值 飞 鹰 互 娱 / 微 信 小 游 戏 充 值 房 卡
牛牛创建房间/斗牛房卡充值飞鹰互娱/微信小游戏充值房卡Sa9Ix苹果iPhone 17手机即将进入量产阶段。有消息称,富士康最大的iPhone

0评论2026-04-215

一 分 钟 了 解 ! 牛 牛 房 卡 官 网 新 天 王 / 老 夫 子 大 厅 / 微 信 链 接 房 卡 从 哪 里 购 得
IT之家 消息,新天王/老夫子大厅牛牛咨询房/卡添加微信:88355042市场调查机构 IDC 昨日发布博文,预测受苹果首款折叠屏 iPhone

0评论2026-04-213

牛 牛 房 间 卡 / 金 花 充 值 房 卡 好 游 联 盟 / 房 卡 怎 么 弄
据了解,好游联盟金花房卡添加微信33549083VARA大会是国内网络安全领域极具影响力的年度盛会,创办于2008年,是凝聚“政产学研用

0评论2026-04-214

金 花 房 间 卡 / 牛 牛 房 卡 是 正 规 的 海 草 众 厅 / 正 规 房 卡 链 接 在 哪 购 买
华盛顿--(美国商业资讯)--官方宣布:海草众厅添加微信33549083通往2026年国际足联世界杯(FIFA World Cup 26?)的道路始于Visa。

0评论2026-04-213

科 技 实 测 ! 牛 牛 房 卡 是 正 规 的 茄 子 娱 乐 / 房 卡 怎 么 弄
日前,电池企业德加能源发公告称,茄子娱乐咨询房/卡添加微信:88355042受锂电池原材料价格大幅上涨影响,电池生产成本提高,该公

0评论2026-04-214

微 信 金 花 / 牛 牛 房 卡 官 网 熊 猫 大 厅 / 微 信 链 接 房 卡 卖 家 联 系 方 式
熊猫大厅是一款非常受欢迎的棋牌游戏,咨询房/卡添加微信:【3329006910】或33549083许多玩家在游戏中会购买房卡来享受更好的游戏

0评论2026-04-217

玩 家 攻 略 , 牛 牛 房 卡 是 正 规 的 烛 龙 大 厅 / / 全 网 房 卡 低 价 售
玩家攻略,牛牛房卡是正规的烛龙大厅//全网房卡低价售Sa9Ix苹果iPhone 17手机即将进入量产阶段。有消息称,富士康最大的iPhone手

0评论2026-04-217

重 大 通 报 , 金 花 微 信 链 接 市 场 价 格 表 旺 旺 大 厅 / 微 信 链 接 房 卡 充 值 链 接
IT之家 消息,旺旺大厅牛牛咨询房/卡添加微信:88355042市场调查机构 IDC 昨日发布博文,预测受苹果首款折叠屏 iPhone 及三星三折

0评论2026-04-215