腾讯姚顺雨团队发布署名论文,让模型“上下文学习”真正走向现实 时快讯
“即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。”2月3日,腾讯混元官网技术博客(Tencent HY Research)发表了一篇名为《从上下文中学习,远比我们想象的要难》的文章,系统的介绍了腾讯混元团队联合复旦大学的一项新研究。
(资料图片)
这是姚顺雨加入腾讯担任首席AI科学家后团队首次发布研究成果,也是腾讯混元技术博客首次公开。这一博客的推出,旨在分享腾讯混元研究员在前沿技术研究和实践中的探索与经验,呈现创新思路与技术洞察。
详情见:https://hy.tencent.com/research
过去几年,大语言模型快速进化,如今的前沿模型,已经是顶级的“做题家”:它们能解开奥数级别的难题,能推演复杂的编程逻辑,甚至能通过那些人类需要苦读数年才能拿下的专业资格考试。然而,在面临真实世界的任务时,模型表现还有待提升。
回看我们人类的日常工作:开发者扫过从未见过的工具文档,就能立刻开始调试代码;玩家拿起新游戏的规则书,在实战中边玩边学;科学家从复杂的实验日志中筛选数据,推导出新的结论和定律。这些场景中,人类并不只依赖多年前学到的“死知识”,而是在实时地从眼前的上下文(Context)中学习。
在这篇论文里,腾讯混元和复旦大学联合研究团队提到,要让大模型学会“从上下文中学习”,远比我们想象的要难。并且,即便抹平了上下文带来的信息差,模型也未必能解决问题,这说明模型在上下文利用上,依然存在显著的能力短板。
为了衡量现有模型距离真正的“上下文学习者”还有多远,研究团队构建了 CL-bench,这是一个专门评测语言模型能否从上下文中学习新知识并正确应用的基准。CL-bench 包含由资深领域专家精心制作的 500 个复杂上下文、1,899 个任务和 31,607 个验证标准。CL-bench只包含一个简单但苛刻的要求:解决每个任务要求模型必须从上下文中学习到模型预训练中不存在的新知识,并正确应用。
通过实验,论文发现,世界上排名前十的语言模型在 CL-bench 上的任务解决率平均只有17.2% ,也就是说即使是如今最强的语言模型,在上下文的利用方面仍然做得不好,甚至可以说是还不会利用上下文,从上下文中学习。
这也为大语言模型后续的迭代指出了一个可能的方向,强化模型从上下文中进行学习的能力。
在官方技术博客中还提到,如果模型的上下文学习能力能像之前其他能力那样被提升上去,人类在 AI 系统中的角色将发生转变:我们不再是主要的数据提供者(training data provider),而变成了上下文提供者(context provider),未来,竞争的焦点将从“谁能把模型训练得更好”,转向“谁能为任务提供最丰富、最相关的上下文”。
研究团队也强调,模型如何记忆很可能成为 2026 年大模型发展的另一个核心主题,并且,一旦上下文学习与记忆变得可靠,模型或许就能实现自主学习,它们将自主准备上下文,从中学习并自我巩固。
在加入腾讯之前,姚顺雨曾经发布了一篇名为《The Second Half》的博客,重点提到大模型下半场的重头戏是“评估”,此后在多次公开讲话中,他也提到了打造实用模型的目标,这可以视为他在腾讯混元团队的重点研发思路之一。本次CL-bench的推出,将成为模型上文学习能力评估的主要基准,为大模型学习更多解决现实世界难题提供帮助。
雅菲 晓风
校对 朱亚萍
标签: 最新资讯
图片推荐
频道最新
- 光电术后修复“黄金搭档”!艳存晓年轻胶原水光套组,修复抗衰双在线
- 成都FV佛罗伦萨小镇开启2026新春季: 以意式风情与地道年味,再定义城市“微度假”生活
- “冷白皮”已过时!现在流行胶原水光打造的“透光釉彩肌”
- 金玛开道福气加码!爱玛×周六福跨界联动,成都新春营销掀起热潮
- HTX Ventures 2025年度回顾与前瞻:监管清晰、资产上链与机构入场
- 寄件免收春节服务费!跨越物流双重福利护航年底货运高峰
- 平安融易四川分公司:金融暖乡野 共绘振兴图
- 航线新拓强韧性,跨越速运以西安⇌芜湖航线赋能快运物流
- “西安⇋芜湖”全货机航线开通,跨越物流查单号破解高峰查单痛点
- C位出道指南:不动刀不修图,胶原水光如何让你轻松赢在“镜头起跑线”

