分享好友 资讯首页 资讯分类 切换频道

OpenAI科学家:现有模型+后训练足以产生黎曼猜想的新证明

2024-12-29 17:57420

一个全新的模型能力衡量指标诞生了?!

OpenAI科学家塞巴斯蒂安・布贝克(Sebastien Bubeck)(下图左)表示:

AI模型的能力可以用AGI时间来衡量:

GPT-4可以完成人类需要几秒或几分钟的任务;o1可以完成人类需要若干小时完成的任务,也就是可以用“AGI小时”衡量的任务;明年,模型可能会实现AGI日,并在3年后实现AGI周,能够解决重大的开放问题。

看到AGI时间这个新概念,网友们也是立即就展开了热烈的讨论。

有人认为,如果模型可以达到人类需要数周或数月才能完成的任务,也就代表它可以将长期推理和计划结合起来,也就和真正的AGI差不多了:

图片

不过也有人表示这个说法有点模糊,人脑也很难机械地把任务完成时间限定为几个月、几年:

图片

而反方辩手汤姆·麦考伊(Tom Mccoy)则对LLM能否解决复杂的开放性问题持怀疑态度。

他表示,语言模型虽令人惊叹,但能力源于训练数据,目前没有证据显示它们可以产生能解决开放问题的新范式。

让两位大佬争论不休的问题,就是最近由世界知名理论计算机科学机构Simons Institute提出的辩题:

当前基于缩放定律的LLM,能否在未来几年内产生可以解决重大数学难题(如P≠NP、黎曼假设)的证明技术。

图片

持正方观点的塞巴斯蒂安・布贝克是应用数学博士,曾在普林斯顿大学担任助理教授,后在微软研究院任职十年,主导开发了 Phi 系列小语言模型,也是Sparks of AGI(AGI的火花)论文的重要作者之一。

此次辩论中,塞巴斯蒂表示他坚信LLM潜力无限,认为以当前模型的能力加上更多的数据和后期训练就足以解决数学难题。

图片

反方辩手汤姆是认知科学博士,现任耶鲁大学语言学助理教授,

他也是“Embers of Autoregression(自回归余烬)”论文的主要作者,文中他深刻剖析了当前LLM的局限性。

图片

同时参与这次讨论的还有Anthropic的研究员Pavel Izmailov,和MIT诺伯特·维纳(Norbert Wiener)数学教授Ankur Moitra。

在不改变原意的基础上,量子位对本次辩论的主要观点进行了梳理总结,希望能带给你更多的启发和思考。

正方:o1已展现出自发的涌现模式

塞巴斯蒂安首先用数据回顾了LLM最近几年的发展历程,他表示GPT系列已在多领域的基准测试上都表现亮眼

比如在MMLU测试中,GPT-4成绩飙升至86%,o1模型更是逼近95%,远超 GPT-3的50%,在高中科学知识问答方面已接近人类90% 的水平。

图片

在医学诊断领域,GPT-4准确率高达90%,远超人类医生的75%,有力证明了模型强大的学习与应用能力,且这种提升趋势为解决数学难题奠定基础。

图片

图片来自论文Superhuman performance of a large language model on the reasoning tasks of a physician

他进一步指出:

智能发展层级递进显著,GPT-4只有AGI秒级思考能力,而o1模型已达AGI分钟甚至小时级别。

依此趋势,未来实现AGI日级、周级思考时长指日可待,可能明年、后年就能达到。

届时,模型将拥有充足时间和能力深入思考复杂数学问题,从而找到解决重大猜想的路径。

同时他还强调了后训练技术的重要性:后训练技术是挖掘模型深层潜力的关键

从GPT-3.5开始,模型就可以实现在后训练过程中提取智能。到了o1模型时代,其采用的强化学习等创新训练范式,使模型在复杂任务(比如编程、数学)处理上实现质的飞跃。

尤其是在特定数学问题中,o1能迅速关联看似不相关的知识概念,自发地涌现出一些新的思路,为解决难题提供新线索。

图片

反方:当前缩放定律依赖数据、存在幻觉,难以产生新思考模式

汤姆则认为,目前LLM的发展存在3个明显制约:

1.LLM受训练数据频率限制严重:

在单词计数和排序任务中,数据频率影响清晰可见。如统计单词数量时,对常见长度列表准确率高,罕见长度则大幅下降;排序任务中,对常用的字母正序处理良好,逆序则表现不佳。

这表明模型在面对新证明技术这类低频任务时,缺乏创造性突破的根基,难以跳出训练数据的固有模式。

而且,根据各种测评数据,模型能力与数据量级呈对数关系,未来想要提升模型能力需要新的指数级数据,而目前已有严重数据瓶颈,在未来几年很难迅速突破。

2.长推理过程中的幻觉问题是致命伤:

即使类o1模型在多步推理场景下进步显著,但LLM仍易生成错误信息。随着数学证明篇幅拉长,极低的错误率也会因累积效应使证明失效。

也就是人们常说的“薄弱环节会破坏整个推理链条”,严重阻碍模型解决复杂数学证明的能力。

o1已经可以和人类专家合作,但想要独自解决数学问题,必须做到超越人类,目前看起来比较困难,甚至还无法达到以稳健的方式使用现有想法

图片

3.当前缩放方法本质缺陷难破:

基于语言预测的训练模式,使模型在处理数学问题时难以直接触及深度推理和创新思维核心。

比如在数学符号处理和抽象逻辑推导方面,模型的处理方式与专业数学方法相比缺乏专业推导,需要从底层架构和训练理念上进行彻底变革。

随后正方还对反方观点进行了驳斥。

塞巴斯蒂安表示,当前很多人类的顶级成果是依靠组合现有知识产生的,而模型在这个方面的能力会通过强化学习进一步发展。

而且人类在超过50页的证明中也经常会出错,未来可以让不同的智能体进行合作互相指正,可以有效减少这一方面的失误。

其他专家:需结合证明验证器、符号空间探索等方式

Anthropic研究员帕维尔・伊斯梅洛夫也发表了观点,他认为LLM在识别数据结构上确有优势,但数学领域专业性强,需借助强化学习与Lean等证明验证器构建有效训练机制。

图片

鉴于数学的独特性,探索类似AlphaGo式的非LLM智能搜索方法符号空间的应用,或许能为解决数学难题另辟蹊径,突破语言模型固有局限。

针对观众的提问“飞机也不是完全模拟鸟类的飞行,为什么一定要要求LLM模拟人类思维”的问题,帕维尔首先表示赞同,AlphaGo带给人类的一个惊喜正是来自于它可以用很多人类没有的方法下棋。

但同时他也指出:

也许以人类的方式做事的唯一理由是,如果我们关心的是试图理解证明、并提取一些定义之类的东西,那么我们希望它至少是类人或人类可读的。但我认为如果我们关心的是证明能力,比如能够证明事物,那么不一定要以类人的方式。

MIT诺伯特·维纳数学教授安库尔・莫伊特拉(Ankur Moitra)也发表了自己的看法。

他也赞同重大数学问题的解决绝非简单的能力堆叠:

我们关心数学难题,关心的不只是具体的证明细节,更希望可以在证明的过程中产生可以引发数学体系变革的新想法

他认为当前LLM 虽在部分任务取得进展,但与解决如黎曼假设这类问题所需的深度和创新性仍相距甚远。

安库尔还提议,未来模型发展或许应聚焦于知识在模型中的有效表示、数学家与模型间的高效协作模式等关键层面,探索新的突破方向。

现场还进行了一次不记名投票,可以看到正反方的观点基本还是持平的~

图片

感兴趣的朋友可以查看完整视频和论文。

请在手机微信登录投票

你觉得未来几年内LLM可以解决重大数学难题吗?单选

参考链接:

[1]辩论完整视频:https://www.youtube.com/live/H3TnTxVKIOQ

[2]Sebastien Bubeck撰写的论文Sparks of AGI:https://arxiv.org/abs/2303.12712

[3]Tom McCoy撰写的论文Embers of Autoregression:https://arxiv.org/abs/2309.13638

举报
收藏 0
打赏 0
评论 0
3分钟按摩瘦脸运动打造V字巴掌脸
3分钟按摩瘦脸运动可以帮助改善面部轮廓,但需配合长期坚持和科学方法。瘦脸效果因人而异,主要与面部水肿、肌肉紧张、脂肪分布等因素相关。面部按摩通过促进血液循环和淋巴回流,有助于缓解晨起或疲劳导致的水肿型面部浮肿。使用指腹从下巴向耳垂方向轻柔提拉,配合从鼻翼向太阳穴的画圈动作,每次持续1-2分钟。这种方法对因睡眠姿势不当或饮水过量引起的暂时性水肿效果较明显。按摩时可配合含咖啡因成分的护肤产品,但需避开

0评论2026-04-135

后葡萄膜炎有哪些症状
后葡萄膜炎的症状主要有视力下降、眼前黑影飘动、闪光感、视物变形、眼红等。后葡萄膜炎是指发生在眼球后段葡萄膜的炎症,可能由感染、自身免疫性疾病、外伤等因素引起,建议患者就医检查明确病因。1、视力下降视力下降是后葡萄膜炎的常见症状,患者可能感觉视物模糊或视野中央出现暗点。炎症导致视网膜或脉络膜水肿、渗出液积聚,影响光线在视网膜上的成像。部分患者可能伴随黄斑区受累,造成中心视力显著减退。医生可能通过眼底

0评论2026-04-136

长期冥想的人大脑会发生什么变化
长期冥想可显著改善大脑结构与功能,主要变化包括前额叶皮质增厚、杏仁核体积缩小、默认模式网络活动减弱、海马体灰质密度增加、脑电波α波增强。1、前额叶增厚:长期冥想者前额叶皮质厚度增加约5%,该区域负责高级认知功能。规律冥想能促进前额叶神经元树突分支增多,增强注意力控制与决策能力。功能性核磁共振显示,冥想者执行认知任务时前额叶激活程度更高,这种结构性改变在持续8周的正念训练后即可观察到。2、杏仁核缩小

0评论2026-04-134

藏红花泡酒的正确方法和步骤
藏红花泡酒的正确方法主要包括选材处理、基酒选择、比例调配、密封浸泡和过滤储存五个步骤。藏红花酒具有活血化瘀、疏肝解郁的功效,适合气血不畅人群适量饮用。1、选材处理:选用色泽暗红、无霉变的特级藏红花,去除花蕊杂质后阴干备用。每500毫升酒建议使用3-5克藏红花,过量可能引起活血过度。药材处理时避免暴晒或高温烘烤,以免有效成分挥发。2、基酒选择:50度左右纯粮白酒最佳,既能有效萃取藏红花苷等活性成分,

0评论2026-04-134

刚出生一个月的婴儿鼻子有鼻屎怎么办
刚出生一个月的婴儿鼻子有鼻屎可通过生理盐水滴鼻、棉签轻柔清理、吸鼻器辅助、调整环境湿度、观察伴随症状等方式处理。婴儿鼻塞可能由鼻腔分泌物干燥、环境刺激、轻微感冒等因素引起。1、生理盐水滴鼻使用无菌生理盐水滴鼻液软化鼻屎是安全有效的方法。将婴儿仰卧,头稍后仰,每侧鼻腔滴入1-2滴生理盐水,等待1-2分钟后鼻屎会变软。该方法适用于鼻屎干燥附着的情况,能避免黏膜损伤。注意选择不含防腐剂的婴儿专用生理盐水

0评论2026-04-134

过敏性紫癜会病变什么病症呢
过敏性紫癜可能继发肾炎、关节炎、肠套叠等病症,主要并发症包括紫癜性肾炎、关节肿胀、消化道出血、神经系统损伤及罕见的心肌炎。1、紫癜性肾炎:约30%-60%患者会累及肾脏,表现为血尿、蛋白尿或肾功能异常。发病机制与免疫复合物沉积在肾小球有关,轻症可通过糖皮质激素控制,重症需联合免疫抑制剂。尿液检查异常持续3个月以上提示慢性化风险。2、关节肿胀:大关节如膝关节、踝关节最常受累,表现为对称性肿痛但无关节

0评论2026-04-134

紧急避孕药可以喂奶吗
哺乳期女性服用紧急避孕药后需暂停哺乳48小时,药物成分可能通过乳汁影响婴儿健康。1、药物代谢:紧急避孕药主要成分为左炔诺孕酮,口服后2小时内血药浓度达峰值,半衰期约24小时。哺乳期女性服药后,药物会进入乳汁,婴儿通过吸食可能摄入激素成分。研究显示单次剂量后48小时乳汁中仍可检出微量药物残留。2、婴儿风险:新生儿肝脏代谢功能未完善,摄入外源性激素可能干扰内分泌系统。临床观察发现部分婴儿出现烦躁、腹泻

0评论2026-04-135

口腔扁平苔藓特效药
口腔扁平苔藓尚无特效药,治疗以缓解症状和延缓病情进展为主,常用药物包括糖皮质激素类、免疫调节剂、局部镇痛剂等。口腔扁平苔藓是一种慢性炎症性黏膜疾病,可能与免疫异常、遗传因素、精神压力等因素有关,需在医生指导下综合治疗。1、糖皮质激素曲安奈德口腔软膏或地塞米松贴膜可用于局部涂抹,减轻黏膜炎症和疼痛。糖皮质激素通过抑制免疫反应缓解症状,但长期使用可能导致黏膜萎缩或继发感染,需严格遵医嘱控制疗程。适用于

0评论2026-04-134

每天晚饭吃西红柿会瘦吗
每天晚饭吃西红柿可能辅助减重,但需结合整体饮食与运动。减重效果主要取决于热量缺口、膳食搭配、代谢水平、运动消耗及个体差异。1、热量控制:西红柿每100克仅含18千卡,低热量特性有助于减少晚餐总摄入。但单一食物无法直接导致减重,需确保全天热量消耗大于摄入。若其他餐次高热量饮食,仅靠西红柿难以形成有效缺口。2、膳食纤维作用:西红柿富含2.2克/100克的膳食纤维,可延缓胃排空速度,增强饱腹感从而减少夜

0评论2026-04-133

扁桃体肿大化脓怎么消
扁桃体肿大化脓可通过抗感染治疗、局部护理、物理降温、饮食调整、手术治疗等方式缓解。扁桃体肿大化脓通常由细菌感染、病毒感染、免疫力低下、邻近器官炎症蔓延、环境刺激等因素引起。1、抗感染治疗细菌感染引起的扁桃体化脓需遵医嘱使用抗生素,如阿莫西林克拉维酸钾片、头孢克肟分散片、罗红霉素胶囊等。病毒感染时可使用利巴韦林颗粒或蒲地蓝消炎口服液。用药期间需完成全程治疗,避免耐药性产生。伴随发热超过38.5℃时需

0评论2026-04-135