大模型也要接受同行评议

当下的大型语言模型(LLM)没有一款在学术期刊中接受过独立的同行评审。取而代之的是AI公司爆炸式的自我宣传和以“打榜”“跑分”为核心的表演化展示。对此《自然》杂志认为,由学术期刊主导的同行评议仍是评估AI能力水平的金标准。

责任编辑:朱力远

2025年9月18日出版的顶级学术期刊《自然》杂志刊登了由DeepSeek创始人梁文锋作为通讯作者的研究论文《DeepSeek-R1通过强化学习激发大语言模型的推理能力》。

与此同时,同一期《自然》还刊登了题为《让大模型接受同行评议有什么好处》的社论,对DeepSeek这种公开接受学术共同体同行评议的行为给予了正面肯定。

没有一款大模型LLM在学术期刊中接受过独立的同行评审。视觉中国|图

没有一款大模型LLM在学术期刊中接受过独立的同行评审。视觉中国|图

不仅如此,这一期的《自然》还以“自助式推理”(Self-help)的封面标题和导语的形式,以 DeepSeek-R1为样本,将“步骤外化+自验证”的做法描述为当前AI发展的主流提升路径。

《自然》这种极为少见的封面标题和导语+社论+研究文章“一期三连”的做法,明确地表达了对当前AI发展的态度和立场。

发展模式与堆料瓶颈

近几年方兴未艾的人工智能领域发展的一个主流趋势,就是使用更加高效化的引擎和模型架构,同时加大模型和数据集的规模,以此获得更加智能、更加高效的人工智能程序。在诸如OpenAI研发的GPT系列,以及同样由DeepMind研发的AlphaFold系列等人工智能上,都可以看到最新一代的发布间隔越来越短,与此同时相较于前一代有着性能的巨大提升。

这种高速发展的背后,就是当下人工智能发展热潮,对于算力和能耗的疯狂内卷。

据AI研究机构AI纪元(Epoch AI)的统计数据:2010至2024年“显著模型”的训练计算量年均约增长4.1倍。这相当于每过六个月,训练模型的计算量就要翻倍。

而根据美国电力研究所(EPRI)的预测,到2028年,训练AI模型的能耗功率将可能达到十亿到二十亿瓦的级别。而到了2030年,这个数据的峰值则可能达到160亿瓦。这差不多相当于三峡水电站满发电负荷下的七成输出电量。

与算力和能耗疯狂内卷所对应的,是“堆料”所能带来的AI模型的性能提升正在逐渐放缓。正如有的研究所指出的,现今主流AI模型的参数已经来到了万亿级别。但是每个token仅激活少量“专家”(专业化子模型)。参数低效、路由失衡,需要更多工程步骤才能让模型见效正成为现在AI模型的一大问题。

《自然》这一期的卷首语,正是对AI模型这种内卷式的堆料研发的批评。

而这一期《自然》的社论,则指

登录后获取更多权限

立即登录

校对:吴依兰

欢迎分享、点赞与留言。本作品的版权为南方周末或相关著作权人所有,任何第三方未经授权,不得转载,否则即为侵权。

{{ isview_popup.firstLine }}{{ isview_popup.highlight }}

{{ isview_popup.secondLine }}

{{ isview_popup.buttonText }}