图源:Unsplash

撰文 |张天祁

责编 |李珊珊

4月13日,斯坦福大学发布了《2026年AI指数报告》。这是一份业内人士翘首以待的AI领域重磅年度报告,报告以243页的篇幅、9个章节、数百张图表,记录了过去一年AI发展的真实面貌。

在这份报告中,AI的发展继续一路高歌猛进,大量原本预期可以维持数年的高难度基准测试,如今往往在几个月内便告破防。然而,在一些普通人类可以轻松完成的"简单"任务中,AI却依然屡屡碰壁。

AI持续进化的同时,全球地缘AI格局也在悄然生变。作为后来者,中国大模型的性能正日渐逼近美国。在AI领域,美国仍拥有更多顶尖大模型和高影响力专利;而中国在论文发表数量、引用次数、专利产出和工业机器人装机量方面,已呈现出明显的领先趋势。

此外,报告还涉及AI4Science、AI与教育、大模型透明度、AI对就业的影响,以及大模型相关的能源与算力等议题。

以下为报告中的重要数据与结论摘选:

01 顶级模型性能,中美只差2.7%

过去几年间,大家有一个普遍的印象:美国在大模型领域遥遥领先,中国在努力追赶但始终有差距。但本次报告给出了一个不一样的判断,中国的顶级的大模型已经基本追上了美国。

2025年2月,DeepSeek发布的R1模型短暂追平了彼时的美国最强模型。当时DeepSeek-R1(1400分)仅比当时领先的美国模型 o1-2024-12-17(1405分)落后0.4%。此后两国模型多次交替领先。

2025年,美国产出了50个代表性模型,中国产出了30个。根据各个模型在Arena排行榜上的得分,截至2026年3月,Anthropic的顶级模型在Arena排行榜上以Elo分1503领先,差距约为2.7%,且在过去一年中一直在持平到个位数范围内波动。



事实上,当前顶级AI梯队已经高度密集。在参考国际象棋建立的AI等级分系统里,Anthropic(1503)、xAI(1495)、谷歌(1494)、OpenAI(1481)、阿里巴巴(1449)、DeepSeek(1424),这六家公司的模型已经全部挤进同一个分档,也就意味着这些中美AI领域的“顶级高手”实力非常接近。竞争更多比的已经不是性能,而是向成本、可靠性和特定场景表现转移。此外,按代表性模型数量统计,阿里巴巴、DeepSeek、清华大学和字节跳动均位列全球前十。



但在模型和机构评分之外,两国的AI格局仍然存在结构性差异。

美国私人AI投资达到2859亿美元,是中国124亿美元的23倍以上。另一方面,自2000年以来,中国政府引导基金向AI公司注入的资金累计已达约1840亿美元。

中国论文数量、引用量、专利总量上领先,并以一国之力占据了2024年全球54%的工业机器人安装量,且这一比例还在扩大。

在论文的引用占比方面,中国AI论文在2024年贡献了20.6%的AI引用,欧洲为19.5%,美国为12.6%。在高被引论文中,美国仍然每年排名第一,但其份额从2021年的64篇下降至2024年的46篇,中国则上升至2024年的41篇,差距已经很小。

从专利数量上看,中国占据绝对多数,占全球总量的 74.2%。美国位列第二,占 12.1%。但从引用上来说,全世界50%的专利引用都出自于美国专利,而且美国专利通常被引用更快且更稳定,仅有 19% 未被引用。相比之下,其他地区这一比例为 32%–44%。从专利的影响力上看,美国仍更具优势。

从人才上讲,2025年,美国在高影响力AI研究者与发明人规模上仍领先于其他国家。在吸引顶尖AI人才这方面。美国自2020年以来一直保持人才净流入状态,吸引的人才多于流出的人才。

但这一优势正在减弱,自 2017 年以来,移居美国的顶尖 AI 研究人员和开发人员数量下降了 89%。净流入规模从2022年的峰值324.6下降至2025年的26.0。



02 AI飞速进化,现有的测量基准被攻陷

理解 AI 的能力,很大程度上依赖于一套不断被使用的评测体系。长期以来,无论是学术界还是产业界,都共享着相对稳定的基准框架:通过分数、排名与标准化任务来比较模型能力。但今年AI的能力飞涨,一些测量基准开始跟不上AI的脚步了。

首先,AI能力的进步实在太快。原本预期可以维持好几年的高难度评估,如今往往在几个月就被失守了。

一些几年前AI表现还很不行的领域,都在今年有了飞速的进步。包括博士级科学问题(GPQA Diamond)、多模态推理(MMMU)以及数学推理(AIME),都达到或者接近了人类专家水平。

变化最直观的是多模态推理领域。MMMU要求模型在文本与视觉信息之间建立对应关系,例如读取图表中的约束条件并将其应用到文字问题,或根据工程与医学示意图推导答案。到2026年2月,Gemini 3.1 Pro Preview在该基准上取得88.2%的成绩,仅比人类专家基准低0.4个百分点。

另一项进展出现在纯文本高难度推理任务上。GPQA主要评估研究生级别的科学推理能力,问题设计刻意排除了依赖检索的可能性,需要通过多步推导才能完成。

在该基准的Diamond子集中,模型表现已率先超过81.2%的专家验证基准(见图2.4.2)。这一突破发生在2024年末,由OpenAI的o3首次实现,达到87.7%。随后一年中,平均准确率继续上升,到2025年提升至93%,稳定超过专家参考线。



在真实软件工程任务测试集 SWE-bench Verified 上,模型在修复 bug 的表现相较人类基准,从约60%的完成水平迅速提升至接近100%,虽然还没有真正达到人类基准,但这一过程仅用了不到一年时间。

“人类最后的考试”(Humanity's Last Exam)还没有失守。这个基准是专门为难住AI而设计的,出题方有意拔高难度,想让它至少维持几年的有效性。但是从2024到2025年,它的准确率提升约30个百分点,从不足10%上升至38.3%。

另外,很多评价基准本身也有问题。一项针对主流基准的系统性审查显示,其中无效或存在问题的题目比例差异极大:在 MMLU 的数学子集上约为 2%,而在 GSM8K 中则高达 42%。这意味着,在一些被频繁引用测试中,接近一半的题目本身并不具备稳定的测量意义。然而,我们还在用这些基准测量AI是否达到人类水平。

第三个问题是操纵。已有研究指出,在某些公开排行榜(如 Arena)上的排名,可能并不完全反映模型的真实通用能力,只是模型适应了平台的出题风格。

AI的能力在以肉眼可见的速度增长,但我们赖以描述这种增长的语言和工具,反而出现了失效。我们越来越难以回答一个最基本的问题:这些模型到底有多好?

03 能拿奥运金牌,但却看不懂手表

通过一套基准来判断AI能力的另一个问题是,AI实在是偏科过于严重。

2025年的IMO(国际数学奥林匹克竞赛)上,谷歌的Gemini Deep Think以35分的成绩获得金牌,在4.5小时的限时内全程用自然语言推理作答,比2024年的银牌成绩(28分)大幅提升。

但在ClockBench这个测试模型能否读取指针式时钟的评测中,最强模型的正确率只有50.1%,而人类的成绩是90.1%。同一个系统,能解开人类顶级数学家才能驾驭的竞赛题,但是却看不懂手表。



这就是报告所描述的“锯齿状智能”(jagged intelligence):AI的能力边界不是一条平滑的曲线,而是一条参差不齐的锯齿。它可以在某些人类最难的任务上完胜,却在某些人类小学生都能完成的任务上溃败。

在AI 智能体和机器人方面,问题也是相似的。在 OSWorld(跨操作系统真实任务测试)中,AI 智能体的成功率从 12% 提升至约 66%,但仍有约 1/3 任务失败。机器人在实验室模拟环境 RLBench 中,成功率达到 89.4%。但是真实情景中的成功率只有12%。

04 做题胜过科学家,但做研究还不行

“科学”章节是今年报告新增的一章,它通过一组数据展示了AI在科学领域的进展速度,同时也揭示了其可靠性仍然有限。

在ChemBench上,前沿模型在2700多道化学题目上的平均表现超越了人类化学家,但同时在基础任务上表现挣扎。在ReplicationBench上,这些模型试图复现天体物理学已发表论文的实验结果,得分低于20%。

做题和做研究,是两件完全不同的事。前者考验的是从已有知识中检索和推理的能力;后者要求的是理解一个实验的完整逻辑、处理真实数据的噪声、在不确定条件下作出判断。目前的AI在前者上已经相当出色,在后者上仍然非常有限。

在端到端科研任务评测PaperArena上,最好的AI 智能体得分38.8%,博士专家的基准是83.5%,不到一半。在真实生物信息学分析任务BixBench上,前沿模型的准确率约为17%。在地球观测问题评测UnivEarth上,AI agent的回答准确率为33%,生成的代码有58%运行失败。



2025年,第一篇完全由AI生成的论文在同行评审的研讨会上被接受,谷歌的AI Co-Scientist也在三个生物医学领域获得了实验验证。然而,经过实验确认的AI科学发现,清单仍然很短。

05 最强的模型,也是最不透明的模

2025年,产业界贡献了超过90%的代表性AI模型,但最强的模型仍然主要是闭源模型。训练代码、参数规模、数据集规模与训练时长等关键信息,在OpenAI、Anthropic和谷歌等资源投入最密集的模型中,已基本停止对外披露。

在2020年,开源与未公开训练代码的模型数量还是大致相当的。但到了2025年,在95个重要模型中,有80个未公开其训练代码,仅有4个实现了代码开源。



从性能上,开源模型曾短暂逼近闭源模型,甚至接近改写格局的边界,但在2025年和闭源模型又稍稍拉开了差距。

双方的起点差距很大,2023年5月,闭源模型 GPT-4-0314 在 Arena 排行榜上领先最强开源模型 Vicuna-13B 达174分(15.2%)。但随后一年中,随着 Mixtral、WizardLM 和 Llama-3.1-405B 等模型相继出现,开源模型快速缩小差距,到2024年8月已将差距压缩至仅7分(0.5%),一度接近追平。

然而,进入2025年后,随着 o1-preview 和 Gemini 2.5 Pro 等新一代闭源模型发布,领先优势再次回到闭源阵营。截至2026年3月,Claude Opus 4.6(1503分)重新拉开与最强开源模型 GLM-5(1454分)的距离,差距回到49分(3.4%)。

这一趋势在“基础模型透明度指数”上同样清晰可见。这是一个一个用0到100分衡量AI模型“开放程度”的指标体系,评分依据包括:模型权重是否可以自由获取与授权使用,以及训练方法、预训练数据与后训练数据的透明度水平。现在的主流模型的开放程度普遍较低,大多数得分集中在2到16分之间。

该指数的业界平均分在2023年为37分,2024年上升到了58分,一度让人对透明度改善抱有期待。然而2025年,这个数字跌回了40分,几乎抹掉了一年间的所有进展。



06 生产率在提升,入门级岗位在消失

总体来看,AI对经济增长具有一定的促进作用,但对就业来说却未必。

一项针对1.2万家欧洲企业的研究发现,AI采用使劳动生产率提高了4%,而培训能够进一步增强这一效果。在美国,2025年的生产率增长达到2.7%,几乎是过去十年平均水平1.4%的两倍。

对打工人的利好是,AI在很多领域真的能提高效率。在客服领域,AI带来了14%至15%的生产率提升;在软件开发领域,实测提升幅度达26%;在营销内容输出方面甚至高达73%。生成式AI工具为美国消费者带来的年度价值估计已达1720亿美元,较一年前的1120亿美元增长54%,且其中大多数工具是免费或接近免费获取的。

但是从就业上看,AI对年轻人很不友好。AI正在逐渐替代职业阶梯的最底层,也就是那些原本由年轻人来承担的入门级工作。年轻人失去的不只是一份薪水,而是积累经验、进入行业的通道本身。

从数据上看,美国22–25岁的年轻群体中,高AI暴露职业的就业水平相比低暴露职业下降了约16%。这一差距差距自2024年年中开始扩大,并在此后持续增长。



这一点,在年轻的软件开发者身上体现的特别明显。美国22-25这个年龄段的软件开发者,就业人数自2024年以来下降了近20%。与此形成对比的是,更年长的开发者群体人数仍在增长。

虽然从整体来说,AI还没有明确导致失业,但是从雇主的态度上,可能很多职位在未来都会受到削减。据麦肯锡2025年的调查,约三分之一的受访者预计员工规模将出现下降,而且这一比例在大型企业(年收入≥10亿美元的企业)中更高,而只有很少的雇主计划增加人手。



报告还补充了一个细节。有证据显示,对AI的高度依赖可能带来长期学习惩罚,减慢人类技能的发展速度。生产率的短期提升,与人类能力的长期侵蚀,可能不是非此即彼的,而是正在同时进行。

07 能源与算力

自2022年以来,全球AI算力能力以每年3.3倍的速度增长,已达到约1710万H100等效算力单位。

美国共拥有5427个数据中心,是其他任何国家的10倍以上,同时其能源消耗也高于世界上任何其他国家。德国(529个)、英国(523个)和中国(449个)位列其后,其余大多数国家的数据中心数量均不足300个。

AI公司的收入正以罕见速度增长,但算力与基础设施成本同步攀升,且增速同样显著,这主要体现在云服务商资本开支的快速扩张上,例如谷歌在2025年的资本支出已超过1500亿美元。

资源消耗也随着模型能力同步上升。Grok 4 的训练排放约为 72816 吨二氧化碳当量,AI 数据中心电力容量达到 29.6 GW,这一规模接近纽约州的峰值电力需求。仅 GPT-4o 的年度推理用水量,就可能超过 1200 万人的饮用水需求。不过模型能力未必完全等于能源消耗,DeepSeek v3 的排放就显著低于同规模模型。

从规模上看,整体AI系统的用电需求已接近瑞士或奥地利的全国电力消费水平,也大约相当于比特币挖矿的一半。在不计入加密货币的情况下,全球数据中心的电力需求约为47000 MW,其中AI硬件所占比例正在持续上升。



08 教育与治理,制度明显滞后

AI 的扩散速度明显快于以往技术。生成式 AI 在三年内已经达到 53% 的人口使用率,这一速度超过了个人电脑和互联网。企业层面的采用率达到 88%,大学生中约有 80% 已经使用生成式 AI 工具。

在印度、中国、尼日利亚、阿联酋和沙特阿拉伯等新兴经济体中,超过80%的受访者表示在工作中经常使用AI,同时这些国家的信任水平也相对较高。

教育系统中,AI也已经广泛普及。超过 80% 的美国中学生和大学生在学习中使用 AI。反倒是学校没有跟上学生的脚步,只有约一半的学校制定了相关政策,而认为政策清晰的教师仅占 6%。

正规教育对AI发展的反应正在显现出明显滞后,而越来越多的人开始绕开传统教育体系,通过证书课程、在线学习和在职实践学习AI。

总体来看,AI素养类技能(例如为AI写提示词)的增长更为迅速,但在阿联酋、智利和南非等国,AI工程技能(例如构建AI智能体)增长得更快,意味着在这些国家,学习不再停留在对工具的理解,而是更多进入应用与实践,在真实使用中学习。

从治理上看,民众对AI的信任程度并不高。根据皮尤(Pew)调查,专家与公众对AI的预期已经出现了明显的分歧。在美国,73% 的专家认为 AI 会对工作产生正面影响,而公众中持相同看法的仅为 23%。近三分之二的美国人(64%)预计人工智能将在未来 20 年内导致就业岗位减少,而只有 5% 的人预计会增加就业岗位。在医疗和经济方面,双方同样分歧严重。



不仅是不信任专家,美国公众对AI政府监管的信任度为 31%,在被调查国家中处于最低水平。也就是说,AI能力最强的国家,恰恰是本国公众最不信任其政府来治理AI的国家。

而从美国国会的听证会人员构成来看,涉AI听证会的参与者中,业界代表比例从2017年的13%飙升至2025年的37%,成为最大的群体,学术界则降至15%。民众对于AI的不信任,并非没有理由。谁在主导关于AI的政策讨论,数字已经给出了答案。

参考文献: