斯坦福2026报告：中国AI模型追上美国,斯坦福人工智能夏令营

图源：Unsplash

撰文 |张天祁

责编 |李珊珊

4月13日，斯坦福大学发布了《2026年AI指数报告》。这是一份业内人士翘首以待的AI领域重磅年度报告，报告以243页的篇幅、9个章节、数百张图表，记录了过去一年AI发展的真实面貌。

在这份报告中，AI的发展继续一路高歌猛进，大量原本预期可以维持数年的高难度基准测试，如今往往在几个月内便告破防。然而，在一些普通人类可以轻松完成的"简单"任务中，AI却依然屡屡碰壁。

AI持续进化的同时，全球地缘AI格局也在悄然生变。作为后来者，中国大模型的性能正日渐逼近美国。在AI领域，美国仍拥有更多顶尖大模型和高影响力专利；而中国在论文发表数量、引用次数、专利产出和工业机器人装机量方面，已呈现出明显的领先趋势。

此外，报告还涉及AI4Science、AI与教育、大模型透明度、AI对就业的影响，以及大模型相关的能源与算力等议题。

以下为报告中的重要数据与结论摘选：

01 顶级模型性能，中美只差2.7%

过去几年间，大家有一个普遍的印象：美国在大模型领域遥遥领先，中国在努力追赶但始终有差距。但本次报告给出了一个不一样的判断，中国的顶级的大模型已经基本追上了美国。

2025年2月，DeepSeek发布的R1模型短暂追平了彼时的美国最强模型。当时DeepSeek-R1（1400分）仅比当时领先的美国模型 o1-2024-12-17（1405分）落后0.4%。此后两国模型多次交替领先。

2025年，美国产出了50个代表性模型，中国产出了30个。根据各个模型在Arena排行榜上的得分，截至2026年3月，Anthropic的顶级模型在Arena排行榜上以Elo分1503领先，差距约为2.7%，且在过去一年中一直在持平到个位数范围内波动。

事实上，当前顶级AI梯队已经高度密集。在参考国际象棋建立的AI等级分系统里，Anthropic（1503）、xAI（1495）、谷歌（1494）、OpenAI（1481）、阿里巴巴（1449）、DeepSeek（1424），这六家公司的模型已经全部挤进同一个分档，也就意味着这些中美AI领域的“顶级高手”实力非常接近。竞争更多比的已经不是性能，而是向成本、可靠性和特定场景表现转移。此外，按代表性模型数量统计，阿里巴巴、DeepSeek、清华大学和字节跳动均位列全球前十。

但在模型和机构评分之外，两国的AI格局仍然存在结构性差异。

美国私人AI投资达到2859亿美元，是中国124亿美元的23倍以上。另一方面，自2000年以来，中国政府引导基金向AI公司注入的资金累计已达约1840亿美元。

中国论文数量、引用量、专利总量上领先，并以一国之力占据了2024年全球54%的工业机器人安装量，且这一比例还在扩大。

在论文的引用占比方面，中国AI论文在2024年贡献了20.6%的AI引用，欧洲为19.5%，美国为12.6%。在高被引论文中，美国仍然每年排名第一，但其份额从2021年的64篇下降至2024年的46篇，中国则上升至2024年的41篇，差距已经很小。

从专利数量上看，中国占据绝对多数，占全球总量的 74.2%。美国位列第二，占 12.1%。但从引用上来说，全世界50%的专利引用都出自于美国专利，而且美国专利通常被引用更快且更稳定，仅有 19% 未被引用。相比之下，其他地区这一比例为 32%–44%。从专利的影响力上看，美国仍更具优势。

从人才上讲，2025年，美国在高影响力AI研究者与发明人规模上仍领先于其他国家。在吸引顶尖AI人才这方面。美国自2020年以来一直保持人才净流入状态，吸引的人才多于流出的人才。

但这一优势正在减弱，自 2017 年以来，移居美国的顶尖 AI 研究人员和开发人员数量下降了 89%。净流入规模从2022年的峰值324.6下降至2025年的26.0。

02 AI飞速进化，现有的测量基准被攻陷

理解 AI 的能力，很大程度上依赖于一套不断被使用的评测体系。长期以来，无论是学术界还是产业界，都共享着相对稳定的基准框架：通过分数、排名与标准化任务来比较模型能力。但今年AI的能力飞涨，一些测量基准开始跟不上AI的脚步了。

首先，AI能力的进步实在太快。原本预期可以维持好几年的高难度评估，如今往往在几个月就被失守了。

一些几年前AI表现还很不行的领域，都在今年有了飞速的进步。包括博士级科学问题（GPQA Diamond）、多模态推理（MMMU）以及数学推理（AIME），都达到或者接近了人类专家水平。

变化最直观的是多模态推理领域。MMMU要求模型在文本与视觉信息之间建立对应关系，例如读取图表中的约束条件并将其应用到文字问题，或根据工程与医学示意图推导答案。到2026年2月，Gemini 3.1 Pro Preview在该基准上取得88.2%的成绩，仅比人类专家基准低0.4个百分点。

另一项进展出现在纯文本高难度推理任务上。GPQA主要评估研究生级别的科学推理能力，问题设计刻意排除了依赖检索的可能性，需要通过多步推导才能完成。

在该基准的Diamond子集中，模型表现已率先超过81.2%的专家验证基准（见图2.4.2）。这一突破发生在2024年末，由OpenAI的o3首次实现，达到87.7%。随后一年中，平均准确率继续上升，到2025年提升至93%，稳定超过专家参考线。

在真实软件工程任务测试集 SWE-bench Verified 上，模型在修复 bug 的表现相较人类基准，从约60%的完成水平迅速提升至接近100%，虽然还没有真正达到人类基准，但这一过程仅用了不到一年时间。

“人类最后的考试”（Humanity's Last Exam）还没有失守。这个基准是专门为难住AI而设计的，出题方有意拔高难度，想让它至少维持几年的有效性。但是从2024到2025年，它的准确率提升约30个百分点，从不足10%上升至38.3%。

另外，很多评价基准本身也有问题。一项针对主流基准的系统性审查显示，其中无效或存在问题的题目比例差异极大：在 MMLU 的数学子集上约为 2%，而在 GSM8K 中则高达 42%。这意味着，在一些被频繁引用测试中，接近一半的题目本身并不具备稳定的测量意义。然而，我们还在用这些基准测量AI是否达到人类水平。

第三个问题是操纵。已有研究指出，在某些公开排行榜（如 Arena）上的排名，可能并不完全反映模型的真实通用能力，只是模型适应了平台的出题风格。

AI的能力在以肉眼可见的速度增长，但我们赖以描述这种增长的语言和工具，反而出现了失效。我们越来越难以回答一个最基本的问题：这些模型到底有多好？

03 能拿奥运金牌，但却看不懂手表

通过一套基准来判断AI能力的另一个问题是，AI实在是偏科过于严重。

2025年的IMO（国际数学奥林匹克竞赛）上，谷歌的Gemini Deep Think以35分的成绩获得金牌，在4.5小时的限时内全程用自然语言推理作答，比2024年的银牌成绩（28分）大幅提升。

但在ClockBench这个测试模型能否读取指针式时钟的评测中，最强模型的正确率只有50.1%，而人类的成绩是90.1%。同一个系统，能解开人类顶级数学家才能驾驭的竞赛题，但是却看不懂手表。

这就是报告所描述的“锯齿状智能”（jagged intelligence）：AI的能力边界不是一条平滑的曲线，而是一条参差不齐的锯齿。它可以在某些人类最难的任务上完胜，却在某些人类小学生都能完成的任务上溃败。

在AI 智能体和机器人方面，问题也是相似的。在 OSWorld（跨操作系统真实任务测试）中，AI 智能体的成功率从 12% 提升至约 66%，但仍有约 1/3 任务失败。机器人在实验室模拟环境 RLBench 中，成功率达到 89.4%。但是真实情景中的成功率只有12%。

04 做题胜过科学家，但做研究还不行

“科学”章节是今年报告新增的一章，它通过一组数据展示了AI在科学领域的进展速度，同时也揭示了其可靠性仍然有限。

在ChemBench上，前沿模型在2700多道化学题目上的平均表现超越了人类化学家，但同时在基础任务上表现挣扎。在ReplicationBench上，这些模型试图复现天体物理学已发表论文的实验结果，得分低于20%。

做题和做研究，是两件完全不同的事。前者考验的是从已有知识中检索和推理的能力；后者要求的是理解一个实验的完整逻辑、处理真实数据的噪声、在不确定条件下作出判断。目前的AI在前者上已经相当出色，在后者上仍然非常有限。

在端到端科研任务评测PaperArena上，最好的AI 智能体得分38.8%，博士专家的基准是83.5%，不到一半。在真实生物信息学分析任务BixBench上，前沿模型的准确率约为17%。在地球观测问题评测UnivEarth上，AI agent的回答准确率为33%，生成的代码有58%运行失败。

2025年，第一篇完全由AI生成的论文在同行评审的研讨会上被接受，谷歌的AI Co-Scientist也在三个生物医学领域获得了实验验证。然而，经过实验确认的AI科学发现，清单仍然很短。

05 最强的模型，也是最不透明的模

2025年，产业界贡献了超过90%的代表性AI模型，但最强的模型仍然主要是闭源模型。训练代码、参数规模、数据集规模与训练时长等关键信息，在OpenAI、Anthropic和谷歌等资源投入最密集的模型中，已基本停止对外披露。

在2020年，开源与未公开训练代码的模型数量还是大致相当的。但到了2025年，在95个重要模型中，有80个未公开其训练代码，仅有4个实现了代码开源。

从性能上，开源模型曾短暂逼近闭源模型，甚至接近改写格局的边界，但在2025年和闭源模型又稍稍拉开了差距。

双方的起点差距很大，2023年5月，闭源模型 GPT-4-0314 在 Arena 排行榜上领先最强开源模型 Vicuna-13B 达174分（15.2%）。但随后一年中，随着 Mixtral、WizardLM 和 Llama-3.1-405B 等模型相继出现，开源模型快速缩小差距，到2024年8月已将差距压缩至仅7分（0.5%），一度接近追平。

然而，进入2025年后，随着 o1-preview 和 Gemini 2.5 Pro 等新一代闭源模型发布，领先优势再次回到闭源阵营。截至2026年3月，Claude Opus 4.6（1503分）重新拉开与最强开源模型 GLM-5（1454分）的距离，差距回到49分（3.4%）。

这一趋势在“基础模型透明度指数”上同样清晰可见。这是一个一个用0到100分衡量AI模型“开放程度”的指标体系，评分依据包括：模型权重是否可以自由获取与授权使用，以及训练方法、预训练数据与后训练数据的透明度水平。现在的主流模型的开放程度普遍较低，大多数得分集中在2到16分之间。

该指数的业界平均分在2023年为37分，2024年上升到了58分，一度让人对透明度改善抱有期待。然而2025年，这个数字跌回了40分，几乎抹掉了一年间的所有进展。

06 生产率在提升，入门级岗位在消失

总体来看，AI对经济增长具有一定的促进作用，但对就业来说却未必。

一项针对1.2万家欧洲企业的研究发现，AI采用使劳动生产率提高了4%，而培训能够进一步增强这一效果。在美国，2025年的生产率增长达到2.7%，几乎是过去十年平均水平1.4%的两倍。

对打工人的利好是，AI在很多领域真的能提高效率。在客服领域，AI带来了14%至15%的生产率提升；在软件开发领域，实测提升幅度达26%；在营销内容输出方面甚至高达73%。生成式AI工具为美国消费者带来的年度价值估计已达1720亿美元，较一年前的1120亿美元增长54%，且其中大多数工具是免费或接近免费获取的。

但是从就业上看，AI对年轻人很不友好。AI正在逐渐替代职业阶梯的最底层，也就是那些原本由年轻人来承担的入门级工作。年轻人失去的不只是一份薪水，而是积累经验、进入行业的通道本身。

从数据上看，美国22–25岁的年轻群体中，高AI暴露职业的就业水平相比低暴露职业下降了约16%。这一差距差距自2024年年中开始扩大，并在此后持续增长。

这一点，在年轻的软件开发者身上体现的特别明显。美国22-25这个年龄段的软件开发者，就业人数自2024年以来下降了近20%。与此形成对比的是，更年长的开发者群体人数仍在增长。

虽然从整体来说，AI还没有明确导致失业，但是从雇主的态度上，可能很多职位在未来都会受到削减。据麦肯锡2025年的调查，约三分之一的受访者预计员工规模将出现下降，而且这一比例在大型企业（年收入≥10亿美元的企业）中更高，而只有很少的雇主计划增加人手。

报告还补充了一个细节。有证据显示，对AI的高度依赖可能带来长期学习惩罚，减慢人类技能的发展速度。生产率的短期提升，与人类能力的长期侵蚀，可能不是非此即彼的，而是正在同时进行。

07 能源与算力

自2022年以来，全球AI算力能力以每年3.3倍的速度增长，已达到约1710万H100等效算力单位。

美国共拥有5427个数据中心，是其他任何国家的10倍以上，同时其能源消耗也高于世界上任何其他国家。德国（529个）、英国（523个）和中国（449个）位列其后，其余大多数国家的数据中心数量均不足300个。

AI公司的收入正以罕见速度增长，但算力与基础设施成本同步攀升，且增速同样显著，这主要体现在云服务商资本开支的快速扩张上，例如谷歌在2025年的资本支出已超过1500亿美元。

资源消耗也随着模型能力同步上升。Grok 4 的训练排放约为 72816 吨二氧化碳当量，AI 数据中心电力容量达到 29.6 GW，这一规模接近纽约州的峰值电力需求。仅 GPT-4o 的年度推理用水量，就可能超过 1200 万人的饮用水需求。不过模型能力未必完全等于能源消耗，DeepSeek v3 的排放就显著低于同规模模型。

从规模上看，整体AI系统的用电需求已接近瑞士或奥地利的全国电力消费水平，也大约相当于比特币挖矿的一半。在不计入加密货币的情况下，全球数据中心的电力需求约为47000 MW，其中AI硬件所占比例正在持续上升。

08 教育与治理，制度明显滞后

AI 的扩散速度明显快于以往技术。生成式 AI 在三年内已经达到 53% 的人口使用率，这一速度超过了个人电脑和互联网。企业层面的采用率达到 88%，大学生中约有 80% 已经使用生成式 AI 工具。

在印度、中国、尼日利亚、阿联酋和沙特阿拉伯等新兴经济体中，超过80%的受访者表示在工作中经常使用AI，同时这些国家的信任水平也相对较高。

教育系统中，AI也已经广泛普及。超过 80% 的美国中学生和大学生在学习中使用 AI。反倒是学校没有跟上学生的脚步，只有约一半的学校制定了相关政策，而认为政策清晰的教师仅占 6%。

正规教育对AI发展的反应正在显现出明显滞后，而越来越多的人开始绕开传统教育体系，通过证书课程、在线学习和在职实践学习AI。

总体来看，AI素养类技能（例如为AI写提示词）的增长更为迅速，但在阿联酋、智利和南非等国，AI工程技能（例如构建AI智能体）增长得更快，意味着在这些国家，学习不再停留在对工具的理解，而是更多进入应用与实践，在真实使用中学习。

从治理上看，民众对AI的信任程度并不高。根据皮尤（Pew）调查，专家与公众对AI的预期已经出现了明显的分歧。在美国，73% 的专家认为 AI 会对工作产生正面影响，而公众中持相同看法的仅为 23%。近三分之二的美国人（64%）预计人工智能将在未来 20 年内导致就业岗位减少，而只有 5% 的人预计会增加就业岗位。在医疗和经济方面，双方同样分歧严重。

不仅是不信任专家，美国公众对AI政府监管的信任度为 31%，在被调查国家中处于最低水平。也就是说，AI能力最强的国家，恰恰是本国公众最不信任其政府来治理AI的国家。

而从美国国会的听证会人员构成来看，涉AI听证会的参与者中，业界代表比例从2017年的13%飙升至2025年的37%，成为最大的群体，学术界则降至15%。民众对于AI的不信任，并非没有理由。谁在主导关于AI的政策讨论，数字已经给出了答案。

参考文献：

[1] Sha Sajadieh, Loredana Fattorini, Raymond Perrault, Yolanda Gil, Vanessa Parli, Lapo Santarlasci, Juan Pava, Nestor Maslej, Russ Altman, Erik Brynjolfsson, Carla Brodley, Jack Clark, Virginia Dignum, Vipin Kumar, James Landay, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Elham Tabassi, Russell Wald, Toby Walsh, Dan Weld. “The AI Index 2026 Annual Report,” AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, April 2026.