I. 执行摘要
2024至2025年标志着人工智能(AI)加速发展的新阶段。其主要特征表现为:AI在各项全新且更严苛的基准测试中性能显著提升;功能强大且高效的小型模型迅速普及;生成式AI和智能体AI(Agentic AI)技术日趋成熟;AI在关键行业的融合应用不断深化。然而,伴随这些进展,AI领域也面临着日益复杂的挑战,包括负责任AI的实践、地缘政治格局的演变以及对健全治理机制的迫切需求。
核心趋势:
- AI在各类任务中的性能持续提升 1。
- 通过更小、更经济高效的模型以及开源项目的推动,AI技术日益普及化 1。
- 生成式AI的应用范围已从文本、图像扩展到高保真视频和三维环境构建。
- 智能体AI作为一种实现自主任务执行的颠覆性模式正在兴起。
- 全球范围内AI研发领域的竞争与合作日趋激烈。
- 对有效AI治理及负责任AI实践的需求日益迫切。
战略启示:
AI技术的飞速发展,要求企业、政策制定者和研究人员持续进行战略调整,致力于在充分释放AI潜力的同时,有效控制其潜在风险。在人才培养、基础设施建设和伦理框架构建方面的投入至关重要。
II. AI能力边界的持续拓展
A. 基础模型的进步:推动性能新高度
-
在严苛基准测试中的性能飞跃:
2023年,业界引入了MMMU、GPQA和SWE-bench等一系列全新且更具挑战性的基准测试,旨在检验先进AI系统的能力极限 1。截至2024至2025年,AI模型在这些测试中取得了显著进展:MMMU、GPQA和SWE-bench的得分分别提升了18.8、48.9和67.3个百分点 1。这种在 新设立的高难度 基准上取得的快速进步尤为关键,它表明当前主流的AI范式(如Transformer架构)尚未达到其潜力上限,仍有巨大的优化和扩展空间。进一步观察,顶尖AI模型之间的Elo技能评分差距在一年内从11.9%缩小至仅5.4%,这预示着AI前沿能力的竞争日趋白热化。
这些基准测试对于客观衡量AI进展、识别其优势与不足至关重要。模型性能的迅速提升表明,当前的AI架构通过持续的参数扩展、数据优化和算法改进,仍能带来实质性的能力增长,从而推迟了关于AI能力可能遭遇瓶颈的担忧。
表1:关键基准测试中AI性能的演进 (2023-2025年)
基准测试名称 | 2023/2024年初步表现/基线 | 2024/2025年最新进展 | 性能提升幅度(百分点) |
---|---|---|---|
MMMU | 新引入 | 得分提升18.8 | +18.8 |
GPQA | 新引入 | 得分提升48.9 | +48.9 |
SWE-bench | 新引入 | 得分提升67.3 | +67.3 |
MMLU | 已建立 | 中美模型差距从两位数缩小至接近持平 | 显著缩小差距 |
HumanEval | 已建立 | 中美模型差距从两位数缩小至接近持平 | 显著缩小差距 |
*数据来源:[1]*
-
高效、易获取的小型模型的崛起:
一个显著趋势是小型语言模型(SLM)的发展。这些模型以远少于巨型模型的参数量,实现了令人瞩目的性能。例如,微软的Phi-3-mini(38亿参数)在MMLU基准测试中的表现已可与2022年的PaLM(5400亿参数)相媲美,参数规模缩小了142倍 1。
同时,达到GPT-3.5级别性能模型的推理成本在2022年11月至2024年10月期间骤降超过280倍(从每百万token 20美元降至0.07美元)1。硬件成本以年均约30%的速率下降,而能源效率则以年均约40%的速率提升 1。此外,开源权重模型与闭源模型之间的性能差距也在迅速缩小,某些基准测试上的差距在一年内从8%降至1.7% 1。
这种“以更少投入获得更多产出”的趋势正在推动先进AI技术的民主化,使得中小型组织以及那些不适合或无法承担巨型模型成本的各类应用场景也能从中受益,从而催生应用层的创新。这一现象与巨型前沿模型训练仍需极高资源投入(导致能力集中) 并行发展,预示着AI市场可能出现分化:一方面是少数实体掌控大规模前沿模型,另一方面是针对特定任务的、多样化的专业SLM生态系统蓬勃发展。这种分化可能促进形成一个更具韧性和创新性的AI格局,不易受到垄断性停滞的影响,并对人才培养和区域性AI生态系统发展产生深远影响。
-
大语言模型(LLM)长文本推理能力的进展:
LLM在处理和理解长篇幅文本方面的能力持续增强,这对于多跳问答、详细文档分析等复杂任务至关重要。为专门评估这些能力,新的基准测试如LongReason (2025) 应运而生。
诸如思维树(Tree-of-Thoughts,并行探索多个推理分支) 等提示工程技术,以及模块化智能体规划器(Modular Agentic Planners, MAP) 和循环记忆Transformer(Recurrent Memory Transformers, RMTs) 等架构创新,都在推动长文本推理能力的发展。例如,RMT在BABI-Long评估中处理超过12.8万token的文本时表现优异。
然而,挑战依然存在,特别是“叙事伪装”(narrative camouflage)问题,即模型在处理包含干扰信息的文本时,难以有效管理嵌套子推理的状态。长文本处理与推理能力的提升,为LLM在法律文书审阅、科学研究和复杂问题解决等领域的应用开辟了新途径。克服现有局限是当前研究的重点。
-
多语言LLM:能力与安全考量:
参数量少于100亿的开源LLM(如Gemma2-9B)已展现出令人印象深刻的多语言机器翻译(MT)能力。部分模型如GemmaX2-28据称在性能上超越了此前的SOTA模型,并能与谷歌翻译及GPT-4-turbo相媲美。
尽管取得了这些进展,LLM安全研究领域仍存在显著的“语言鸿沟”。一项针对2020至2024年间近300篇*ACL系列会议出版物的系统性回顾显示,绝大多数安全研究集中于英语模型,即使是像中文这样的高资源非英语语种,其相关研究也远少于英语(大约少十倍)。
这种不平衡引发了对AI惠益与风险公平分配的担忧,并可能导致非英语环境下的安全盲点。尽管前沿模型的开发者已开始关注多语言安全对齐,但相关举措仍显不足。
LLM的全球实用性不仅取决于其强大的多语言能力,更关键的是其安全性。由于LLM已在全球范围内部署并被不同语言社群使用,而安全研究和缓解措施却严重偏向英语,这就构成了一个关键的脆弱点。为英语开发的安全机制可能因语言和文化差异而无法有效迁移至其他语言,从而形成“危险的盲点”,导致模型在非英语环境下可能出现未经充分检测或纠正的不安全行为。这不仅可能造成实际损害,还会侵蚀非英语地区对AI的信任,阻碍AI技术的公平应用。因此,解决这一问题需要开发基于文化背景的评估基准和多样化的多语言安全训练数据。
B. 生成式AI:重塑内容创作及更多领域
-
文本到视频合成技术的爆发式增长:
2024至2025年,AI系统在生成高质量视频方面取得了重大进展 1。诸如谷歌的Veo 2、OpenAI的Sora以及Stable Diffusion Video等领先模型,能够根据文本提示生成高保真、可定制的视频。Aeon平台则专注于为出版商提供自动化的文本到视频转换服务。
技术进步主要体现在高质量渲染、可定制风格、场景转换和逼真动画等方面。一些模型(如LeviTor)甚至开始探索从静态图像生成视频时对物体进行三维轨迹控制的技术。扩散Transformer(Diffusion Transformers, DiT)是推动文本到视频和图像到视频任务进展的关键架构之一。
尽管如此,该领域仍面临挑战,包括部分模型计算需求高昂,以及在复杂场景下对可控性和时间一致性的进一步提升需求。为解决生成速度问题,学术界和工业界正在研究蒸馏技术(如AccVideo),旨在显著加速视频扩散模型的推理过程(例如提速8.5倍),同时保持生成质量。
高质量文本到视频生成技术对媒体、娱乐、营销、教育和通讯等行业具有深远影响,它有望普及视频制作,但也引发了对深度伪造(deepfakes)和虚假信息传播的担忧。
-
扩散模型与生成对抗网络(GANs):生成质量与可控性的权衡:
- 扩散模型(Diffusion Models): 以生成高质量、多样化且细节丰富的输出而闻名,通常能更好地拟合真实世界的数据分布。其工作原理是通过迭代去噪过程从初始随机噪声中恢复数据,从而实现精确控制。它们在根据文本描述创建图像和编辑现有图像方面表现出色。然而,扩散模型的生成速度通常较慢,且需要更多的计算资源和更长的训练时间。
- 生成对抗网络(GANs): 利用生成器和判别器之间的竞争机制进行学习。GANs能够产生高度逼真的内容,并且生成速度相对较快,使其适用于实时应用。它们被广泛用于生成逼真照片、风格迁移和游戏资产创建等任务。但是,GAN的训练过程可能不稳定(例如模式崩溃),并且在输出多样性方面有时不如扩散模型。
- 当前态势(2025年): 对于追求最高图像质量和文本到图像任务,扩散模型(如Stable Diffusion、DALL-E系列)通常是首选。而对于需要快速生成或特定类型图像处理的任务,GANs仍然具有其价值。模型的选择取决于具体的应用需求,包括对质量、速度、多样性和计算预算的考量。 理解这些核心生成架构的优缺点,对于为特定任务选择合适的工具,以及预测未来可能融合两者优势的技术发展至关重要。
-
3D对象与场景生成的进展:
从文本、图像或非结构化3D输入生成3D资产(对象和场景)的技术取得了显著进展。这主要受到交互式媒体、扩展现实(XR)和元宇宙等行业对3D内容需求的驱动。
这些技术利用了新颖的3D表示方法(如神经辐射场NeRF、3D高斯溅射)和深度生成模型(如GANs、扩散模型)。例如,ParGen模型能够生成由有意义且可独立操作的部件组成的3D对象。
研究重点在于提高生成3D内容的保真度、多样性、视图一致性和空间结构的合理性。
主流范式包括:针对对象的基于数据驱动的监督学习方法和基于深度生成模型的方法;以及针对场景的布局引导的组合式合成、基于2D先验的场景生成和规则驱动的建模方法。
自动化的3D内容创建将对游戏开发、模拟、虚拟现实、电子商务(如3D产品可视化)和工业设计等领域产生革命性影响,有望大幅减少劳动密集型的手动建模工作。
尽管生成式AI的投资和应用激增,但2025年出现的一个关键挑战是如何持续衡量并实现GenAI实验带来的实际投资回报(ROI)。很少有公司能够仔细追踪生产力提升或被解放出来的员工时间的具体影响。这表明,如果不能很快证明清晰的价值,GenAI领域可能会经历一个“幻灭期”。这种现象的出现,是因为在GenAI技术的热度和投资背后,缺乏对商业价值的系统性证明。如果不能通过严格的衡量和实验来证明其益处,持续的大规模投资可能难以维系,导致部分GenAI应用若未能明确其实际ROI,则可能陷入“幻灭的低谷”。
与此同时,高保真视频生成、精细3D场景合成 以及日益复杂的音频生成(如S25中全模态模型的进展所示)等并行发展趋势,预示着AI系统正朝着能够根据高级描述生成完整、可交互、动态的,并带有同步视听元素的三维环境的方向发展。这超越了单一模态的生成,旨在创造沉浸式体验。这些独立的技术进步是互补的:视频需要场景和对象;3D场景通过生成的运动(视频)和声音变得更加动态。因此,下一个前沿领域是将这些能力整合起来,不仅仅生成孤立的资产,而是生成连贯的、多模态的体验或模拟。这将彻底改变游戏开发(如程序化世界生成)、电影预可视化、虚拟培训环境和元宇宙等领域,提供前所未有的、按需生成的真实感和交互性。这也意味着需要新型的“世界模型”,能够理解跨模态的物理规律和一致的对象交互。
表2:主流文本到视频生成工具对比 (2025年)
工具/模型名称 | 主要特性 | 优点 | 缺点 | 预计定价/获取方式 | 主要用例 |
---|---|---|---|---|---|
谷歌 Veo 2 | 高质量视频渲染,可定制视觉主题和风格,与谷歌云无缝集成,处理速度快 | 性能强大,可扩展性好,与其他谷歌服务集成良好 | 基于使用量定价,需谷歌云订阅,对小型项目可能功能过剩 | 约每视频分钟0.10美元 | 已融入谷歌生态系统、需可扩展高质量视频制作的企业 |
OpenAI Sora | 先进的语言理解能力,多样的视频风格和创意效果,实时渲染和预览,可定制视觉主题 | 创意性强,视频输出引人入胜,定期更新和改进 | 计算资源需求大,对小型项目而言定价可能较高 | 订阅计划约99美元/月起 | 追求视觉丰富、创新视频内容的创意机构、媒体公司 |
Stable Diffusion Video | 先进的扩散模型渲染,逼真的动画和视觉效果,高分辨率输出,可定制场景转换 | 高质量逼真视频,创意控制灵活 | 计算需求高,复杂动画渲染速度可能较慢,定价可变 | 约每视频分钟0.10美元 | 寻求逼真动画和精细视觉序列的故事讲述者、营销人员 |
Aeon | 专为出版商设计,自动将文本/视频/音频转换为高质量视频,符合品牌和编辑标准,语音定制 | 全自动视频创建,保持品牌一致性,优化多平台发布 | 定价不公开,高级定制可能需视频编辑知识 | 需联系销售获取定价 | 出版商、媒体公司进行高效、规模化视频内容生产 |
*数据来源:*
C. 智能体AI的兴起:迈向自主系统
-
从概念到初步应用:
能够独立执行任务并进行协作的智能体AI(Agentic AI)被认为是2025年“最热门的AI趋势”之一。
早期的智能体AI工具主要应用于风险较低的小型、结构化内部任务,例如IT部门的密码更改或人力资源系统的假期申请。多数技术高管认为,这些智能体将主要基于执行特定任务的、聚焦的生成式AI机器人,并可能形成一个智能体网络。
AI智能体在特定基准(如RE-Bench)和编程任务中展现出潜力,例如在限定时间内,其编程表现优于人类专家 1。在RE-Bench上,AI智能体在2小时设置下的得分比人类专家高四倍,尽管在更长的任务时间(如32小时)下,人类表现仍然更优。
“智能体式开发”(agentic development)的成熟被视为AI在编码领域的一个关键趋势,AI智能体能够进行自主的多步骤推理和工具利用。
智能体AI代表了AI从工具向自主协作者或工作者的转变。尽管在复杂、高风险任务中的应用仍处于早期阶段,但其在自动化工作流程和增强人类能力方面的潜力是巨大的。
-
对工作流程和人机交互的影响:
预计智能体AI将比以往的AI系统需要更少的人工干预。然而,人工监督仍然是必要的,特别是因为这些系统通常依赖于可能导致错误的下一词预测机制。
智能体AI的兴起,尤其当其与机器人技术和社交媒体相结合时,促使人们重新思考人类的价值、原创思想的定义以及有意义的互动方式。
预计到2025年,除了催生讨论和开发智能体AI相关的新职位外,该技术本身不会对整体劳动力市场产生重大冲击。但提升技能(upskilling)将变得更为关键。
智能体AI的发展必然要求重新评估人类如何与AI协同工作,哪些类型的技能将更受重视,以及日益自主的系统所带来的伦理考量。
智能体AI(S3, S4, S5)由“专注的生成式AI机器人”网络(S3)构成的趋势表明,智能体系统将主要充当一个智能编排层,协调各种专业AI模型(包括SLM)的能力,而不是成为单一的、全能的智能体。这种模块化方法可以加速开发,并允许构建更灵活和适应性更强的自主系统。这一观察基于智能体AI被描述为“AI程序协同完成实际工作”(S3)并将“主要基于执行特定任务的专注生成式AI机器人”(S3, S5),以及存在“这些智能体的网络”的设想(S3)。这与专业化SLM(第二节A部分)和多样化生成式AI工具(第二节B部分)的兴起相吻合。因此,与其说是一个单一的超级智能体,不如说智能体AI更可能表现为一个能够智能地选择、组合和管理多个更专业的AI组件的输入/输出以实现复杂目标的系统。这对架构提出了要求(例如,需要智能体间的通信协议、任务分解框架),并表明智能体AI的价值将在于其以协调方式利用各种AI能力精华的能力。
尽管人们对智能体AI充满期待,但其在重要的、面向客户的或具有重大财务影响的任务中的应用,将受到“信任瓶颈”的严重制约。由于这些系统仍然“通过预测下一个词来工作”,并且可能“导致错误或不准确”,公司“短期内不太可能将这些智能体用于处理真实客户的真实资金交易,除非有机会进行人工审核或交易可逆转”,这将是2025年期间一个主要的限制因素。在智能体系统能够广泛应用于高风险部署之前,必须在可靠性、可验证性和可解释AI(XAI)方面取得重大进展。智能体AI作为“2025年最热门AI趋势”的确定性与其技术基础(通常是LLM)的当前可靠性限制之间存在根本性的张力。因此,2025年智能体AI的实际经济影响可能远小于宣传的程度。AI形式化验证、鲁棒的错误处理以及真正可靠的XAI(参见第六节A部分)等领域的进展,对于释放智能体AI在简单内部任务之外的更广泛潜力至关重要。这也与对更优良的负责任AI评估的需求相关联。
D. 全模态AI:迈向统一智能
-
整合多样化模态:
当前一个强劲的趋势是开发能够跨多种模态(包括文本、图像、视频和音频)理解和生成内容的AI模型。GPT-4o的发布激发了人们对全模态(omni-modal)模型的日益浓厚的兴趣。
TDWI的研究显示,46%的企业正在使用或计划使用生成式AI的文本提示来生成图像和其他模态的内容。
诸如“Ola”这样的模型被提出作为全模态语言模型,通过渐进式的模态对齐策略,在图像、视频和音频理解方面取得了与专业单模态模型相媲美的性能。
以人为中心的基金会模型(Human-centric Foundation Models, HcFMs)正在兴起,专注于多模态的二维和三维人体理解与生成。
多模态AI面临的挑战包括有效的传感器融合、不确定性下的实时决策制定,以及鲁棒地整合不同类型的数据。
全模态AI旨在创建更全面、更类似人类的理解和交互能力,使AI能够更有效地感知复杂真实世界环境并采取行动。
-
以人为中心和通用全模态模型的突破:
Ola模型(70亿参数)通过渐进式模态对齐(首先是图像/文本,然后是语音,最后是带音频的视频),在图像、视频和音频基准测试中展现出有竞争力的性能,有时甚至优于专业的LLM。它还具备用于流式语音生成的逐句解码功能。
以人为中心的基金会模型可分为感知、AIGC(AI生成内容)、统一感知与生成以及智能体模型。这些模型旨在捕捉精细的人体特征、生成逼真的人体内容,甚至模拟人类交互和运动行为。
生成式AI与机器人技术和社交媒体的结合,正在促使人们重新评估原创思想和有意义的互动。
这些先进的多模态模型对于高级机器人技术、复杂的虚拟助手、沉浸式AR/VR体验以及精细的人机协作等应用至关重要。
像Ola这样的模型采用“渐进式模态对齐策略”(从图像/文本等不同模态开始,逐步添加语音、视频+音频等更相关的模态)并取得成功,这表明存在一条构建复杂全模态系统的有效且可能更高效的路径。这与试图从头开始同时训练所有模态的方法形成对比。Ola模型通过这种策略,在全模态任务上取得了强大的性能,并且这种策略“使得从现有的视觉-语言模型开发全模态模型变得简单且成本更低”,同时“保持了相对较小规模的跨模态对齐数据”。这种分阶段的方法允许利用在某些模态(如视觉-语言)中预训练的优势,并逐步构建更复杂的能力,从而可能减少全模态训练的数据和计算负担。这可能是开发更强大、更多功能的全模态AI的关键方法,使通往类AGI多模态理解的道路更易于管理。这也表明,在特定跨模态任务(如图像-文本)上的进展是构建更广泛全模态智能的基础模块。
能够处理和生成跨越广泛感官输入和输出的全模态AI(S25, S26)的成熟,是实现“体验式AI”(Experiential AI)——即能够以更接近人类体验的方式从世界学习并与之互动的AI,包括“人在回路中的AI”(S4)——的一个关键先决条件。这超越了静态数据集中的模式识别,转向动态、交互式的学习和理解。全模态模型正在处理日益多样化的输入,如图像、视频、音频和文本,同时,“体验式AI”被视为一种可以学习的辅助工具,意味着交互和适应。真正的体验本质上是多模态的;人类通过视觉、听觉、语言等的结合来学习和互动。因此,AI要变得真正“体验式”并在与人或环境的“回路中”稳健学习,就需要能够同时连贯地处理和整合来自这些不同模态的信息。这不仅仅关乎更好的内容生成或理解孤立的多模态数据点,更是迈向能够进行更丰富、更情境化交互,从动态环境(如机器人技术S37, S38)中学习,并最终对世界形成更扎实理解的AI系统的基础一步。这对人机协作、个性化教育和具身智能具有深远的影响。
III. AI架构与训练范式的创新
A. Transformer架构的演进:混合方法
尽管Transformer架构仍占据主导地位,但研究人员正在探索其变体和混合模型,以解决诸如二次复杂度等局限性,并结合其他架构的优势。
- TransMamba: 这是一种新颖的框架,通过共享参数矩阵(如QKV和CBx)统一了Transformer和Mamba(一种具有线性复杂度的状态空间模型SSM)。它可以在不同的令牌长度和层级动态切换注意力机制和SSM机制,旨在兼顾Transformer的有效性和Mamba的效率,尤其适用于长序列处理。这项工作从更深层次验证了Transformer和Mamba范式之间的一致性。
- MaTVLM (Mamba-Transformer视觉语言模型): 该模型在视觉语言模型(VLM)中集成了Mamba-2和Transformer组件,以平衡计算效率和整体性能,特别适用于既需要长程序列理解又需要复杂推理的任务——在这些任务中,纯Mamba模型可能表现不佳。据报道,这类混合模型在某些任务上的表现优于纯Mamba或纯Transformer模型。
这些混合方法 标志着模型设计正向更精细化的方向发展,试图融合不同架构的优点——Transformer的强大性能和Mamba等替代方案的高效率。这对于扩展到更长的序列处理以及在资源受限设备上的部署至关重要。这种架构上的实用主义——即效率与能力共同进化——表明模型设计正进入一个新阶段。虽然原始能力曾是主要焦点,但现在效率(如延迟、计算成本、内存占用)已成为同等重要的驱动因素,催生了不同架构优势的创新融合。这对研究实验室之外的实际部署至关重要,并将使更强大的模型能够在更广泛的硬件上运行,并实际处理更大的输入(如长文档、高分辨率视频),从而拓宽AI应用范围。
B. LLM对齐技术:从RLHF到直接偏好优化(DPO)的转变
- 传统RLHF的挑战: 基于人类反馈的强化学习(RLHF)虽然是LLM对齐的基础方法,但它涉及复杂的多阶段过程(如训练奖励模型、使用PPO算法),计算需求大,且可能存在不稳定性。收集大规模人工标注的偏好数据集也成本高昂且耗时。
- DPO的优势: 直接偏好优化(DPO)已成为一种更稳定、高效且计算开销更小的替代方案。它将对齐问题视为基于偏好数据的分类任务,直接根据人类偏好优化语言模型,无需独立的奖励模型或复杂的RL优化过程。
- 性能表现: 尽管DPO更为简洁,但其性能与RLHF相当。当训练数据与偏好数据对齐良好时,DPO尤其有效。
- 实现方式: 采用离线DPO结合策略内(on-policy)数据的方式具有较高的计算效率。首先从监督微调(SFT)模型生成样本,然后对这些样本进行评分(例如,通过基于规则的奖励模型或人工偏好),最后利用这些评分创建偏好对(“偏好”响应与“不偏好”响应)用于DPO训练。
向DPO的转变 代表了LLM开发实践中的一项重大改进,使得关键的对齐步骤更易于实施、更可靠且资源消耗更低。这可以加速更安全、更有用LLM的开发。从复杂的RLHF转向更简单、更稳定的DPO进行LLM对齐,不仅仅是效率的提升。通过使关键的对齐过程更易于访问且资源密集度更低,DPO可以加速开发更安全、更有用的LLM的迭代周期。这可能导致在缓解有害模型行为和改进各种模型(包括开源模型)的指令遵循能力方面取得更快的进展。这降低了有效对齐的门槛,意味着更多的研究人员和开发人员可以实施它,从而加速微调和对齐的迭代周期,并推动对齐技术在更广泛的范围内被采用,特别是对于小型团队或开源项目。最终,这可能导致全球部署的LLM在安全性和实用性方面得到更迅速的整体改进,因为有效的对齐不再是仅限于少数大型实验室的瓶颈。它不仅普及了模型的创建,也普及了模型的优化。
表3:RLHF与DPO在LLM对齐中的对比
特性 | RLHF | DPO |
---|---|---|
方法复杂度 | 高,多阶段过程 | 低,视为分类任务 |
是否需奖励模型 | 是 | 否 |
计算成本 | 高 | 低 |
训练稳定性 | 可能不稳定 | 更稳定 |
性能 | 良好 | 相当,有时更优 |
实现便捷性 | 复杂 | 相对简单 |
数据来源:
C. 强化学习:利用LLM/VLM增强能力
LLM和视觉语言模型(VLM)正越来越多地被整合到强化学习(RL)中,以应对诸如先验知识缺乏、长时程规划和奖励设计等关键挑战。
- 整合分类:
- LLM/VLM作为智能体(Agent): 模型直接充当决策策略。
- LLM/VLM作为规划器(Planner): 模型辅助RL智能体进行高级规划、目标设定或任务分解。
- LLM/VLM作为奖励(Reward): 模型基于自然语言描述或视觉理解提供奖励信号或反馈,简化奖励工程。
这种整合旨在增强RL智能体的语义理解、感知能力、数据效率、泛化能力和可解释性。
研究还在探索RL中不同的回归损失如何对应特定的散度度量,从而能够针对探索(避零)与利用(趋零)进行定制化设计。
此外,新的多智能体框架(如“IoA”)正在开发中,以更好地集成不同的第三方智能体并模拟分布式环境,在各种任务中均优于基线模型。
将RL通过与环境交互进行学习的优势与FM(基础模型)丰富的世界知识和推理能力相结合,是创建更智能、适应性更强的智能体的强大范式,使其能够解决复杂的现实世界序贯决策问题。
D. 合成数据在训练和隐私保护中的作用
合成数据在AI开发中的重要性日益凸显,预计其采用率将大幅增加。
- 优势: 合成数据能够更快、更经济地生成数据,从而解决获取和标注真实世界数据(耗时且昂贵)的难题。它对于保护隐私的AI训练至关重要,因为它可以在不暴露敏感真实世界信息的情况下创建数据集。
- 应用: 其应用已超越传统用途,扩展到数据货币化、外部数据分析、测试数据开发以及生成式AI模型的预训练和定制等领域。
- 技术驱动: 生成式AI技术的进步正在推动合成数据质量和适用性的提升。
合成数据 为克服数据瓶颈、增强模型鲁棒性(通过创建多样化的训练场景)和解决隐私问题提供了一条途径,使其成为AI开发中的战略性资产。然而,虽然合成数据为训练(克服稀缺性、增加多样性、保护隐私)带来了巨大好处,但其日益广泛地用于训练生成模型本身,也带来了一个潜在的递归循环问题。如果生成模型越来越多地基于其他生成模型产生的数据进行训练,那么就存在“模型崩溃”或初始合成数据生成器中存在的偏见被放大的风险,从长远来看,如果管理不当,可能导致质量或多样性的下降。这是因为生成模型正在从本身就是人工生成的数据中学习。如果合成数据不能完美地代表真实世界,或者包含来自其自身生成器的微妙偏差,这些缺陷可能会被基于其训练的模型学习并放大。经过多代模型主要基于合成数据进行训练后,这可能导致与真实世界数据分布的偏离或创意输出的窄化。这需要对合成数据进行稳健的验证研究,开发确保多样性和防止偏见放大的技术,并且可能需要持续以真实世界数据为基础,以防止生成式AI“漂移”进入人工的回声室。
IV. AI在关键行业的变革性影响
A. 医疗健康:革新诊断、治疗与药物研发
- AI赋能的医疗设备: 美国食品药品监督管理局(FDA)批准的AI赋能医疗设备数量激增,从2015年的仅6款增至2023年的223款。这表明AI在医疗领域的信任度和有效性日益得到认可。
- 革新诊断与治疗: AI通过分析海量患者数据以识别模式,辅助临床医生做出更明智的预防和治疗决策。AI被用于分析医学影像,从而实现更快、更准确的诊断。可解释AI在诊断中的应用已显示出能够提高准确性并减少医生的人为干预。
- 药物研发与科学进步: AI正在促进罕见病的发现,并推动新药和新材料的研发。例如,COVID-19 mRNA疫苗的成功就建立在数十年大学研究的基础上,其中部分研究现在已开始利用AI分析生物数据。
- 多语言健康AI: LLM正被应用于不同语言社群的医疗健康领域,但确保这些应用的安全性与公平性至关重要。
- 医学中的基础模型: 相关的研讨会和研究正在探索基础模型对医疗诊断和患者护理的潜在影响。
- 挑战: 确保公平可及性、数据隐私保护、算法问责制以及减少AI医疗系统中的偏见是亟待解决的关键问题。 AI对医疗健康领域的深远影响,预示着一个更个性化、高效和普惠的医疗保健未来,但也带来了重大的伦理和监管责任。
B. 机器人与具身智能:从实验室走向现实世界
- 机器人中的基础模型: LLM、VLM和视觉-语言-动作(VLA)模型使机器人能够理解复杂指令、感知环境并在动态的真实世界环境中执行任务。这包括用于家政服务、医疗保健和服务自动化的语言引导移动服务机器人。
- 机器人规划与控制: 通过引导LLM分解问题并与优化求解器交互,正在教会LLM解决复杂的规划挑战,并取得了较高的成功率(如LLMFP框架)。自动化需求的日益增长是LLM在机器人领域应用的关键驱动力,通过自然语言控制提升了操作效率和灵活性。
- 人机交互(HRI): 基础模型对于实现更直观、更有效的人机交互至关重要,它弥合了AI驱动的感知与类人决策之间的鸿沟。
- 模拟到现实的迁移(Sim-to-Real Transfer): 这是一个关键研究领域,致力于解决模拟训练环境与真实世界机器人部署之间的差距。挑战包括传感器噪声、领域漂移和建模不准确等。新的框架如ADR-PNAS(自适应域随机化与渐进式神经架构搜索)被提出来提高迁移效率。
- 以人为中心的机器人技术: AI与机器人技术的结合正在促使人们重新思考人际互动和原创性的概念。以人为中心的基金会模型旨在捕捉人体特征、生成类人运动并模拟交互行为。
- 市场增长: LLM在机器人技术领域的市场正在经历指数级增长,预计将从2024年的29.7亿美元增长到2029年的175亿美元。 AI正在使机器人更加智能、适应性更强,并能够在人类环境中执行复杂任务,为机器人在制造、物流、医疗和家庭等领域的广泛应用铺平了道路。
C. 软件开发与代码生成:AI作为协同开发者
- AI在编程中的表现: 在SWE-bench等基准测试中,语言模型智能体在限定时间内完成编程任务的表现已超越人类 1。
- AI编码工具: 到2025年,AI编码工具正从实验性辅助工具转变为专业开发人员工具箱中不可或缺的组成部分。这包括具备编码能力的通用AI(GP-AI)模型和专门为软件工程师提供集成体验和优化工作流程的开发者AI(Dev-AI)工具。
- 智能体式开发: 编码领域的智能体AI日趋成熟,能够进行自主的多步骤推理、工具使用和复杂任务执行。
- 大上下文窗口: 诸如Gemini 1.5(超过100万token)和Claude(20万token)等模型,能够实现项目级的全局感知,从而在大型复杂项目中生成相关的代码。
- 核心能力: 包括内联代码建议、实时自动补全、错误检测与解释、重构辅助等。据称GPT-4.1在工具调用方面比GPT-4o效率更高,且重复不必要编辑的可能性更小。
- AI原生IDE: 以Cursor和Windsurf AI为代表的AI原生集成开发环境(IDE)正在兴起,它们围绕AI辅助功能构建,并通常集成了强大的GP-AI后端。 AI正在显著提高开发人员的生产力,改变软件开发工作流程,并可能通过降低某些任务的技能门槛来普及软件创建。
D. 科学研究:加速跨学科发现
- AI用于模式识别与模拟: AI技术(如深度学习、LLM)通过从大型复杂数据集(例如来自望远镜、传感器的数据)中识别新模式,以及运行更精确的模拟,正在改变科学探究的方式。
- 应用领域:
- 气候科学: AI帮助分析气候数据,改进建模,并评估干预措施的有效性。
- 材料科学: AI通过预测材料特性和指导合成过程,推动更可持续材料的开发。
- 药物研发: (已在医疗健康部分提及,但也是核心科学应用)AI辅助识别疾病机制和潜在的治疗化合物。
- 挑战: 由于某些模型的“黑箱”特性,确保基于AI的发现的可复现性,以及解决关于环境和社会影响的伦理问题,是当前面临的挑战。倡导开放科学原则,以促进可靠的AI驱动的科学研究。
- 产学研动态: 许多基础AI研究源于大学,但商业利益日益驱动应用方向。这可能导致研究重点的偏斜,并使对行业主导的AI进行独立分析变得更加困难。 AI正成为科学家不可或缺的工具,它增强了人类的智力,以解决复杂问题,加速发现的步伐,并应对紧迫的全球性挑战。
在医疗、机器人、软件开发 和科学 等领域,“AI副驾驶”的比喻正在演变为“AI同事”。AI不再仅仅是自动化常规任务的助手,而是日益成为一个更不可或셔的“同事”,能够在特定领域内进行复杂推理、独立解决问题,甚至实现新的发现。这意味着人与AI之间需要更深层次的协作和新的交互模式。例如,在医疗领域,AI辅助做出“更明智的决策”,而不仅仅是处理数据;可解释AI提高了诊断准确性和医生的接受度。在机器人领域,LLM帮助机器人“解决复杂的规划挑战”,而不仅仅是执行预设程序;基础模型实现了“类人决策”。在代码开发领域,AI智能体展现出“自主多步推理”能力,并在限时编程任务中超越人类。在科学领域,AI正在“通过促进……发现而开辟新天地”,而不仅仅是分析数据。这些不同领域的AI应用都指向了AI在认知层面上的更高贡献,涉及决策、规划、问题解决和发现。这种演变要求这些领域的专业人士不仅要掌握使用AI工具的技能,还要学会与AI系统作为合作伙伴进行协作。这也引发了关于知识产权、AI辅助决策/发现的责任以及这些领域专业知识重新定义的问题。
AI在医疗和机器人等高风险行业的成功和有影响力的应用,越来越依赖于两个因素:(1) 将通用基础模型调整和微调以适应特定领域的知识和任务;(2) 开发和集成强大的可解释AI(XAI)以确保信任、安全和问责制。通用AI不足以应对关键应用的需求。FDA对AI赋能医疗设备的批准数量激增,这意味着专业化、经过验证的应用正在增加。医疗AI需要解决“算法问责制”和“减少AI系统偏见”的问题;可解释的诊断AI提高了准确性和医生的信任度。机器人技术需要为“具身智能”调整的基础模型,以处理“多模态传感器融合、不确定性下的实时决策、任务泛化”。因此,现成的基础模型只是一个起点,要在这些领域产生实际影响,需要进行大量的领域特定调整和验证。信任在这些领域至关重要。XAI对于医生接受AI诊断支持以及确保自主机器人系统的安全至关重要。这些领域的未来进展将严重依赖跨学科合作,以便将深厚的领域专业知识注入AI模型,并为领域专家(而不仅仅是AI研究人员)开发有意义且可操作的XAI方法。这也凸显了对能够将AI能力与领域特定问题联系起来的“AI翻译者”日益增长的需求。
尽管AI原则上使机器人更加智能,但“模拟到现实的迁移”(sim-to-real transfer)挑战仍然是一个重大的实际障碍。由于传感器噪声、领域差异和建模不准确等因素,将模拟环境中训练的AI模型无缝迁移到现实世界并有效运行的难度,限制了在非受控环境中部署真正自主的具身AI系统的速度和规模。大量研究集中于机器人基础模型,使其能够理解复杂任务和规划。与此同时,其他研究则强调“模拟到现实的迁移”是一个“关键领域”和“重大挑战”。这表明,AI在概念上能为机器人带来的能力与现实世界中能够可靠部署的能力之间存在脱节。克服模拟到现实的差距对于释放AI在机器人领域的全部潜力至关重要。这方面的进展(例如,通过自适应域随机化、更好的模拟保真度、鲁棒的学习策略S35, S36)将是决定先进机器人能力从研究实验室走向物流、家庭辅助和自动驾驶等领域广泛实际应用速度的关键因素。
V. 赋能生态系统:驱动AI的进化
A. AI硬件加速:芯片与互连技术
-
芯片格局(2025年):
- NVIDIA(英伟达): Blackwell B200 GPU 定位于原始性能,特别是在最低延迟下实现每秒处理更多令牌数方面表现突出,利用FP4精度在几乎不损失精度的情况下,实现了相较于FP8两倍的吞吐量。NVLink-5技术可将多达72个GPU扩展为一个单一逻辑单元。即将于2025年推出的Blackwell AI芯片有望达到百亿亿次浮点运算(exaflop)级别的性能。CUDA生态系统依然是其强大优势。
- AMD(超威): Instinct MI300X 专注于总拥有成本(TCO)、功耗效率以及大容量片上内存(192GB HBM3),允许大型模型(700-1100亿参数)在单卡上运行。它提供了具有竞争力的性能,尤其是在“性价比”方面。ROCm软件栈正在迅速改进。
- Intel(英特尔): Gaudi3 处理器在高效率的大型AI集群环境中表现突出,优先考虑成本效益的扩展。
- 总体趋势: 硬件成本年均下降约30%,能源效率年均提升约40% 1。 AI芯片领域的竞争与创新 对于维持AI的进步、使模型更强大、训练/推理更高效至关重要。硬件的选择取决于具体优先事项,如原始速度、总拥有成本或模型规模容量。
-
AI集群的高速互连技术:
对于扩展AI工作负载至关重要,通过在加速器之间实现海量数据交换和同步处理。
- NVLink (NVIDIA): 专有的GPU到GPU互连技术,H100上的NVLink 4.0提供900 GB/s的双向带宽。Blackwell上的NVLink-5进一步增强了这一性能。
- Compute Express Link (CXL): 一种开放标准(基于PCIe构建),可在CPU、GPU和其他加速器之间实现一致性、低延迟的通信和内存池化/扩展。CXL 3.0+ 利用PCIe 6.0+。
- Ultra Accelerator Link (UALink): 一种开放式互连标准,设计用于在单个计算舱内扩展多达1024个AI加速器的集群,旨在实现比以太网更低的节点间通信延迟。
- 高速以太网: 诸如400/800 GbE等技术,用于在机架和数据中心级别实现更广泛的互操作性,尽管其延迟高于专用链路。
- PCI Express (PCIe): PCIe Gen5已广泛采用,吞吐量比Gen4翻倍。PCIe Gen6正在兴起,对于满足数据密集型加速器的需求至关重要。 先进的互连技术 与芯片本身一样,对于构建大规模AI超级计算机至关重要。它们可以防止瓶颈,并支持训练规模日益增大的模型。发展趋势是更高的带宽、更低的延迟和更统一的内存架构。
表4:主流AI加速器芯片对比 (2025年)
芯片名称 | 主要架构特性 (例如,制程, 晶体管数量, 特殊核心) | 峰值AI性能 (例如,FP4/FP8 PFLOPS) | 内存 (类型, 容量, 带宽) | 功耗 | 主要优势/目标用例 |
---|---|---|---|---|---|
NVIDIA Blackwell B200 | TSMC 4N, 双Die CoWoS, 2080亿晶体管, FP4支持 | 1.4 EFLOPS (GB200 NVL72, FP4推测) | HBM3E, 192 GB, 8 TB/s | 1 kW/卡 | 极致原始性能, 最低延迟, 大规模训练和推理 (NVLink-5加持) |
AMD Instinct MI300X | 5nm + 6nm CDNA 3 Chiplet, | 2.6 PFLOPS (FP8) | HBM3, 192 GB, 5.3 TB/s | 0.75 kW/卡 | 高性价比, 高能效, 单卡支持大模型, 总拥有成本优化 |
Intel Gaudi3 | Habana架构 (具体制程和晶体管数未在S48中详述, 但强调集群效率) | 未明确PFLOPS, 但强调集群效率 | (S48未详述具体内存参数) | (S48强调能效) | 大型AI项目, 成本效益的扩展, 集群环境中的高效率 |
*数据来源:*
B. 软件框架与开发工具:构建与部署AI
-
深度学习框架趋势:
- PyTorch: 因其灵活性、易用性、动态计算图以及与Hugging Face等库的强大集成,在研究和实验领域日益受到欢迎。它正成为研究、学术界和许多生产环境中的主流ML框架。TorchServe正在改进其生产部署能力。
- TensorFlow: 由于遗留系统和谷歌生态系统(TensorFlow Lite、TensorFlow.js、TensorFlow Serving)的存在,仍在企业和生产环境中广泛使用。然而,与PyTorch相比,其在新项目中的采用率正在下降。谷歌对JAX投入的增加也引发了人们对TensorFlow长期前沿发展的疑问。
- JAX: 专为高性能深度学习和科学计算而设计,具有即时编译(JIT)和自动微分功能。在AI研究领域,尤其是在谷歌内部,正获得越来越多的关注。
- 其他框架如Keras(用户友好,基于TensorFlow运行)、MXNet(高效,被AWS使用)和PaddlePaddle(工业级,百度出品)则服务于特定的细分市场或用户群。 框架的选择影响开发效率、模型性能和部署便捷性。趋势表明,PyTorch正成为通用研发的主流选择,JAX则满足高性能需求,而TensorFlow则保留了其在遗留系统和生产环境中的地位。
表5:深度学习框架主要特性与趋势 (2025年)
框架名称 | 开发者 | 主要特性 | 主要用例 (研究/生产) | 易用性/学习曲线 | 生态系统强度 | 当前新项目采纳趋势 |
---|---|---|---|---|---|---|
PyTorch | Meta (Facebook) | 动态计算图, Pythonic接口, Hugging Face集成, 研究友好 | 研究和生产均可 | 较易上手 | 强劲且持续增长 | 增长 |
TensorFlow | 静态/动态图 (TF2.x), Keras集成, TensorFlow Serving/Lite/JS生态, 生产部署成熟 | 生产和部分研究 | TF2.x后改善,仍有一定曲线 | 非常强大 | 稳定/新项目减少 | |
JAX | JIT编译, 自动微分, 高性能数值计算, 研究导向 | 主要为研究 | 相对PyTorch较陡峭 | 增长中 | 增长 |
*数据来源:*
-
MLOps与LLMOps平台的兴起:
这些平台旨在简化从数据准备、模型训练到部署、监控和治理的整个机器学习生命周期。这对于可靠且规模化地将AI投入生产至关重要。
- Amazon SageMaker: 一个基于云的平台,统一了ML、分析和数据服务。其特点包括用于协作开发的SageMaker Unified Studio、用于统一数据访问的湖仓一体架构、对生成式AI应用开发的内置支持(与Amazon Bedrock和Q Developer集成)以及企业级治理功能。
- Google Vertex AI: 一个统一的、完全托管的ML平台,适用于传统ML和生成式AI。它集成了ML生命周期的工具,支持Gemini模型,并提供Vertex AI Studio和Agent Builder用于提示工程和微调。其“Model Garden”包含超过200个基础模型。 随着AI模型变得越来越复杂并部署在关键业务应用中,MLOps/LLMOps平台 对于管理这种复杂性、确保可复现性、维护模型质量以及促进数据科学与运营团队之间的协作至关重要。
尽管芯片性能(FLOPS)引人注目,但高效连接并为数以万计的加速器提供数据的能力,正成为训练真正庞大AI模型和实现大规模低延迟推理的主要瓶颈。互连技术(NVLink、CXL、UALink、高级以太网 - S49, S50)的创新以及管理这些复杂网络的软件,如今对于未来的AI突破而言,其重要性不亚于(如果不是更甚于)原始芯片速度。AI模型的规模和复杂性持续增长,需要大规模的加速器集群。单个芯片的性能正在迅速提升。大量研发集中在高带宽、低延迟的互连技术上。如果数据无法在芯片之间或内存与芯片之间足够快地移动,芯片将处于空闲状态,从而抵消其能力。整个系统的性能将受到通信网络的限制。因此,AI扩展的未来越来越成为一个网络和系统架构问题,而不仅仅是芯片设计问题。掌握高性能互连技术和分布式训练软件的公司将拥有显著的竞争优势。这也意味着构建AI超级计算机的经济性将受到互连成本和效率的严重影响,而不仅仅是GPU成本。
AI硬件主导地位的争夺不仅仅关乎芯片本身,更日益关乎相关软件栈(例如NVIDIA的CUDA与AMD的ROCm)的成熟度、完整性和易用性。虽然AMD正在缩小差距,但NVIDIA根深蒂固的CUDA生态系统,凭借其庞大的库、开发者社区和优化工具,构筑了一条重要的护城河,减缓了竞争硬件的采用速度,即使这些硬件具有吸引人的性价比。NVIDIA(Blackwell)和AMD(MI300X)提供了具有不同优势的竞争性硬件。NVIDIA的CUDA被认为是提供“最丰富、最低调优成本即可达到峰值性能的路径”,并拥有庞大的开发者基础。AMD的ROCm正在迅速改进(“上游优先的冲刺已大大缩小了差距”)。仅靠硬件性能是不够的;开发者需要强大、支持良好的软件工具来轻松有效地利用这些性能。成熟软件生态系统(如CUDA)的粘性给用户带来了显著的转换成本。对于AMD和Intel等竞争对手而言,在软件产品方面实现同等或更优的水平,与硬件创新同等重要,以获取市场份额。这意味着在软件开发、开发者关系和开源贡献方面的持续投入至关重要。
随着企业从AI实验转向大规模生产部署,像SageMaker和Vertex AI这样的综合性MLOps/LLMOps平台正在演变为企业AI的基础设施,类似于AI的“操作系统”。它们为管理各种AI模型的端到端生命周期提供了标准化的工具、工作流程和治理能力,这对于实现商业价值和管理风险至关重要。企业中的AI应用正在加速。AI模型复杂,需要数据管理、训练、部署、监控和治理。像SageMaker和Vertex AI这样的平台为整个AI生命周期提供了“统一环境”和“集成工具”,它们同时支持传统ML和生成式AI。以临时方式管理AI对企业而言既不可扩展也不可持续。这些平台提供了必要的结构和自动化。因此,选择MLOps/LLMOps平台成为企业的战略决策,影响其AI开发敏捷性、运营效率以及遵守法规的能力。这些平台提供的功能和集成将显著影响企业AI的构建和管理方式。
VI. 驾驭未来:责任、治理与地缘政治
A. 不断演进的负责任AI(RAI)格局:平衡创新与安全
- 事件频发与评估缺失: AI相关事件急剧增加(例如,AI事件数据库报告2024年发生233起,比2023年增加56.4%,其中包括深度伪造和有害聊天机器人互动 - S2, 1)。然而,在主要的工业模型开发者中,标准化的RAI评估仍然罕见 1。企业在认识到RAI风险与采取有意义的行动之间持续存在差距 1。
- 新兴安全基准: 用于评估真实性和安全性的新工具正在出现,例如HELM Safety、AIR-Bench和FACTS 1。这些对于开发更客观和标准化的评估方法至关重要。
- 可解释AI(XAI)的成熟:
- XAI正从一个理想特性演变为战略要务,优先考虑透明度和可解释性。组织正在转向通过设计实现内生可解释的AI。
- 技术包括神经符号模型(在匹配深度学习准确性的同时提供人类可读的解释)、LLM中的“解释器头”(用于追踪推理路径,如Anthropic的研究)以及用于隐私保护解释的联邦可解释性(如Apple的技术)。
- 然而,XAI仍面临挑战。该领域因缺乏通过人类用户研究获得的模型可解释性的经验证据而受到批评。尽管新兴技术正在缩小这一差距,但“准确性-可解释性权衡”依然存在。 健全的RAI实践,包括可靠的安全评估和有意义的XAI,对于建立信任、确保公平、减轻危害以及促进AI的广泛采用(尤其是在关键应用中)至关重要。
- AI安全对齐研究: 继续关注使模型与人类偏好和价值观对齐(DPO的相关研究见S11, S12)。多语言LLM安全是一个关键但未被充分探索的领域。
B. AI治理与监管:迈向全球框架
- 政府日益重视: 各国政府对AI治理的紧迫感日益增强。2024年,全球合作得到加强,经合组织(OECD)、欧盟(EU)、联合国(U.N.)和非洲联盟(African Union)等组织发布了侧重于透明度、可信赖性等核心RAI原则的框架 1。
- 监管格局:
- 欧盟《AI法案》中的“解释权”条款预示着未来透明度将成为强制性要求。
- 在美国,由于联邦层面进展缓慢,各州在AI立法方面处于领先地位。新一届政府可能会放松此前的一些法规。
- 2024-2025年的全球法律发展正在塑造AI创新与隐私之间的相互作用,趋势是形成统一标准,但也针对特定行业(如医疗保健、自动驾驶汽车)制定法规。ISO/IEC 42001标准正在成为道德AI实践的全球基准。
- 合规与人才: 由于AI治理人才短缺(尤其是在医疗等受监管行业),各组织在满足2025年合规截止日期方面面临挑战。建立专业团队并实施健全的治理框架(风险评估、透明度、文档记录、应急预案)至关重要。 有效的治理和监管对于利用AI的益处同时管理其风险至关重要。不断变化的全球格局要求企业在合规策略上保持敏捷和主动。
C. 全球AI力量动态:竞争与合作
- 中美动态:
- 美国在顶级AI模型的产出方面领先(2024年产出40个知名模型,中国为15个)1。美国私营部门的AI投资也远超中国(2024年为1091亿美元对93亿美元)。
- 然而,中国模型在质量上迅速缩小差距,在MMLU和HumanEval等基准测试中的性能差异已从2023年的两位数缩小到2024年的接近持平 1。
- 中国在AI出版物和专利数量上继续领先 1。
- AI研发的全球化: 模型开发日益全球化,中东、拉丁美洲和东南亚等地区也推出了引人注目的模型 1。欧洲初创公司如Mistral AI也做出了重要贡献。
- 国际合作: 即使在地缘政治竞争激烈的背景下,国际科学合作对于进步仍然至关重要。然而,AI人才和资源集中在少数大公司(主要在美国)手中,对独立研究和全球公平构成了挑战。
- 公众乐观情绪: 全球对AI的乐观情绪正在上升,但地区差异显著。在中国(83%)、印度尼西亚(80%)、泰国(77%)等国家,绝大多数人认为AI利大于弊;相比之下,加拿大(40%)、美国(39%)、荷兰(36%)等地的乐观情绪则低得多。不过,自2022年以来,一些先前持怀疑态度的西方国家的乐观情绪已显著增长。 全球AI格局的特点是激烈的领导权竞争(尤其是中美之间),但同时也伴随着AI能力的全球扩散。这种动态影响着创新、人才流动、投资以及全球AI规范的制定。
随着AI治理框架和法规(如欧盟AI法案 - S43, S46;美国州法律 - S2)的逐步确立,相关的合规负担(如文档记录、风险评估、审计、确保XAI)将成为一项重大的运营和财务开销。这种“合规税”可能会无形中为资源不如大公司的小型AI企业或开源项目设置新的准入门槛,尽管SLM等技术在技术层面降低了门槛,但这可能扼杀创新或进一步集中权力。全球AI治理和监管正在加强1。合规需要大量投入:建立专业团队、完善文档、风险管理、确保透明度。欧盟AI法案包含“解释权”。满足这些要求需要大量资源(法律、技术、财务)。虽然小型模型和开源正在降低技术壁垒(第二节A部分),但日益增长的监管壁垒可能会抵消部分普及效应。这可能导致形成一个有利于资源雄厚、能够承担全面合规的大型组织的“监管护城河”,从而可能使初创企业和小型创新者处于不利地位。这也可能推动对“合规即服务”型AI解决方案或更易于审计/解释的AI架构的需求。
2025年,可解释AI(XAI)领域面临着一个关键的双重挑战:不仅要提升解释方法的技术能力(例如,S43中提到的保真度、完整性),还要严格验证其在真实世界任务中的人类可用性和实际有效性(S44中强调的差距)。如果缺乏经验证据证明用户(尤其是非专家用户)能够理解解释并据此采取适当行动,XAI就有可能成为一个技术上复杂但实际上无效的领域,无法建立真正的信任或改善决策。XAI技术正在成熟,出现了诸如解释器头和联邦可解释性等新方法。XAI被视为建立信任和促进采用的关键。然而,XAI领域因缺乏通过人类研究获得的“模型可解释性的经验证据”而受到批评;其可解释性的声明往往缺乏对“信号是否被充分接收和理解以完成给定任务”的验证。在产生“解释”与确保该解释对目标人类用户真正有用和可理解之间存在差距。因此,要使XAI实现其承诺,研究必须超越算法开发,纳入严格的以人为中心的评估。否则,XAI可能沦为一种“打勾”练习,而非真正实现可信AI的推动者。这也影响了欧盟AI法案等法规下的“解释权”——一个无人能懂的解释并非一项得到履行的权利。
激烈的中美AI竞争1以及公众乐观情绪的差异,可能导致国家或地区层面出现不同的AI治理和伦理框架。尽管存在一些全球合作,但不同的战略优先事项(例如,创新速度与社会控制与个人权利)可能导致全球监管格局碎片化,从而使跨国商业运营和数据流动复杂化,并可能导致在AI标准方面出现“伦理寻租”或“逐底/逐顶竞争”。美国在模型生产和私人投资方面领先;中国正在缩小质量差距,并在专利/出版物方面领先1,这表明了强烈的国家战略利益。公众对AI的乐观情绪在中国和亚洲部分地区非常高,但在美国和欧洲则低得多。美国各州在其监管方面处于领先地位;新一届美国政府可能会放松联邦法规。欧盟有《AI法案》。中国也有其不断发展的AI治理体系。不同的社会观点和战略目标(经济增长、国家安全、社会稳定、个人自由)可能会以不同方式塑造国家AI政策。尽管存在全球合作的呼声,但竞争压力和不同的理念可能导致形成独特的AI监管“集团”。这种潜在的分歧可能给跨国公司在应对相互冲突的合规制度方面带来重大挑战。它还可能影响国际研发合作、数据共享标准以及AI的全球采用,可能导致不同地区发展出针对当地法规和社会规范进行优化的不同“风格”的AI。
VII. 战略展望与关键未来轨迹
综合主要趋势及其综合影响:
模型能力的迅速提升(II.A)、跨模态生成式AI日益复杂(II.B)以及智能体系统的兴起(II.C)共同指向一个未来:AI系统将更加自主、多功能,并深度融入生活和工作的各个方面。
这一进程得益于硬件和软件的持续创新(V.A, V.B),但日益受到负责任开发、健全治理(VI.A, VI.B)以及复杂地缘政治动态(VI.C)的塑造。
AI民主化趋势(高效SLM、开源、DPO)与前沿模型开发中的权力集中现象并存,共同构成了一个复杂的多层次AI生态系统。
未来1-3年预期突破与挑战:
- 预期突破:
- 视频和3D生成质量及可控性的进一步显著提升。
- 智能体AI在特定企业工作流程中的实用且有影响力的应用。
- 全模态AI在面向消费者的应用中(如高级虚拟助手)得到更广泛的采用。
- AI在科学发现领域取得切实的成功(例如,新材料、进入试验阶段的候选药物)。
- XAI技术的成熟,能够在关键领域显著提高用户信任度和任务绩效。
- 面临挑战:
- 可靠且安全地扩展智能体AI以应对复杂、开放式任务。
- 管理先进生成式AI的社会影响(例如,创意产业的就业岗位流失、复杂的虚假信息)。
- 在全球AI治理标准方面达成广泛共识并有效执行。
- 解决AI人才缺口问题,特别是在治理、安全和特定领域应用方面。
- 确保基础模型的长期鲁棒性并避免性能退化(例如,过度依赖合成数据导致模型崩溃)。
- 弥合AI研究成果与实际可行、经济上可行的产品之间的“死亡之谷”,特别是证明GenAI的投资回报率。
对利益相关者的建议:
- 对研发领导者:
- 专注于兼顾能力与效率的混合架构。
- 优先研究鲁棒的长文本推理 和可靠的智能体AI。
- 大力投入多语言LLM安全和基于文化背景的评估。
- 推进XAI方法的研究,并高度重视以人为中心的验证。
- 开发高效的机器人模拟到现实迁移技术。
- 对商业战略家与投资者:
- 系统地衡量和实验,以证明GenAI项目的投资回报率。
- 在利用前沿模型的同时,探索专业化SLM在细分应用中的机会 1。
- 投资MLOps/LLMOps平台,以实现可扩展和受治理的AI部署。
- 通过投资AI治理人才和框架,为日益增长的合规需求做好准备。
- 根据总拥有成本和特定工作负载需求评估硬件选择,而不仅仅是原始性能。
- 对政策制定者与监管者:
- 促进在AI安全标准和治理框架方面的国际合作。
- 支持开放科学原则,以确保可靠的AI驱动的科学贡献和广泛的可及性。
- 通过教育和培训计划解决AI治理人才缺口问题。
- 制定能够适应快速技术变革同时保障公共利益的敏捷监管方法。
- 投资公共研发以平衡商业主导地位,并确保对AI风险进行独立分析。