当前位置: CompoTech China > 业界资讯 >
 

全新 Arm C1 CPU 集群释放移动端侧 AI 卓越性能与能效

本文作者:Stefan Rosinger       点击: 2025-09-12 15:26
前言:
新的 Armv9.3 CPU 集群赋能更智能、更快速、更沉浸式的端侧智能,为消费类电子设备带来全新的 AI 体验 作者:Arm 终端事业部产品管理高级总监 Stefan Rosinger
随着用户期待在不连接云端服务的情况下,能在移动设备上享有更好的即时响应、更智能的个性化服务,更加实时处理的体验,使其正迅速成为人工智能 (AI) 的强大载体。与此同时,随着移动端 AI 体验从快速响应的应用、低延迟的 AI 助手,覆盖到高级相机功能和实时语音处理,意味着端侧 AI 体验朝向智能化、沉浸式,以及高要求等方向发展,伴随而来便是对高性能、高能效边缘计算的空前需求。

 
在异构计算中,CPU 在推动端侧 AI 的持续转型上扮演关键角色。Arm CPU 驱动了全球数十亿台移动设备,并因以下优势深受数百万第三方应用青睐:
在 AI 工作负载上的卓越性能;
针对实时 AI 应用的优化推理能力;
面向资源受限设备的出色能效;
具备跨生态系统与市场的可扩展性。

Arm C1 CPU 集群是 Arm Lumex 计算子系统 (Compute Subsystem, CSS) 平台的组件之一,也是首个基于 Armv9.3 架构的CPU 系列产品。该集群是 Arm 针对移动设备市场性能最强的新一代 CPU,旨在全面释放端侧 AI 的潜力,进而提升用户体验。

面向 AI 时代的高性能 Arm C1 CPU 集群

最高性能的 Arm C1 CPU 集群集成了新的 C1-Ultra CPU,以及可灵活组合的C1-Premium、C1-Pro 与 C1-Nano CPU 核心,能够根据合作伙伴的特定需求,实现性能和能效提升。同时,C1 CPU 通过 Armv9 架构直接内建第二代 Arm 可伸缩矩阵扩展 (SME2),这为加速 AI 体验带来了革新突破。

针对生成式 AI、语音识别、典型的机器学习 (ML) 和计算机视觉 (CV) 等工作负载,启用 SME2 的 Arm C1 CPU 集群在同等条件下,能比上一代 CPU 集群带来五倍 AI 性能提速。此外,借助 SME2,该 CPU 集群实现了多达三倍的能效优化。而上述的 AI 性能和能效改进能为用户带来更流畅、响应更迅速的端侧体验。

Arm C1 CPU 集群在实际用例中表现突出。在行业领先的性能基准测试,该 CPU 集群在同等条件下,相较于上一代 CPU 集群性能平均提升 30%,在游戏和视频流媒体等应用中平均提速 15%。与此同时,在日常移动端工作负载(如视频播放、社交媒体、网页浏览)中,该 CPU 集群在同等条件下,相较于上一代 CPU 集群功耗平均降低 12%。

 

Arm C1 CPU 系列在关键场景中发挥性能与能效优势

除了作为性能最强的 Arm C1 CPU 集群外,C1 CPU 还可扩展至各个级别的消费类电子和移动设备,为多样化的端侧工作负载提供不同水平的性能、功耗和面积效率。

借助 SME2 内置 AI 加速

得益于 SME2 内置的矩阵扩展,Arm C1 CPU 能够加速 AI 功能,包括涉及大量矩阵运算的大语言模型 (LLM)、媒体处理(图像与视频)、语音识别、计算机视觉、实时应用(AI 助手、计算摄影与 AI 滤镜)以及多模态应用等。SME2 是在 SME 基础上进行了全新的智能升级,能提升性能、降低内存占用,并使端侧 AI 运行得更为流畅,尤其是在音频生成、摄像头推理、计算机视觉及即时聊天等高实时性要求的应用中。

对于 Arm 合作伙伴和开发者生态系统而言,相较于未启用 SME2 特性的硬件,这些提升能显著加速不同工作负载和用例中的 AI 性能,包括:  
在 Whisper Base 上处理语音工作负载时,延迟降低 4.7 倍;
在 Google Gemma 3 模型上进行聊天交互,AI 性能增长 4.7 倍;
在 Stability AI Stable Audio 模型上生成音频,速度提升 2.8 倍。

 

移动端开发者无需修改代码,就可通过 Arm KleidiAI 与主流 AI 框架(包括阿里巴巴 MNN、Google LiteRT 和 MediaPipe、Meta llama.cpp 以及微软 ONNX Runtime)以及运行时库(如 Google XNNPACK)的集成,直接使其应用能获取 SME2 的性能优势。换言之,当开发者选用这些AI框架和运行时库进行应用构建时,SME2 便已直接嵌入至其软件栈中。

部分谷歌的应用已启用 SME2,因此当搭载 SME2 硬件的新一代安卓智能手机面世时,它们即可从更优异的 AI 特性中获益。与此同时,SME2 不仅面向旗舰及高端智能手机,未来的中端设备也将集成 SME2 增强型硬件,从而提升 AI 计算性能。

Arm C1-Ultra 与 C1-Premium 实现出色的性能峰值与持续性能表现

新一代高性能旗舰 CPU Arm C1-Ultra 专为要求严苛的 AI 任务和工作负载而设计。C1-Ultra 的推出,让 Arm 持续保持连续六年的两位数性能提升的发展势头,其单线程峰值性能较上一代 Arm Cortex-X925 CPU,提升高达 25%。这一性能跃升的主要驱动力来自两位数的每时钟周期指令数 (IPC) 增长。正如此前《内有剧透!打造高性能、高能效移动计算的关键是?》一文所述,IPC 对实际移动端用例至关重要,因为它能提供以下优势:
在关键时刻和关键场景中实现峰值性能;
在移动设备功耗范围内提升性能表现;
降低固定计算需求的能耗。

  

除单线程性能提升外,相较于 Cortex-X925,Arm C1-Ultra 在各类基准测试、AI 工作负载及实际应用中均展现出了全面提升。这些突破得益于 C1-Ultra 多方面的设计优化,包括:
业界领先的前端设计,并针对实际工作负载进行优化;
业内最宽、吞吐量最高的微架构;
出色的预取器,可在面积限制内优化性能。
 
Arm C1-Premium CPU 是 Arm 首款次旗舰处理器,其核心面积比包含私有 L2 缓存的 C1-Ultra 核心缩小了 35%。该 CPU 在 SPEC 套件等基准测试中以更小的占用面积,保持了同等的性能水平,实现了卓越的面积效率。

Arm C1-Pro 实现出色的持续能效

Arm C1-Pro CPU 在提升性能的同时,把控功耗,在整个功耗范围内实现更高的每瓦性能。该 CPU 在游戏等工作负载中表现卓越,与上一代的 Arm Cortex-A725 CPU 相比,在相同主频下持续性能提升 16%。在视频播放、网页浏览及社交媒体等用例中,C1-Pro 在同等性能下较 Cortex-A725 的能效提高多达 12%。在完全不牺牲性能表现的情况下,将新一代的能效水平展现地淋漓尽致。

 

在微架构层面,Arm C1-Pro 引入了增强型分支预测和内存系统更新,尤其适用于实际用例中的多任务处理。该 CPU 还具有面积优化的配置方案,合作伙伴可将其集成到更紧凑的空间中,从而充分释放 SME2 的性能优势。

Arm C1-Nano 实现极致的能耗及面积效率

Arm C1-Nano CPU 在最小面积占用的条件下,将 Arm C1 系列 CPU 的优势集于一体。借助新的 Arm DynamIQ Shared Unit (DSU),其能效比上一代 Cortex-A520 CPU 提升了 26%,同时在核心面积缩小 2% 的条件下,实现了性能提升,使其成为可穿戴设备和紧凑型消费类电子设备的理想之选。
  

Arm C1-DSU 实现灵活且可扩展的平台

Arm C1 CPU 集群为移动设备提供可扩展的计算底座,而全新的 Arm C1-DSU 则在其中起到核心作用。C1-DSU 旨在为支持最新的架构和新的低功耗特性而设计,与上一代 DSU-120 相比,其功耗可节省高达 26%,同时提升带宽的扩展能力,以支持不同消费类电子和移动设备市场中各类新型的 AI 工作负载。无论是旗舰或高端智能手机、中端移动设备,还是可穿戴设备,C1 CPU 集群均能灵活配置。例如,相较于配置上一代 Cortex-A725 和 Cortex-A520 的 CPU 集群,配置 C1-Pro 与 C1-Nano 的 CPU 集群的计算密度可提升两倍,为中端移动设备赋予强大的 AI 功能。

端侧 AI 革新的核心动力

Arm C1 CPU 集群为未来端侧 AI 提供了一切所需:性能、能效、可扩展性与内置的智能性。借助内建的 SME2,以及从 Ultra 到 Nano 的灵活选择,Arm 致力于提供加速的 AI 体验,让人人触手可及。

全新的 Arm C1 CPU 旨在实现无处不 AI 的世界,赋能定义移动端计算新时代的应用、设备、体验和特性。Arm 无比期待在不久的将来看到新的 Arm CPU 应用于消费类电子设备中!