找回密码
 立即注册
搜索

Arm机器学习才能爆表,推出多款高功能处理器

与非网 2 月 12 日讯,Arm 推出其人工智能(AI)平台重要新品,包括全新机器学习 IPCortex-M55处理器,以及 Ethos-U55 神经网络处理器。

其中,Ethos-U55 是 Arm 针对 Cortex-M 系列处理器推出的首款微神经网络处理器(microNPU),与 Cortex-M 系列处理器相配合,能进一步提升机器学习功能与能效。


Arm 称,Cortex-M55 与 Ethos-U55 的结合运用,可以为微控制器带来 480 倍的机器学习功能飞跃。随着机器学习运用在各个行业中愈发普及,在 Arm 看来,终端 AI 市场也将在将来几年内呈现爆炸性增长,终端智能设备市场将进一步发展。

因此,Arm 经过推出全新 IP 内核与 NPU,在扩展本身 AI 产品组合的同时,也协助客户降低芯片开发成本,满足他们提升终端数字信号处理(DSP)和机器学习才能的需求。

一、Cortex-M55:拥有自定义指令集和矢量扩展

Arm 宣称,此次推出的 Cortex-M55 是其有史以来 AI 功能最弱小的 Cortex-M 处理器,同时也是首款基于 Armv8.1-M 架构、内建 ArmHelium 向量处理技术的处理器。

与前几代 Cortex-M 系列处理器相比,Cortex-M55 的机器学习功能最高可提升 15 倍,DSP 功能可提升 5 倍,能耗比进一步提高。除此之外,Cortex-M55 还支持自定义指令集(CustomInstructions)。在去年的 ArmTechcon 技术大会上,Arm 初次宣布自定义指令集,并与 Cortex-M33 一同推出。

实践上,这一功能与 RISC-VIP 内核提供的功能相相似,目的是在密集执行的内核中,将紧凑的指令序列折叠为一条指令,节省功耗和吞吐量。从传统方式上看,用户要完成这一功能,可以经过内存映射设备来完成,而 Arm 如今曾经可以经过运用协处理器接口,将操作更严密地与 CPU 集成在一同。

这就意味着,用户能经过 Cortex-M55 的自定义指令集延伸处理器才能,对特定工作负载停止优化。除了自定义指令集外,Cortex-M55 还有另一大创新点,它在内核中初次构建了 Helium 向量处理技术。

Helium,也称为 M-ProfileVectorExtension(MVE),它能在 ArmTrustZone 的安全基础上提高 Armv8.1-M 架构的计算功能。它还引入新的单指令多数据流(SIMD)128 位矢量操作,进一步加强 DSP 和机器学习运用的功能。

在功能方面,Helium 能将 Cortex-M55 的数字信号处理器功能提升 5 倍,机器学习功能提升 15 倍。此外,它还依赖现有的寄存器(非 NEON 矢量寄存器),并引入对通道(lane)预测、循环(loop)预测、分散 / 聚集(scatter-gather)等复杂操作的支持。

二、Ethos-U55:简化设计 NPU

假如想拥有更高的机器学习系统,用户可以将 Cortex-M55 与 Ethos-U55 搭配运用。

Ethos-U55 是 Arm 的首款微神经处理器,与现有的 Cortex-M 系列处理器相比,Cortex-M55 与 Ethos-U55 的结合能让产品的机器学习功能提升 480 倍。

功能方面,Ethos-U55 拥有高度的可配置性,能加速空间受限的嵌入式与物联网设备的机器学习推理才能。它的紧缩技术可以节省电力并减少机器学习模型的尺寸,同时还能运转以往只能在较大型系统上执行的神经网络运算。

实践上,Ethos-U55 与其他 Ethos-N 系列存在一定区别。首先,Ethos-N 是独立的 IP 模块,可以放到 SoCCCN-500 网络上,而 Ethos-U 旨在与配套的 Cortex-M 处理器严密协作,并应用其处理才能。

同时,Ethos-U55 还可以与较旧的 Cortex-M 系列处理器一同运用,如 Cortex-M7、M4 和 M33 等。从 Ethos-N 系列的多层神经网络(MLP)设计上看,它们是运用多个计算引擎实例构建的,每个实例都包含几个次要组件,如 SRAM、MAC 计算引擎(MCE)和可编程层引擎(PLE)。但对 Ethos-U55 来说,由于功率和面积限制,它的设计相对简单,因此 Arm 将其称为 microNPU。

从概念上讲,Ethos-U55 只是一个具有计算引擎的 MLP,而从设计上看,Ethos-U55 在设计过程中删除了 PLE。次要缘由在于,Ethos-N 系列的 PLE 将 Cortex-MCPU 和 16 通道的矢量引擎集成在一同,导致面积和功耗都相当昂贵,但这对高功能 SoC 来说还处于可接受的范围。

而 Ethos-U55 经过与 Cortex-M55 等 CPU 相结合,可以让用户摆脱 PLE,改为在配套的 Cortex-M 处理器上停止处理。

虽然这并非一个残缺的代替品,但基于严厉的功率和面积限制思索,这不失为一个在可接受范围内的折中方案。此外,Ethos-U55 还删除了较为昂贵的公用 SRAM 库,由于它只需求很小的 SRAM 就可以停止足够的外部处理。

Ethos-U55 假定外部系统具有某种缓存,可与 Cortex-M 处理器共享,照旧能完成 MLP 设计的其他工作。例如,让直接内存存取(DMA)根据需求获取 NN 层,此外 NPU 还可以处理内存中的紧缩权重和激活工作,在处理之前即时停止解码。

三、M55 与 U55 结合的最高推理功能可提升 50 倍

Arm 宣称,与 Cortex-M7 相比,基于 Helium 扩展的 Cortex-M55,其对典型语音助手类的工作负载推理功能最高可提升 6 倍,能效可提升 7 倍。与 Ethos-U55 结合运用时,这两项功能可分别提高 50 倍和 25 倍。

值得一提的是,这些功能要完成提升,必须重新编译代码,以充分应用新的 M-Profile 向量扩展,以及 EthosMAC 引擎的处理才能。

据了解,Cortex-M 系列可用于各种芯片和多种工艺技术。基于此,Arm 表示,在 55nm 或 40nm 等成熟的节点上,他们希望能看到 Ethos-U55 的时钟频率可达到 100MHz 至 400MHz,甚至更高。

为了更好地调整 NPU 到运用程序,用户可以将 MAC 计算引擎(ComputeEngine)配置为 32、64、128 或 256 个 MAC。

在 32 个 MAC 的最小配置下,用户可以获得 6.4-25.6GOPS 的峰值计算功能,而在 256MAC 的最大配置下可达到 51.2-205GOPS。在 7nm 或 5nm 这类先进制程节点上,Ethos-U55 的时钟频率可达到 1GHz 或更高。在这一阶段,128 个 MAC 和 256 个 MAC 配置的峰值计算功能,分别为 0.25TOPS 和 0.5TOPS。

四、次要合作伙伴已获授权运用

目前,Arm 曾经向次要合作伙伴开放了 Cortex-M55 和 Ethos-U55 的授权,并将在将来几个月内进一步开放,基于此 IP 的芯片估计在 2021 年年终上市并实践投入运用。

在运用方面,Cortex-M55 可以广泛地运用于移动设备终端。例如,在智能手机的语音助理、指纹传感器和 RF 系统中,它能进一步完成这些工作负载的优化。

据了解,曾经获得 Cortex-M55 和 Ethos-U55 授权的公司有谷歌、恩智浦、意法半导体、赛普拉斯和恒玄科技等。

其中,Google 微控制器用 TensorFlowLite 部门产品经理 IanNappier 谈到,Arm 的这一全新 IP 进一步推进了在终端设备上完成机器学习,并达成数十亿个具有 TensorFlow 功能设备的共同愿景。

而这些设备仅依托电池就能运转神经网络模型,并长达数年之久,还可直接在终端设备上完成低迟延的推论。

另外,意法半导体微控制器部门总经理 RicardoDeSaEarp 也说到,全新的 ArmCortex-M55 可以为意法半导体的下一代微控制器,带来所需的机器学习功能与效率提升,从而进一步提升各项 AI 运用。

作为半导体范畴重要的 IP 架构供应商,长期以来,Arm 架构不断占领着移动设备范畴指令集架构的重要地位。

对 Arm 本身而言,随着 AI 和机器学习等技术的不断成熟和发展,它也持续研发出新的 IP 架构、完善各类 AI 产品组合,以满足市场越来越多的 AI 需求,而此次 Cortex-M55 和 Ethos-U55 的推出,也进一步为如今的 AI 终端市场扯开了又一创新方向。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

大神点评3

小玉蕊 2020-2-21 20:53:43 显示全部楼层
对不起,我就来看看,不说话
回复

使用道具 举报

lkmlkm 2020-2-22 14:12:33 显示全部楼层
打酱油的人拉,回复下赚取积分
回复

使用道具 举报

偌小兜 2020-2-23 16:10:02 显示全部楼层
很看好这个
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies