以存储为中心的片上系统与人工智能

本文作者:Sylvain Dubois       点击: 2016-12-16 15:52
前言:
当高性能、低功耗以存储器为中心的片上系统与物联网设备和云服务器相结合时,能够实现怎样的情形呢?
 
斯坦福大学近期的一份报告表示,人工智能 (AI) 在近期不会取代人类的需求,但它将对日常生活产生深远的影响,改变运输、教育、医疗和娱乐等行业。深度神经网络算法与机器学习所产生的激动人心的发展成果将带来新的智能接口、新的虚拟助手以及多个行业一系列应用的进化 —— 这些曾经只存在于研究实验室中的梦想如今却成为了消费者触手可及的现实。
 
 
Donarreiskoffer - Selbstfotografiert
机器学习算法开始走向大众的第一个例子是计算机开始在与棋手的对战中取胜,比如最近与顶级围棋选手之间的比赛(图1)。而像这样的可能性还会更多。我们现在正在进入一个监视摄像头和自动驾驶通过机器学习技术成为现实生活中高级计算机视觉应用的时代。使用深度学习算法的语音识别和智能传感器能够提高机器人应用的环境感知。用于电子商务与广告建议的云分析以及商业分析或医疗建议也只不过是冰山一角,并且这些应用的种类正变得越来越丰富。
 
为了让人工智能不仅限于实验,需要改进用户体验,从而加快采纳并且使公司能够盈利。人工智能以及更具体的机器学习是几乎每家未来企业盈利和与竞争对手实现更大差异的核心。在过去,数据存储是成本中心,而如今它有机会成为利润中心 —— 这是因为数据能够训练算法并且创造新的应用。
 
算法需要训练大型数据集。处理这些数据的算法正变得越来越复杂,并且所有数据都需要实时处理。多年来,许多公司都清楚地知道数据采集是其商业模式中最宝贵的资产。现在,人们已了解社交媒体公司为何提供如此便捷、免费的平台用于图片分享与发表评论。这一海量的合格数据现在已成为一项非常宝贵的资产,并且为这些企业带来了极高的价值:其应用或设备所采集的大部分数据被直接输入到深层神经网络以训练它们。可以快速访问、用于训练机器学习算法的数Zb存储数据将带来更具创新性的产品与应用。
 

图2:人工智能可以将数据转换为体验。
 
物联网是人工智能的基础 
物联网是人工智能的自然基础,并且最终当所有互连设备成为更智能、更具预测性的设备时,这两者将会合二为一。物联网主要用于采集数据,而人工智能的主要工作则是使用数据。数据越多,人工智能算法的智能程度就越高。
 
内置于智能设备的声控虚拟助手,比如苹果公司的 Siri、亚马逊的Alexa或谷歌的Home等的性能正变得越来越强大。类似于斯派克·琼斯的浪漫主义科幻电影《云端情人》中的体验可能在几个月后就能实现。近期,需要对数据进行本地分析的人工智能型监控摄像头的发展速度正在加快。而将4K视频上传到云端进行处理和下载所产生的性能与成本挑战将阻碍必须采取的措施。想象一下:当无线网络信号不佳时,驾驶辅助系统出现故障。大部分智能设备都需要通过更好地理解其环境和消费者的习惯来根据用户体验改善性能。进化的基础是从我们过去的经验中学习并且改进我们的未来行为。

这些生成大量可分析与可执行数据集的技术需要有创新的存储技术提供高性能与低能耗。
 
Crossbar RRAM等非易失性存储技术正在通过提供低功耗、低电压的运行、与计算机内核的单片集成以及可按字节寻址的写入帮助解决嵌入式物联网的性能与能源挑战。RRAM是能耗最低的物联网应用存储技术,并且可以与单片解决方案上的处理内核集成。
 
RRAM通过与专用逻辑的片上集成加快深度神经网络算法。来自传感器的数据可以保存在片上并且直接通过深度神经网络传输,从而采取直接行动。
 
对象并非通过软件的获取行,而是通过与来自各传感器的外部数据产生反应来实现智能。数据采集与处理可以通过嵌入式RRAM集成到一个单片解决方案上。通过集成高密度片上存储器与同一节点上的处理器,数据从处理器向片外存储器子系统的传输及回传所固有的延迟被消除。因此, RRAM 技术是一项加快挖掘新型大数据、人工智能领域潜力的创新,使多种应用加快性能,并且大幅提高了能效、实现了出色的安全性并且减少了芯片的数量与尺寸。
 

图3:同一硅晶片上的非易失性存储器和计算逻辑加快数据访问并且提高能效
 
人工智能所需的新架构
摩尔定律戛然而止,CPU的刷新频率更低。目前英特尔处理器所遇到的冯·诺依曼存储瓶颈问题可以通过更加以存储器为中心的新系统架构解决。必须减少存储技术与计算之间的性能差异。传统的闪存型存储解决方案的读取反应时间在100微秒范围内,而Crossbar 3D RRAM则为1微秒。除了 Crossbar的 RRAM之外,Intel Micron XPoint PCM、Everspin 和 Avalanche MRAM等新兴存储技术还支持其他多项倡议,它们都致力于解决这一挑战。
 
数据中心中的传统架构通常包含三个独立的部分:
• 带顶尖处理内核与配套DRAM存储器的计算部分
• SSD或HDD单位字节成本最低的数据存储部分
• 连接计算部分与数据存储部分的网络
 
分析师发现数据中心的集成度正呈现越来越高的趋势,其中这三个组成部分 —— 计算、存储和网络被压缩到一个紧凑的尺寸,这被称之为“超融合服务器”。
 
根据近期的一些报告,已有40%的企业数据中心使用超融合服务器,而这一市场有望在未来五年增长近80%。
 
数据中心基础架构市场正在缩短服务器各元素延迟时间的方向快速发展。在一个单元中集成所有组件能够减少延迟、总拥有成本和功耗。在超融合服务器中,计算、存储和网络部分可以实现更高效的互连。新的行业论坛正在实现处理器、存储和IO之间的高带宽低延迟数据访问。在高性能计算应用中,Intel Micron 3D XPoint PCM和 Crossbar 3D RRAM将通过减少存储与计算之间的性能差距实现显著的改进。
 
可以直接在片上与处理逻辑集成的存储技术将实现全新的以存储器为中心的片上架构。当非易失性存储器与计算逻辑共享同一块硅晶片时,就能解决外部总线的性能瓶颈。嵌入式永久存储技术的一个特殊应用领域是建立在以存储器为中心的片上系统基础之上的深度学习硬件加速。人工智能和深度学习是这十年最有可能取得进展的计算技术。深层神经网络的核心是数据以及经过训练的算法如何应对新的数据集。行业对于新计算平台的开发具有浓厚的兴趣,这些计算平台通过专门嵌入RRAM内核的多个处理引擎具备了大规模并行计算能力。目前已有多家企业已经在研究如何将RRAM单元作为神经形态处理架构的突触。
 

图4:提供新人工智能体验的RRAM并行计算平台。
 
在物联网设备和云服务器中引入这些高性能、低功耗且以存储器为中心的片上系统使数据和计算变得无处不在 —— 用户可随时随地在需要时使用它们。这些解决方案不仅为云端提供了容量与规模都十分“庞大”的数据,而且也带来了嵌入式应用实现新人工智能应用所需的能效、安全性以及出色的低延迟性能。