安谋科技产品总监鲍敏祺
Apple Intelligence等大模型的应用已经开始渗透到日常生活中,如图片识别、信息总结等,这些功能不仅满足了用户需求,也逐步得到了公众的认可。在硬件侧,高通骁龙X Elite等产品对AI的投入不断增加,逐步投资更多的AI算力设计。AIGC大模型带来的算力提升使得端侧AI新迎来新的机遇。
在E维智库第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上,安谋科技产品总监鲍敏祺先生发表探讨了端侧AI的新机遇以及NPU在其中的关键角色。
端侧AI的挑战与机遇:在端侧AI的发展中,算力的提升是否像云端一样不断膨胀成为关键问题。
鲍敏祺认为:端侧模型的大小受限于memory带宽,目前普遍在50-100GB/s。用户体验的实时性需求使得端侧大模型的部署集中在1-3b的体量。国内外厂商如OPPO、VIVO、小米、荣耀、华为等头部终端厂商都在推动大模型的商业化应用。
多模态与大模型的未来:语言类模型不是端侧模型应用的终点。未来,图片、音频、视频等多模态输入将成为主流。硬件需求方面,多模态做法需要对内容进行压缩和Tokenizer处理,将各种内容转换成Token。这背后LLM based的模型并没有改变,只是内容输入时会有一个编码过程,输出时进行解码处理。
端侧AI的场景与应用:端侧AI的应用场景包括手持设备、Edge、PC、Auto等,模型体量从1-10B到10-70B不等。他特别提到可穿戴设备,AI赋能不仅限于传统设备,也能赋予一些新兴终端设备更多的产品力。比如Facebook的智能眼镜系统,再空间及其有限的眼睛框架中要搭配无线传输和高清晰度摄像头,并实现一定程度的AI计算。
Facebook的智能眼镜
安谋科技“周易”NPU的创新
面对端侧AI的挑战,安谋科技自研的“周易”NPU进行了多项创新。
它保留了CNN的能力,并针对transformer大模型进行了增强,主要集中在更多的算力。其次,它通过混合精度量化和无损压缩提升能效,减少数据搬运。此外,“周易”NPU还针对大模型进行了总线带宽的扩展,提升了单核往外的带宽能力。
下一代“周易”NPU的架构
下一代“周易”NPU的架构,强调了任务调度管理器的重要性,以及多核形式的可扩展性。新框架优化了DRAM带宽匹配和可选的片上SRAM,以满足特殊算法需求。
安谋科技下一代“周易”NPU的架构
在NPU设计上,安谋科技采用了异构策略,使得NPU能够独立端到端地执行AI任务。这种异构对于AI和端侧来说,无论是从能效还是SOC面积来看,都是最佳选择。
在智能汽车、手机PC、AIOT等场景的NPU会采用不同策略。例如,在智能汽车领域,“周易”NPU能够覆盖ADAS、智能座舱、车载娱乐系统等场景,并已在多个车型中得到应用。在AIOT场景中,NPU的算力需求较低,但对安全性有更多诉求。
结语:
面对端侧AI的新机遇和挑战,安谋科技凭借“周易”NPU在推动终端算力升级的创新和布局。
“对于下一代“周易”NPU所具备的能力。从生态环境角度,无论是Wenxin、Llama、GPT等模型,这些我们都已经做了对应的部署。同时在端侧,它整个覆盖面还是比较广的,面向PAD、PC、Mobile等各类场景,我们都有一定的产品形态或者configuration能够适配到。对于Automotive,不管是IVI还是ADAS,我们可以从实际场景去看究竟它的场景要用多少算力、用什么样的模型,针对性的可以有最高320tops能够提供。“