冯·诺伊曼架构太低效,来看看替代性AI芯片架构的几种可能

2018-08-16 09:23:07 来源:EEFOCUS
标签:

 

冯·诺伊曼架构运行人工智能应用相对低效,哪种架构将取代它?

使用现有架构应对机器学习和人工智能问题越来越不切实际了。随着人工智能应用消耗的能量不断攀升,CPU和GPU越来越不堪重任。

几次圆桌会议讨论下来,认为当缺乏传统IP时不存在催生重大变化的最佳机会。大多数设计以渐进的方式而演化,虽然这是一种安全的前进方向,但是并不是最佳的解决方案。当新生事物出现时,人们有机会重新审视事物,并提出比主流技术所建议的更好的方向。最近,一组研究人员就跳出了传统,质疑CMOS是否是构建AI应用程序的最佳基础技术。

IBM纳米电子研究计划(NRI)负责人An Chen发起了这次讨论。“多年来,新兴技术一直是我们研究的主题,其中包括寻找CMOS的替代品,特别是因为它当今所面临的功耗和尺寸问题越来越尖锐。经过多年的研究,我们得出的结论是,我们找不到比CMOS更适合构建逻辑器件的东西。今天,AI成为了许多研究人员关注的焦点,它确实引入了一些新的思维方式和新的设计方法,而且拥有不同的技术和产品。那么新兴的人工智能会让我们有更好的机会寻找出CMOS的替代品吗?”

现在的AI芯片
现在,大多数机器学习和人工智能应用都使用冯诺依曼架构。“内存存储权重系数和数据,CPU负责所有的计算工作,”台湾国立清华大学电气工程系教授张孟凡 (Marvin)解释道。 “很多数据的移动都是通过总线进行的。今天,他们还使用GPU进行包含卷积运算在内的深度学习。这里的一个主要问题在于,它们通常需要创建中间数据来实现推理。数据传输,特别是和片外器件的数据交互会导致能耗升高和增加延迟,这里会形成一个瓶颈。”

 

冯诺依曼架构的AI芯片


要解决这个瓶颈,需要将运算和内存拉得更近。“架构设计人员早在多年前就提出了‘在内存中计算’这种概念,”张教授说。“现在,有几种SRAM和非易失性存储器(NVM)设计正在试图实现这种概念。如果效果理想,CPU和内存之间将不再需要数据传输,这将节省大量能耗。”

但是我们今天并没有实现在内存中计算。“我们现在的AI 1.0仍在使用冯诺依曼架构,因为并没有可实现内存中计算的成熟器件,”张教授说。“现在唯一的方式是使用3D TSV,以提供高带宽内存(HBM),结合GPU来解决内存带宽问题,但是这种方案并不能真正解决能耗和延迟上的瓶颈。”

单靠在内存中运算就能够解决功耗浪费问题吗? “人脑大约有一千亿个神经元,大约有1015个突触,”台积电副总裁Hsien-Hsin(Sean)Lee说。 “拿IBM的TrueNorth来说吧。TrueNorth是IBM在2014年开发的多核处理器,它有4,096个内核,每个内核有256个可编程模拟神经元。假设我们可以把它扩展,以模仿人脑的运算能力,现在的TrueNorth需要提升五个数量级。我们直接把TrueNorth按照这个数量级进行扩展,它将成为一个功耗为65kW的机器。相比之下,人脑的功耗仅为25W,我们必须把TrueNorth的功耗降低几个数量级才行。”

Lee提供了另外一种看清楚这种机会的方式。“当今世界上能效最高的计算机是日本的Green500,可实现每瓦17Gflops的计算能力,大概对应于每59 picoJ 1 flops。”Green500网站指出,安装在日本RIKEN高级计算和通信中心的ZettaScaler-2.2系统在其858 teraflops Linpack性能测试期间重新测量的能效可以到18.4Gflops/瓦。“Landauer的原理告诉我们,在室温下,每个晶体管的最小开关能量约为2.75 zeptoJ。因此,这里同样是数量级上的差异。59 picoJ的数量级约为10-11,理论最小值约为10-21。这意味着我们还有很大的进步空间。”

将这些计算机和人脑进行比较是否公平呢?“看看人类最近这些年在深度学习领域取得的成功,你将会发现,在人类和机器对决编年史中,机器在过去几年中大部分案例中都取得了成功。”Purdue大学电气和计算机工程学科的杰出教授Kaushik Roy说道。 “1997年,我们制造出深蓝,击败了国际象棋大师Kasperov,2011年,IBM的Watson参加了Jeopardy并赢得冠军,2016年,Alpha Go战胜了李世石Lee Sedol。这些都是人工智能领域的伟大成就。但问题在于,这些机器取胜的成本是多少?这些机器的功率都在200KW到300KW之间,而人类大脑的功耗仅在20W左右。存在如此巨大的能效差距,我们将从何处下手进行创新呢?”

现在大多数机器学习和人工智能应用的核心都是大规模执行一些非常简单的运算。“在一个非常简单的神经网络上,你可以进行加权求和,然后进行阈值操作,”Roy解释说。“你可以在一个crossbar上做这些事情,crossbar可以支持多种不同类型器件,比如旋转设备或阻变式RAM。在这种情况下,我们将得到和每个交叉点相关的输入电压和电导,输出的结果将是这些电压和电导乘积的总和。求和之后,你可以使用类似的器件进行阈值处理。你可以考虑使用一种架构,其中,这些节点连接在一起执行运算。”

 

神经网络的主要器件

 

 
关注电子技术交流网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
 

 

作者简介
电子技术交流网 小编
电子技术交流网 小编

电子行业垂直媒体--电子技术交流网小编一枚,愿从海量行业资讯中淘得几粒金沙,与你分享!

继续阅读
一种实现高密度SRAM的解决方案设计

通过减少晶体管数目来达到减小存储单元面积,从而实现高密度的SRAM设计是一种较为直接的解决方案。在至关重要的SRAM存储单元设计中,不同工作状态表现出的稳定特性是评判SRAM设计的重要指标。

AI芯片赋能未来城市 地平线多款AI解决方案亮相高交会

第二十届中国国际高新技术成果交易会(简称高交会)于2018年11月14日-18日在深圳会展中心举行。被誉为“中国科技第一展”的高交会作为中国规模最大、最具影响力的科技类展会,以“坚持新发展理念推动高质量发展”为主题,集结了眼下最前沿的高科技产品和技术,发挥技术风向标、行业风向标、创新风向标的功能。

外媒:美光成晋华事件最大受益者?半导体设备厂商可乐不起来
外媒:美光成晋华事件最大受益者?半导体设备厂商可乐不起来

唱衰美光公司的投资者有三大主要支持论据,其中之一就是中国发展自主DRAM的扶持计划; 美国商务部将中国的DRAM厂商福建晋华集成电路有限公司列入禁售名单,它将无法从美国进口任何元器件和技术; 美股市半导体板块的一干股票对此作出了积极响应

辟谣:2020年的iPhone将采用英特尔这款5G调制解调器
辟谣:2020年的iPhone将采用英特尔这款5G调制解调器

根据Fast Company提供的一份最新报告,苹果公司将在其2020年iPhone产品系列中选用英特尔的5G调制解调器。下面,让我们仔细看一看这份报告的细节信息。

新思科技推出Platform Architect Ultra满足下一代AI芯片设计需求

新思科技(Synopsys, Inc.,纳斯达克股票市场代码: SNPS)宣布,推出适用于下一代架构探索、分析和设计的解决方案Platform Architect™Ultra,以应对人工智能(AI)系统级芯片(SoC)的系统挑战。此解决方案支持神经网络芯片根据数据中心或嵌入式设备可用功耗和性能预算,平衡所需卷积神经网络(CNN)的吞吐量。

更多资讯
起于存储,立于晶圆代工,力晶的戏剧化之路

在存储大好的年代,力晶跟银行借了很多钱,风光盖厂,为了维持技术的领先,花大钱买机台,跟着投入先进制程的研发,可惜无法维持太久。

火线三兄弟:DSP 、ASIC、FPGA

在相当长的一段时间内,FPGA、ASIC、DSP三者不同的技术特征造就了它们不同的应用领域,DSP在数字信号方面是绝对的霸主,ASIC是专业定制领域的牛人,而FPGA由于其价格高、功耗大,主要用于ASIC前端验证和一些高端领域,在DSP和ASIC面前绝对属于小弟。但近10年,这小弟特别努力,提高了半导体工艺水平,降低了功耗和芯片价格

一文读懂C51单片机指针变量

[存储器类型1] 表示被定义为基于存储器的指针。无此选项时,被定义为一般指针。这两种指针的区别在于它们的存储字节不同。一般指针在内存中占用三个字节,第一个字节存放该指针存储器类型的编码(由编译时由编译模式的默认值确定),第二和第三字节分别存放该指针的高位和低位地址偏移量。

MSP430单片机中断的的优先级顺序定义

430的中断是按照下图1的优先级顺序定义的,有三种中断:1.系统重置、2.不可屏蔽中断(NMI)、3.可屏蔽中断。

如何通过PIC单片机设计一款多媒体终端遥控器?

随着数字家庭等领域技术的迅速发展,在多媒体终端上的增值业务将越来越多,浏览网页、搜索、短信等都需要遥控器进行输入。但作为连接用户和终端之间的重要外设,遥控器的设计理念还停留在模拟电视时代,体验感较差。

电路方案