OpenEdv-开源电子网

 找回密码
 立即注册
正点原子全套STM32/Linux/FPGA开发资料,上千讲STM32视频教程免费下载...
查看: 2540|回复: 1

嵌入式存储器为AI的实现提供了实现架构

[复制链接]

31

主题

31

帖子

0

精华

初级会员

Rank: 2

积分
147
金钱
147
注册时间
2020-5-13
在线时间
16 小时
发表于 2020-5-18 16:38:53 | 显示全部楼层 |阅读模式

近年来,大脑启发式计算机领域的研究活动获得了巨大的发展。主要原因是试图超越传统的冯·诺依曼架构的局限性,后者越来越受存储器-逻辑通信的带宽和等待时间的局限性的影响。在神经形态架构中,内存是分布式的,可以与逻辑共定位。鉴于新的电阻式存储器技术可以集成在CMOS工艺的互连层中,因此可以轻松地提供这种可能性。

尽管嵌入式AI部署中当前的大部分注意力都集中在大型常规计算系统中实现深度学习算法,但对设备和电路技术的影响却是混杂的。尽管先进的标准CMOS技术已用于开发GPU和特定的电路加速器,但并没有真正推动使用任何“受生物启发”的硬件。新兴的电阻式存储设备(RRAM)可以打开途径,由于可以(感知到)不够成熟,可以通过在相对较低的偏置电压下调节电导来模拟纳米级的生物学上合理的突触行为,因此这种方法已被限制在研究组中技术。

但是,这些新设备可以为将嵌入式AI大量部署到消费和工业产品中所面临的主要问题之一提供解决方案:能源效率。如果将AI的使用范围扩大,将所有数据传输到云/服务器系统进行分析的能源开销将很快达到AI的经济可行性的极限。此外,对于自动驾驶汽车和工业控制等实时系统而言,如果连接到5G基础设施以处理数据的服务器集中在定义明确的区域中而不在整个基础设施中分布,则延迟仍然是一个问题。由于这些原因,并且在欧洲也出于隐私考虑,拥有具有边缘/使用点的,具有AI功能的系统具有高度的能源效率,并且可能具有逐步改善的本地学习能力,将变得越来越重要。

但是,使用新型电阻式存储器不仅限于此类“边缘”或“生物启发”应用,还可以使执行慢速非易失性高速缓存/快速大容量存储中间存储器功能的传统全数字时钟系统受益神经加速器中的水平。在这种情况下,好处将是减少快速DRAM和SRAM缓存区域,同时仍减少访问大容量存储的延迟。

生物启发计算的硬件平台

从技术角度来看,RRAM由于具有CMOS兼容性,高可伸缩性,强大的耐用性和良好的保留特性,因此是神经形态应用的良好候选者。然而,定义大规模混合集成神经形态系统(具有电阻记忆突触的CMOS神经元)的实际实施策略和有用应用仍然是一个艰巨的挑战。

已经提出了诸如相变存储器(PCM),导电桥RAM(CBRAM)和氧化物RAM(OxRAM)之类的电阻RAM(RRAM)设备来模拟生物学上受突触功能启发的功能,这些功能对于实现神经形态硬件至关重要。在不同类型的模拟突触特征中,依赖于尖峰时序的可塑性(STDP)是最常用的一种,但肯定不是唯一的可能性,并且某些可能显示出对实际应用的实现更为有用。

实施这些思想并验证该方法的电路示例是SPIRIT,由IEDM 2019提出[2]。已实现的SNN拓扑是单层的,完全连接的拓扑,其目标是在MNIST数据库上执行推理任务,有10个输出神经元,每类一个。为了减少突触的数量,将图像缩小到12×12像素(每个神经元144个突触)。使用单级单元(SLC)RRAM实现突触,即仅考虑低和高电阻级别。该结构为1T-1R类型,每个单元带有一个访问晶体管。多个单元并联连接以实现各种重量。在学习框架上进行的突触量化实验表明,介于-4到+4之间的整数值是分类精度和RRAM数量之间的良好折衷。由于我们旨在获得加权电流,因此必须将4个RRAM用于正加权。对于负权重,也可以使用RRAM对符号位进行编码:但是,由于将需要容错三重冗余,因此,最好使用4个附加RRAM来实现负权重。

“整合与解雇(IF)”模拟神经元设计的指导原则是,需要在数学上与具有监督的离线学习中使用的tanh激活函数对等。规格如下:(1)突触重量等于±4的刺激必须产生尖峰;(2)神经元必须产生正负尖峰;(3)它们必须有一个不应期,在此期间它们不能散发尖峰,但必须继续积分。神经元是围绕MOM 200fF电容器设计的。两个比较器用于将其电压电平与正阈值和负阈值进行比较。由于必须在RRAM的端子之间使用限制为100mV的电压降读取RRAM,因此为了防止将设备设置为LRS,所获得的电流不能被神经元直接积分,因此它们会被电流注入器复制。评估了编程条件的影响,并使用足够的编程条件来确保有足够大的内存窗口。放松机制的确出现在很短的时间范围内(不到一小时)。因此,分类精度不会随时间降低。读取稳定性也得到了验证,将高达800M的峰值发送到电路。

MNIST数据库的10K测试图像上的分类精度测得为84%。该值必须与从88%的理想模拟获得的精度进行比较,该精度受简单的网络拓扑限制(1层具有10个输出神经元)。每个突触事件的能量耗散等于3.6 pJ。当考虑电路逻辑和SPI接口时,它总计为180 pJ(可以通过优化通信协议来降低)。测量表明,图像分类平均需要136个输入峰值(对于ΔS= 10):每个输入小于一个峰值累积,与130nm节点中的等效形式编码MAC操作相比,能量增益提高了5倍。能量增益来自(1)基本操作的亮度(累积,而不是像经典编码中那样进行乘法累加)和(2)由于尖峰编码而导致的活动稀疏性。稀疏性好处将随着层数的增加而增加。文章来源:http://emb.hqyj.com/Column/20209342.html


正点原子逻辑分析仪DL16劲爆上市
回复

使用道具 举报

0

主题

70

帖子

0

精华

初级会员

Rank: 2

积分
72
金钱
72
注册时间
2019-7-11
在线时间
1 小时
发表于 2020-5-18 16:38:55 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则



关闭

原子哥极力推荐上一条 /2 下一条

正点原子公众号

QQ|手机版|OpenEdv-开源电子网 ( 粤ICP备12000418号-1 )

GMT+8, 2025-6-7 16:16

Powered by OpenEdv-开源电子网

© 2001-2030 OpenEdv-开源电子网

快速回复 返回顶部 返回列表