神经形态计算推动了人工智能SoC新兴存储器景观的发展

发布于 2023-5-17 11:06
浏览
1收藏

简介

深度机器学习 (ML) 和人工智能 (AI) 的发展步伐,正在改变计算领域的各个层面,涉及硬件架构、软件、芯片制造和系统封装等。 在两个方面取得的重大进展敞开了实施机器学习新技术的大门。 第一项进展,即拥有海量数据(即“大数据”)可供系统处理。 第二项进展,即先进的 GPU 架构现已支持分布式计算并行化。 有了这两项重大进展,设计师可以利用依托密集计算和大量分布式存储器的新技术,提供强大的新型计算能力。

基于神经形态计算的机器学习,可利用脉冲神经网络 (SNN)、深度神经网络 (DNN) 和受限玻尔兹曼机器 (RBM) 技术。 “大计算”结合大数据,利用基于统计的高维计算 (HDC),这种计算以模式为基础,支持基于联想记忆和持续学习的推理,以模仿人类记忆的学习和保留序列。

新兴的存储器有存算一体 SRAM、STT-MRAM、SOT-MRAM、ReRAM、CB-RAM 和 PCM。 每种开发类型都会同时尝试实现 AI 计算的转换。 各种类型共同提高了在计算能力、能源效率、密度和成本方面的优势。

为ML/AI计算选择内存架构的挑战

在选择最佳计算体系结构以及支持其 ML/AI 应用目标的相关存储器组合时,系统设计人员面临若干挑战。 尽管设计人员目前仍在使用传统的嵌入式 SRAM、缓存和寄存器文件,但是对于开发过程中 AI 负载的新需求,并没有通用或外来的存储器解决方案可以予以满足。 但是,预计机器学习会消耗大部分能量,所以优化机器学习的存储器,可以帮助设计人员达到其功率预算要求。 这对系统设计有重大影响。

OpenAI,一个致力于AI对人类的益处的研究机构,由微软和Khosla Ventures资助,观察到在过去 8 年里,深度学习的计算需求每三个月就会翻一番。 这一观察推动了内存技术在模块化、封装(堆叠)和冷却(热管理)的发展。

在以下九个主要挑战中,设计人员会确定在某个特定时间哪一个挑战至关重要,进而平衡其设计需求:

•吞吐量与能量的关系(千万亿次运算/瓦)

•确保设计重用的模块化和可扩展性

•通过热管理降低成本、复杂性和尺寸

•支持基于 AI 作出实时决策的速度

•可靠性,特别是人类性命攸关的应用

•与构成系统组件的 CMOS 的处理兼容性。 例如,STT-MRAM 能够和基于 CMOS 的处理器轻松集成

•功率传输

•成本; 最好以功能和集成(封装)成本的“最佳位置”节点表示

•展示模仿人类神经元的模拟行为

每一个存储器挑战都可以通过多种方式解决,因为同一个目标通常有多种实现方案。 每种方案都有优缺点,包括对架构决策的进一步可扩展性影响。

例如,对于存算一体,设计人员必须选择使用 SRAM 或是 ReRAM 阵列。 这两种选项对功率和可扩展性,有着截然相反的影响。 如果存储器模块的尺寸相对较小、所需的执行速度较高并且在片上系统 (SoC) 中集成存内计算,则自然就成为最合乎逻辑的选项,而 SRAM 就是理想之选(尽管 SRAM 的尺寸大且功耗大 - 包括动态功耗和漏电)。 另一方面,深度神经网络中高度并行的矩阵乘法,通常需要大量的存储器,因而使用具有密度优势的 ReRAM 较为合理。

布尔逻辑函数是涉及多输入的运算,必需能够从多个可寻址位置同时读取数据,并将结果写回所需的存储器位置,因此多端口 SRAM 在存算一体架构中发挥着特殊作用。 多端口 SRAM 和寄存器文件能够保证既精准的灵活性。 另外,多端口 SRAM 可以用来为 GPU 构建寄存器文件,这是实现高效多线程的关键。  

了解新兴存储器

最出名的新兴存储器是 STT-MRAM、SOT-MRAM、ReRAM、CB-RAM、FeRAM 和 PCM。 在选择存储器时,与其深究每个特定存储器的构成部分,不如了解其主要特性,使之成为神经形态计算架构的主要候选对象。

STT-MRAM / SOT-MRAM

STT-MRAM和SOT-MRAM是基于自旋电子学的MRAM类别的成员,其特征是位元单元具有两个磁性电极之间的薄隧道结(磁隧道结MTJ),其中一个具有固定磁化(固定层),另一个具有“自由”磁化。 图1显示了自2007年首次商业MRAM以来MRAM的发展进程。

神经形态计算推动了人工智能SoC新兴存储器景观的发展 -汽车开发者社区

图1:MRAM progression bit-cell from field-induced MRAM to SOT-MRAM

MRAM引入了一类与CMOS处理完全兼容的非易失性超低功耗存储器(FIMS和TAS)。 但是,与SRAM、嵌入式闪存和其他技术相比,它们传统上速度较慢,容易受到噪声诱导翻转的影响,而且不可扩展。 场诱导磁性SRAM(FIMS)是通过流动电流诱导的磁场编程的。 热辅助开关(TAS)是一种增强型MRAM,其中流动电流产生的“热量”降低了自由层翻转的阈值。 但真正的突破是在STT-MRAM中,通过流过隧道结的电流在自由磁化层中诱导“自旋轨道力”。 电流的方向决定了自由层磁化是否与固定磁化层对齐(低电阻)或自由层磁化是否进入与固定层磁化反向的状态(高电阻)。 通过在隧道磁电阻(TMJ)上感测电流流过结和访问晶体管的电流流量来测量“1”或“0”; 这是一个相对较小的电流,不足以编程位。

SOT-MRAM是STT-MRAM的一种变体,可以实现更快的读写时间。 与STT-MRAM相比,生成SOT比特位单元的过程更加复杂。 STT和SOT MRAM提供关键特性,如非易失性、低漏电、可扩展性、易于与CMOS集成、非常高的保留时间(10-16次方)和高耐久性(实际上是读取电流的功能)。

如图2所示,STT-MRAM和SOT-MRAM与CMOS完全兼容,而SOT MRAM作为现有用于AI/ML的存储器的替代品,在低电压操作方面显示出了很大的潜力(如图3)。

神经形态计算推动了人工智能SoC新兴存储器景观的发展 -汽车开发者社区

图2: MTJ阵列TEM截面图

神经形态计算推动了人工智能SoC新兴存储器景观的发展 -汽车开发者社区

图3: MTJ阵列TEM截面图

STT-MRAM可以很好地替代L2和L3缓存。 当隧道结薄至20A时,STT-MRAM可以提供快速的写入时间,低至1ns,与L2和L3缓存相当。 1ns的写入时间是以保持时间为代价的,保持时间降至几天。 但许多L2和L3缓存只需要保持几毫秒,因此几天的保持时间已经足够。 此外,隧道越薄,所需的写入电流越低,功耗也会降低。 STT-MRAM的工程可以从适用于物联网应用的慢写入、超低功耗和非常长的保持时间,到快速、保持时间更短但仍有利于使用传统的L2/L3缓存。 保持时间、写入时间和写入电流之间有很大的折衷余地。

神经形态计算推动了人工智能SoC新兴存储器景观的发展 -汽车开发者社区

图4: STT-MRAM在物联网中的应用

值得注意的是,STT-MRAM广泛用于物联网应用。 图4展示了STT-MRAM作为物联网应用通用存储器的使用情况,其功耗预算极为紧张,占空比低(典型的传感器电路)。 STT-MRAM可以作为通用嵌入式存储器,替代或消除外部Flash、嵌入式SRAM和嵌入式Flash的需求,以节省成本、降低功耗和面积。

SOT-MRAM

SOT-MRAM的基本原理和操作与STT-MRAM相同。 唯一的区别在于制造SOT-MRAM所使用的技术。 SOT-MRAM使用高自旋轨道耦合材料,例如重金属或拓扑绝缘体来生成高自旋耦合层。 SOT依赖于通过高自旋轨道耦合层的平面电荷电流来改变自由层的磁化。 SOT-MRAM具有与写路径不同的单独读取路径。 因此,SOT-MRAM避免了通过隧道屏障传递高写入电流。 对于系统设计师来说,它的功能与STT-MRAM相同,并且CMOS集成的易用性也相同。 虽然有许多SOT-MRAM的变体,但每个变体的概念和最终结果都是相同的。   相变存储器: PCM、ReRAMs、RRAMs和CB-RAMs

相变存储器是一种非易失性存储器,其特点是根据形成存储器的两个电极之间施加电流的方向,具有低电阻和高电阻两种不同的状态。

这些存储器各有共同点和差异。 将所有PCM、ReRAMs、RRAMs和CB-RAMs "归纳 "到 "相变存储器 "这一分类下的存储器 "类别 "并不完全错误,尽管相变存储器的机制变化差异很大。 此外,所有这些存储器的共同之处是希望在噪声环境中实现尽可能大的设置-重置电阻比,以便在嘈杂的环境中实现可接受的感应。

大多数视频、音频和图像数据的本质是模拟的。 将它们存储在数字存储器中需要昂贵的数字到模拟转换器。 更好的选择是将这些数据存储在表现出模拟行为(虽然不是理想的模拟行为,但足够好)的非易失性存储器阵列中。 PCMs、ReRAMs和CB-RAMs都属于这类存储器。

相变存储器(PCM、ReRAMS和CB-RAMs)在神经网络的训练阶段中用作突触权重时提供了额外的好处。 快速增量开关导致增量电导状态,随着应用更多脉冲,增强了突触的连通性(权重)。 这类存储器(PCM、ReRAMs、CB-RAMs)提供了这种能力。

值得注意的是,所有这些存储器的变体都可以很容易地与CMOS集成,也可以用于3D堆叠。

PCM

PCM是一种非易失性的低功率、高密度、简单工艺复杂的存储器的良好候选。

ReRAM

ReRAM交叉栅阵列非常适合用于存内计算。 在神经形态计算中,ReRAM可以用作突触,连接网络不同层次的神经元,提供比当前嵌入式SRAM更类似于大脑的架构。

CB-RAM

导电桥RAM(CB-RAM)是电阻式RAM系列的一员。 它是一种能源高效的非易失性存储器,适合与CMOS集成,并在实现存内计算和神经网络实现方面具有显著的实用价值。

CB-RAM技术依赖于导电链接的电化学制造和断裂。 该过程改变了CB-RAM存储元件的电阻,用于表示数据,如图5所示。 图的左侧显示了CB-RAM和CMOS兼容性的横截面。 右侧显示了1K RRAM集成到CMOS芯片的架构。

神经形态计算推动了人工智能SoC新兴存储器景观的发展 -汽车开发者社区

图5: 与CMOS集成的CBRAM的横截面图

表1总结了常被视为神经形态计算的片外解决方案的新兴存储器与传统的片上SRAM和寄存器文件之间的比较。 它反映了每种技术的“最新”最具代表性的数字,并且通常只是从众多中抽样的一个。

神经形态计算推动了人工智能SoC新兴存储器景观的发展 -汽车开发者社区

文章转载自公众号:智车Robot

分类
收藏 1
回复
举报
回复
相关推荐
这个用户很懒,还没有个人简介
贴子
已赞
声望
粉丝
关注
社区精华内容

目录