[本文来自:www.11jj.com]
传统角力架构上钩算与存储在不合电路单元中完成,造成大量数据搬运功耗增加和额外延迟,被认为是冯·诺依曼角力架构的核心瓶颈。 [原创文章:www.11jj.com]
人类的大脑却并非如斯,而是直接在记忆体里角力。被认为具有「存算一体」潜力的忆阻器,因而成为类脑角力领域的热点器件,被寄予提高算力,打破手艺瓶颈的厚望。
2 月 27 日机械之心获悉,据清华大学新闻网新闻,该校微电子所、未来芯片手艺高精尖立异中心钱鹤、吴华强教授团队与合作者成功研发出一款基于多阵列忆阻器存算一系一切,在处理卷积神经收集(CNN)时能效比前沿的图形处理器芯片(GPU)高两个数量级。该项研究于 1 月 29 日在顶尖学术期刊《自然》杂志(Nature)在线揭橥,题为《Fully hardware-implemented memristor convolutional neural network(完全由硬件实现的忆阻器卷积神经收集)》,胪陈了基于忆阻器阵列芯片实现卷积收集的完整硬件过程。经由这项工作中斥地的阵列芯片集成了 8 个包含 2048 个忆阻器的列阵,并构建了一个五层的卷积神经收集进行图像识别,精度高达 96% 以上。基于多个忆阻器阵列实现的存算一体化斥地板该阵列芯片以忆阻器替代经典角力机底层的晶体管,以更小的功耗和更低的硬件成本大幅提升角力设备的算力,在必然水平上打破了传统角力框架「冯诺依曼瓶颈」的限制:大幅提升算力的同时,实现了更小的功耗和更低的硬件成本。清华 LEMON 团队成员:员高滨、姚鹏、吴华强、张清天、唐建石(从左到右)图片起原:清华新闻网今朝,何谦教授和吴华强教授领导了清华大学的LEMON实验室(The Laboratory of Emerging Memory and Novel Computing,新兴存储与新型角力实验室),在以前的几年中一贯致力于基于忆阻器的神经形态角力。该小组在材料和设备工程,工艺斥地,电路和芯片设计以及算法和系统演示方面取得了显著成就。所谓忆阻器,全称记忆电阻器(Memristor),是继电阻、电容、电感之后的第四种电路根本元件,浮现磁通与电荷之间的关系,最早由加州大学伯克利分校教授蔡少棠在 1971 年预言存在,惠普公司在 2008 年研造成功。简言之,这种组件的的电阻会跟着经由的电流质而扭转,而且就算电流进行了,它的电阻依然会停留在之前的值,直到承遭到反向的电流它才会被推回去,就是说能「记住」之前的电流质。受人脑启发,忆阻器设备被组织成交叉点阵列,以实现大规模并行的内存角力并提高电源效率。这种巧妙的机制和我们大脑中的生物突触和神经元有相仿之处,同时忆阻器还具有尺寸小、把握功耗低、可大规模集成(三维集成)等优点,可以制成高密度交叉点阵列,以经由物理定律实现内存内部大规模并行乘积角力(CIM)。
在该项研究中,清华团队提出用高能效比、高机能的平均忆阻器交叉阵列处理神经卷积收集(CNN),收集共集成了 8 个 基于忆阻器的处理单元,每个 PE 单元中包含 2048 个单元的忆阻器阵列,以提升并行角力效率。采用基于 ARM 核的动态随机存取存储器。右图展示了该阵列极具可频频性的多级电导率状况,成功证实了存算一体架构全硬件实现的可行性。每个忆阻器与晶体管采用漏级端相连,即 1T1R 组织。核心 PCB 子系统皮遏止八块忆阻器阵列芯片,每个忆阻器阵列具备 128 × 16 个 1T1R 单元。在水平倾向上共有 128 条并行字线和 128 条源线,在垂直倾向上共有 16 条位线。此外,研究者还提出了一种高效的同化演习体式,以适应设备缺陷,改善整个系统的机能。研究者构建了基于忆阻器的五层 mCNN 来执行 MNIST 图像识别义务,识别准确率跨越 96%。系统针对 ResNET-56 等大型收集的可扩展性除了使用不合卷积核对共享输入执行并行卷积外,忆阻器阵列还复制了多个沟通卷积核,以并行处理不合的输入。相较于当前最优的图形处理器(GPU),基于忆阻器的 CNN 神经形态系统的能效要赶过两个数量级以上,并且该系统可扩展至大型收集,如残差神经收集(ResNet)。该事实或可促进针对深度神经收集和边缘角力供给基于忆阻器的非冯诺伊曼(non-von Neumann)硬件解决方案,大幅提升角力设备的算力,成功实现以更小的功耗和更低的硬件成本完成复杂的角力。据清华大学新闻网介绍,当前国际上的忆阻器研究还停留在简练收集组织的验证,或许基于少量器件数据进行的仿真。基于忆阻器阵列的完整硬件实现仍然有多少挑战。比如,器件方面,需要制备高一致、靠得住的阵列;系统方面,忆阻器因工作事理而存在固出缺陷(如器件间波动,器件电导卡滞,电导状况漂移等),会导致角力准确率降低;架构方面,忆阻器阵列实现卷积功能需要以串行滑动的体式连续采样、角力多个输入块,无法成家全连结组织的角力效率。据《北京日报》报道,攻关时代,材料和工艺集成是最大挑战,「做这种新的芯片需要视察大量统计规律,但当时没有大型代工场撑持,我们只能在实验室试探,有段时间有点溃逃,每次做完实验,事实都很涣散。」吴华强在接管采访时说,后来,他们与中科院微电子所、北京大学等单元单子合营合作,终于解决了难题。「我们改变材料上笼盖层的组分,经由调试热导率和电导率,调整材料内部导电系数的强弱,来实现优化。」吴华强接管《北京日报》的采访时说。今朝团队已经与一家商业硅代工场合作,斥地了一种同化集成途径,以制造具有优化材料客栈的大型阵列忆阻器,作为无邪的硬件测试..。另一方面,为解决器件固出缺陷造成的系统识别准确率下降问题,团队提出了一种新型的同化演习算法,仅需用较少的图像样本演习神经收集,并微调了最后一层收集的部门权重。据论文介绍,团队成功实现了一个完整的五层 mCNN,用于执行 MNIST 手写数字图像识别义务。优化后的材料客栈(material stack)能够在 2048 个单晶体管单忆阻器(one-transistor–one-memristor,1T1R)阵列中实现靠得住且平均的模拟开关行为。使用该研究提出的同化演习机制后,实验在整个测试集上的识别准确率达到了 96.19%。此外,将卷积内核复制到三个并行的忆阻器卷积器可将 mCNN 延迟大约降低了 1/3。高度集成的神经形态系统经由缩小基于忆阻器之间的卷积角力和全连结 VMM 之间的吞吐量差距,为大幅度提高 CNN 效率供给了一个可行的解决方案。本月,在集成电路领域最首要的会议 ISSCC 上,研究小组针对研究功能进行了申报,芯片实现了多层感知器神经收集,用于对 MNIST 数据集中的手写数字图片进行分类。用于分类 MNIST 手写数字图片的芯片和演示系统该芯片在芯片上集成了将近 16 万个忆阻器以及所有外围电路,并实现了每瓦每秒 78.4 兆兆位(78.4TOPS/W)运算的超高能效。运行功率低至 40 毫瓦,对 MNIST 图像进行分类的识别精度约 95%。今朝,团队正在致力于斥地更复杂的存算一体化芯片,并扩大忆阻器阵列的尺寸,以进一步行使忆阻器提高系统机能。吴华强在接管《北京日报》采访时透露,「我们还规划构建包括忆阻器、存算一体芯片到存算一体编译器等在内的全新角力机系统。」瞻望未来,用忆阻器构建「大脑」角力机还有很长的路要走,因为在硬件和软件方面仍然存在好多挑战。而有了体积小、功耗低、算力强的存算一体芯片,手机等移动终端就能运行人工智能应用,让人工智能更懂人类不再遥远。钱鹤、吴华强团队认为,这种跨学科的研究与协作对于打破传统脑子脑壳并竖立与现有系统完全不合的角力系统至关首要,这将有望经由这种强大的忆阻器彻底改变 AI 硬件。参考链接:
1.https://news.tsinghua.edu.cn/publish/thunewsen/9671/2020/20200225110757772216750/20200225110757772216750_.html
2.http://bj.people.com.cn/BIG5/n2/2020/0227/c349239-33831801.html
3.https://scihub.bban.top/10.1038/s41586-020-1942-4
大疆为6亿平米地皮筑起「防护墙」2020-02-12CT+AI双拳出击攻破假阴性困境2020-02-10受疫情影响,企业发卖和处事模式转到线上,若何挖挖掘服和发卖对话数据,提升发卖转化率?智能战疫「AI+..自动化」在线分享第二期,机械之心邀请到了轮回智能(Recurrent AI) 连系创始人、COO 诘扬,带来《挖掘海量「对话数据」价钱,AI 助力打造生意增进新引擎》主题分享。 2月29日(周六)20:00,识别..添加机械之心小助手,马上参预直播群。