91吃瓜网

适合新一代 SSD 设计的高性能解决方案

Synopsys 产物营销经理 Michael Thompson

我们即将进入第五次数字创新浪潮,这一浪潮兴起于 40 年前。这场浪潮始于 20 世纪 80 年代个人计算机的问世,随后在 90 年代出现了互联网。在 21 世纪头 10 年,随着移动计算设备的兴起,我们进入了第三次浪潮,紧随其后的是 2011 年云计算的成长。

现在,随着人工智能 (AI) 的兴起,我们进入了第五次浪潮。这些浪潮的每一次都是建立在前一次浪潮的基础之"上,并且所有浪潮的根基都在于数字存储的基础架构。没有数字存储,就不可能产生任何浪潮,并且每一次浪潮的产生都有赖于存储的进步。数字存储被视为理所当然,近乎淡出人们的视线。但数字存储的进步一直令人震惊。如今,我们口袋里的设备存储容量比 30 年前的大型计算机拥有的容量还大。  

存储市场

第五次浪潮也被称为数据时代,这个时代的消费者产生的数据量非常惊人。的确如此,因为 AI 在第五次浪潮中产生和消耗的数据,在未来几年进入主流后,将远远超过我们目前产生的数据量。虽然很多这种数据都处于运动状态,但也有很多被存储起来。数据的增长受到社交网络、电子商务、搜索、内容交付、分析和大数据的推动。每天的每一分钟都会有时长 60 小时的视频上传到 YouTube。所以每分钟必须存储 180GB 的数据,而这只是一个应用程序的存储量。

在数据中心和 PC 中,硬盘驱动器 (HDD) 一直是主流存储介质,但随着基于 NAND 闪存的固态硬盘 (SSD) 成本的下降,局面就会发生改变。SSD 的每 GB 成本仍然比硬盘高出三到四倍,但访问更快和功耗更低的优势足以抵消成本差异。此外,SSD 的存储密度比旋转介质增长得更快,从而能够实现更高的驱动器容量。这导致(业界应用)从 HDD 转向 SSD,预计到 2025 年,旋转介质将仅占整个磁盘存储市场的 5%,如图 1 所示。未来几年,对于准备利用这种向闪存存储转变和存储需求增长趋势的公司而言,这是一次巨大的机遇。

图 1:公司存储从 HDD 向 SSD 转变

 

存储控制器的趋势

随着驱动器尺寸的增加,过去十年来,存储控制器的设计在发生了显著变化。十年前,大多数控制器都只有一个 CPU,主要的设计问题是数据流、闪存文件系统、损耗均衡、垃圾收集、纠错和通信。随着驱动器尺寸的增加,情况改变了。这些功能仍然必须实现,但随着新任务的增加,越来越难实现这些功能了。 

例如,为了增加闪存设备的容量,每个闪存单元的设计都改用了更高的位数,但这样会导致可靠性下降和编程/擦除 (PE) 次数减少。 这是个问题,因为公司对驱动器可靠性和耐久性的期望没有改变。与此同时,过去几年对闪存驱动器的吞吐量和 IOPS 的要求显著提高,这给管理数据流的存储控制器带来了压力。存储控制器开发人员采用多核处理器设计作为应对之"策,这些设计支持非常高的性能,并且可以通过额外添加芯核和集群来扩展到更高的级别。

在存储控制器设计中应该考虑 SSD 的几种新趋势。移动大数据面临的挑战以及端侧运行的设备带来的不可接受的延迟,使得存储解决方案对于计算的运用越来越多。还有一种方法是在驱动器中使用 AI 来执行对象检测和分类等专门任务,同时也提高了驱动器的耐用性和可靠性。  

存储器内计算

计算正在朝着存储领域发展,以处理数据存储和处理位置之"间出现的长时间延迟,以及必须转移的大量数据。传统数据已从驱动器转移到计算引擎。这需要跨越背板、接口,通常需要跨协议移动数据。这不仅需要时间和增加延迟,而且还会消耗功率。此外,它通常会导致数据被复制并出现在多个位置。

图 2:传统计算对比存储器内计算

将计算功能转移到驱动器中,可以更大限度减少驱动器外部的数据移动(图 2)。这就减少了延迟(通常是数量级的)和功耗。它还提高了安全性,因为数据不需要移动到驱动器之"外。另一项优势在于可以针对工作负载优化处理作业。与通用主机不同,存储计算处理器可以专门配置为支持所需的特定功能,从而提高处理效率。  

人工智能

在存储器中使用 AI 可以显著提高耐用性和可靠性,同时还支持对象检测、跟踪、分类等等。机器学习在闪存驱动器中的使用尚处于早期阶段,但将在未来三到五年内在许多应用中得到开发和实现。使用机器学习的潜在优势蔚为可观,但也带来了一系列挑战。 

使用机器学习并不简单(图 3)。机器学习框架的实现需要做大量准备工作。例如,为了提高驱动器耐用性,需要确定 NAND 闪存中影响耐久性的各方面因素。然后,需要通过强力测试(通常需要数月),创建一个可用于驱动目标算法的图形。目标算法必须在具有必要固件框架的硬件中实现,以便可以将创建的图形编程到其中并运行。 

图 3:机器学习框架的开发和实现

AI 正在通过许多新算法迅速发展并带来巨大潜力,而它在存储领域的优势才刚刚开始实现。

存储用 ARC 处理器

ARC 处理器在闪存控制器中获得广泛应用。它们具有卓越的处理器性能和功能,带来理想性能效率。它们支持通过 APEX 自定义指令轻松定制和添加专有硬件。ARC 处理器可减少系统延迟和功耗,并具有非常出色的代码密度,而这在许多存储控制器设计中都非常重要。 

ARC HS 系列是性能卓越的 ARC 处理器,可在 16nm 工艺中为每个芯核提供高达 7500 DMIPS 的计算能力。HS 系列提供具有 L1 缓存一致性和 L2 缓存的单核、双核和四核配置、40 位物理地址空间,并且支持 Linux 和 SMP Linux。HS 系列的设计经过与我们存储客户的大量协商,并且具有每时钟周期 64 位负载和能够加速数据移动的存储等功能。 

ARC EM 系列具有与 HS 芯核相同的编程模型和指令集,让设计人员可以更轻松地在设计中使用这两个芯核,并且方便固件团队区分不同处理器的代码。该系列产物专为低功耗和小尺寸设备而设计,功能多样,功耗低至  2 ?W/MHz ,在硅片上占用的面积不足 0.01 平方毫米。即便如此,ARC EM 芯核仍可提供出色的性能,可高达 1.8 DMIPS/MHz。 

所有 ARC HS 和 EM 芯核均支持 APEX 自定义指令扩展,让用户能够将自己的专有硬件添加到处理器,以提高性能、降低功耗或增加功能。Synopsys 为 EM 芯核提供加密选项,包括常见的加密算法。这些功能都优化了面积,并为需要加密的存储应用程序提供高性能。

ARC EV 处理器为 AI 提供了可充分编程和扩展的解决方案。它们是采用高性能标量芯核和 512 位宽矢量 DSP 实现的。EV 系列处理器可以编程和支持各种机器学习算法和软件模型。它们提供单核、双核和四核实现,支持水平极高的机器学习性能。如果在驱动器中需要实现对象检测和分类,则可采用可选的卷积神经网络 (CNN) 引擎支持 HD 视频流。

Synopsys 为 ARC 处理器提供完整的开发环境。这包括 MetaWare 开发工具包,其中包含专为 ARC 处理器优化的编译器、调试器和仿真器。还有其他几种仿真器支持快速仿真和周期精确仿真。提供许多可用的开发电路板并提供对 Linux 和 MQX 操作系统的支持。

总结

闪存市场将在未来 5 到 10 年快速增长,为那些顺应这一趋势的公司提供了巨大机遇。在闪存产物的设计中,务必要为存储控制器使用卓越的处理器。ARC 处理器提供了出色的闪存解决方案,广泛用于存储应用。ARC 处理器提供业界理想的性能效率和功能,可加快数据移动,从而减少延迟并提高 IOPS 和吞吐量。DesignWare ARC 处理器让工程师能够创建非常先进的 SSD 设计,这些设计具有适应性、可扩展性和可定制性,可应对各种闪存存储应用要求提供理想性能。 

 

如需更多信息: