础滨驱动的设计应用
每隔一段时间,科技界就会发生一次令人敬畏的技术革新,足以让人们恍然惊坐而起。
比方说,这块最近宣布的颁别谤别产谤补蝉芯片。
颁别谤别产谤补蝉团队所克服的挑战已然令人难以置信,但它所承诺的人工智能运算能力则更震撼。
大约相当于iPad的大小!但尺寸绝不是全部。 以下是其他一些震惊世人的指标:
该芯片采用晶圆级集成,由台积电16nm工艺制造。台积电和Cerebras共同合作了好多年才成就了这块芯片。此外它还配有Nvidia先进的、功能强大的datacenter GPU。
晶圆级集成技术并非新技术。非常偶然地,我惊讶地发现它其实几乎和人工智能一样古老——大约已经有60岁高龄了。晶圆缩放的理念旨在在单个硅晶圆上制造整个芯片。早前不同的研发人员曾多次尝试,但并未取得实质成功。
颁别谤别产谤补蝉团队所面临的挑战,我找不到合适的形容词来描述其激动人心,但绝对是一部基于半导体真实事件的好莱坞惊险大片。
首先,他们必须弄清楚如何在划片槽之"间进行通信,管理良率,发明用于热封装的新材料,设计制造这种独特芯片所需的整套设备,最后为15千瓦功率的芯片设计所需的冷却系统。
在最近的2019 HotChips会议上Cerebras成功宣布了这枚传说中的芯片。
Cerebras的 WSE(晶圆级引擎)提供了前所未有的AI计算功能。
首先, 40万个内核经过了优化,以用于神经网络的线性代数计算(对于稀疏线性代数内核,俗称为SLAC)。对于一个硅片面积是目前行业最大GPU的56.7倍,可实现顶尖的行业利用率。结合其SLAC,根据工作负载,它提供的性能是当前速度的数百到数千倍。
其次,Cerebras发明了一种称为“稀疏收获技术”的技术。深度学习是计算密集型的,其计算是在稀疏的工作负载上进行的–意味着很多零。如今,行业标准的深度学习架构(例如GPU)对此类工作负载的处理方式没有任何区别;即使遇到零,GPU也会执行乘法运算。众所周知,乘以零,会浪费芯片和功率。具有稀疏收集技术的WSE SLAC设计为永远不会乘以零,从而确保所有计算都是有用的。
第三,计算和内存之"间的紧密趋近,是降低延迟、功耗并提供更快速度的重要因素。 WSE内核在每个时钟周期都可以访问18GB的片上内存,从而实现9 PB /秒的内存带宽。从数量上看,WSE具有3000倍的内存量,并提供10,000倍领先GPU的内存带宽。
第四,处理器间通信结构(称为“swarm” – Cerebras的另一项发明)提供了其所有40万个内核之"间的优化通信,而功耗却是传统通信结构的一小部分。消息路由,传递和同步似乎在WSE中只需要很少的软件消耗。 WSE上可配置的低延迟,高带宽2D网状结构每秒可提供总计100 petabits的带宽——这意味着更快的学习速度。
业界正积极等待2020年中期奥厂贰产物的发布。
我很好奇将来会看到多少奥厂贰芯片。