高德注册启动公司Cerebras在超级计算会议上表示


高德注册登录【主管QQ554-258】对于高性能计算中的某些问题,所有超级计算机都有一个不可避免的、致命的瓶颈:内存带宽。

这是一家初创公司在本周举行的SC20超级计算机会议上提出的观点。该会议通常在圣地亚哥举行,但本周却在网上举行。

提出这种观点的公司是Cerebras Systems,这家人工智能电脑制造商声称,其机器在解决问题方面能够达到现有系统所不能达到的速度。

“我们可以在gpu或cpu无法达到的时间内解决这个问题,”Cerebras的首席执行官安德鲁·菲尔德曼(Andrew Feldman)在Zoom的采访中告诉ZDNet。

“这意味着用于这项工作的CS-1是迄今为止建造的最快的机器,它比其他任何集群处理器的组合都快,”他补充说。

争论以一份正式的研究论文的形式出现,这份论文于周二发表,题目是“在晶圆级处理器上的快速模板码计算”。

这篇论文是由大脑科学家Kami Rocki和他的同事与国家能源技术实验室的科学家合作撰写的。国家能源技术实验室是美国能源部的多个国家实验室之一。科学研究公司Leidos的研究人员也参与了这项工作。该论文上个月被发布在arXiv预印服务器上。

大数据束

64.5小时的Hadoop, MapReduce, Spark &更多,让你为今天发展最快的IT职业之一做好准备

由TechRepublic学院提供培训

所要解决的这类问题集中于偏微分方程组。PDE工作负载突然出现在物理学和其他科学学科的许多基本挑战中。它们包括建模基本物理过程的问题,例如计算流体动力学,以及在宇宙的天文模型中模拟多个相互作用的物体。

流体动力学方面的高性能研究对大脑来说是一个有趣的转变,因为到目前为止,大脑一直专注于机器学习问题。Feldman说,这篇论文是在九个月的时间里完成的,是NETL的一位研究人员和负责产品开发的Cerebras主管之间的一次偶然相遇的结果。

Feldman指出,PDE工作负载表现出所谓的弱伸缩性,即集群或多处理器系统中增加处理器的数量所带来的收益递减。

相反,在研究论文中,Rocki和他的合作者认为,高德平台招商这个问题需要更大的芯片内存,并减少大脑计算机所提供的处理元素之间的通信延迟。

一年前推出的大脑计算机是一台冰箱大小的机器,里面装有有史以来最大的计算机芯片,被称为“晶片级引擎”,简称WSE。该芯片是将单个硅片等效为84个虚拟芯片,每个虚拟芯片有4539个独立计算核心,总共有381276个计算核心可以并行进行数学运算。

每个核心都有48千字节的快速SRAM,总共是18千兆字节。每个核心都有一个路由器,将其与大脑称为“蜂群”的通信结构连接起来,这种通信结构以每秒100拍的速度将所有核心连接在一起。

在Rocki和同事处理的PDE程序中,一系列形式为Ax = b的线性方程被计算为稀疏矩阵密集向量乘法运算,简称为SpMV。处理这些操作的算法被称为BiCGStab,这是一种梯度的非线性计算方法,由H. A. van der Vorst在1992年首次提出。这些矩阵和向量元素被映射到大脑芯片的各个核心上。

每个核心都能够整合所有必须针对每个向量进行的乘法-加法操作,减少了在内存寄存器之间或在多个处理器之间进行的大量来回通信。

作者将他们在大脑机器上的性能基准测试到一台多处理器超级计算机上,即位于NETL的Joule系统。作者写道,Joule由英特尔至强芯片组成,每个芯片有20个核,总共有16000个核,运行求解器操作需要6毫秒。

相比之下,大脑机器只需要28微秒,而且在这段时间内实际能够执行比Xeon机器更大的问题。

换句话说,英特尔机器解决这个问题的时间是它的214倍。

“试图理解为什么会出现这种显著差异是很有趣的,”作者写道。其中一个原因是,xeon核心的峰值运行率只有大脑核心峰值速率的40%左右。另一个原因是,虽然Xeon的每个核都比人脑核拥有更多的内存,“但Xeon的缓存似乎在从可用的SRAM获得性能时效率较低。”

他们认为,关键在于大脑机器的核心不会争夺共享的RAM内存,而是有效地管理每个核心中的48千字节。

更重要的是,由于大脑机器通过一组预定的路由选择在硬件上移动数据,大脑机器消除了通常在集群计算系统中发生的开销,这些系统在每次计算或存储操作时都必须经过操作系统层。

综上所述,两位作者认为,现存的任何系统都无法与他们的机器的结果相媲美。

“达到的性能每瓦(20kw)和机器的尺寸(1/3机架),高德平台注册”他们写道,“超过了传统机器报告的可比问题。”

费尔德曼向ZDNet重申了这一主张。

费尔德曼说:“试图通过把许多小事情联系在一起来解决这个问题的过程无法打败我们,现存的任何东西都无法打败我们。”

Feldman指出,集群系统受到从芯片到主板的金属钉输出的限制,因此缩放多处理器总是带来通信瓶颈。

费尔德曼说:“这与我们在生活中的许多事情上的经验相吻合——一个项目的最佳工程师数量,一篇论文的最佳合著者数量,等等。”

在这篇论文中,Rocki和他的同事通过一个图表表达了集群系统的收益递减,该图表显示了现代系统中浮点运算的数量是如何激增的,因为芯片必须等待内存访问。他们把这称为“每个字的字失败的不断增长的鸿沟”,指的是计算机中的一个记忆字。

未来解决这一瓶颈的方法可能是类似于光互连的东西。但就目前而言,大脑有吹嘘的权利。

费尔德曼说:“我们并不是说,有些更快的东西将来就不能发明了。”“我们的主张是,没有任何现有产品的组合可以在这项工作上实现这种性能。”

Feldman说,Cerebras打算将同样的工作扩展到类似的增大体积的问题上。“我们需要把它应用到计算流体动力学之外的问题上,”他说。

关于大脑硬件的未来工作,有一些有趣的线索。今年早些时候,Cerebras已经披露,它正在开发具有85万个独立计算核心的第二代WSE芯片。在Rocki和他的同事们的文章中,Cerebras打算在未来的工作中看看集群的大脑系统是否会导致更大的工作量。这表明,在一个数据中心构建多个相互连接的系统的豆荚,对大脑来说是一个未来的业务。

而且内存数量似乎将大幅增加。在论文的结论部分,作者写道,从目前的16纳米的大脑芯片制造技术到7纳米技术将允许芯片上的SRAM上升到40g。向5纳米工艺技术的转移将进一步扩大到50g。


上一篇
高德注册Epic Games将苹果合法的stoush带到澳大利亚
上一篇
高德注册勒索软件攻击迫使主机提供商Managed.co
  • 版权声明:内容来自互联网不代表本站观点,2020-11-18发表于 高德平台栏目。
  • 转载请注明: 高德注册启动公司Cerebras在超级计算会议上表示| 高德平台 +复制链接