启盈配资
  • 首页
  • 牛金所
  • 期货配资公司
  • 正规平台
  • 让建站和SEO变得简单

    让不懂建站的用户快速建站,让会建站的提高建站效率!

    期货配资公司你的位置:启盈配资 > 期货配资公司 > 全球最大芯片,进击推理:1800 token/秒,全球最快
    全球最大芯片,进击推理:1800 token/秒,全球最快
    发布日期:2024-08-29 11:30    点击次数:186

    (原标题:全球最大芯片,进击推理:1800 token/秒,全球最快)

    淌若您但愿不错通常碰头,接待标星储藏哦~

    自推出了使用一通盘晶圆制造的芯片以来,Cerebras在以前几年里的宣传,都是以攻进英伟达所把捏的AI芯片商场为筹谋。

    在本年纪首,Cerebras Systems推出了专为考试 AI 生态系统最大的 AI 模子而设想的 WSE-3 AI 芯片。据先容,这颗基于 5nm、4 万亿晶体管的 WSE-3 为 Cerebras CS-3 AI 超等计较机提供能源,通过 900,000 个 AI 优化计较中枢提供 125 千万亿次峰值 AI 性能。值得安谧的是,这是半导体代工相助伙伴台积电面前不错坐褥的最大尺寸。

    从该公司CEO Andrew Feldman以前多年的采访不错看到,这位Cerebras Systems掌舵东谈主对英伟达充满着“敌意”(或者说酸?)。探求到英伟达以前几年的进展,这不错王人集的。为此,在以前一直在强攻考试商场之后,Cerebras Systems往推理商场,发起新一轮的冲击。

    颠覆传统,推出“全球最快” AI 推理劳动

    熟习行业的读者应该知谈,在许多当代生成式 AI 责任负载中,推感性能通俗取决于内存带宽,而不是计较。将比特传入和传出高带宽内存 (HBM) 的速率越快,模子生成反映的速率就越快。

    Cerebra Systems 的首款推理居品基于其之前发布的WSE-3 加快器,冲破了这一争论。这是因为与 HBM 不同,餐盘大小的硅片相等大,甚而于这家初创公司暗示,它依然得胜封装了 44GB 的 SRAM,带宽为 21 PBps。从这个角度来看,单个 Nvidia H200 的 HBM3e 仅领有 4.8TBps 的带宽。

    据首席实践官 Andrew Feldman (安德鲁·费尔德曼)先容,通过使用 SRAM,该部件在以 16 位精度运行 Llama 3.1 8B 时每秒大约生成 1,800 个以上的token,而性能最高的 H100 实例每秒最多可生成 242 个token。

    当运行分散在其四个 CS-3 加快器上的 700 亿参数版块的 Llama 3.1 时,Cerebras 宣称每秒可处理 450 个token。比拟之下,Cerebras 暗示 H100 所能处理的最好速率是每秒 128 个token。

    费尔德曼合计,这种性能水平就像宽带的兴起相通,将为东谈主工智能的经受开辟新的契机。“今天,我合计咱们正处于东谈主工智能的拨号时间,”他说,并指出身成式东谈主工智能的早期应用,其中领导的反映会彰着蔓延。

    他合计,淌若你能富足快地处理肯求,那么基于多个模子构建代理当用方法就不错幸免蔓延问题。Feldman 合计这种性能的另一个公正是允许 LLM 通过多个设施迭代他们的谜底,而不是凯旋给出他们的第一个反映。淌若你能富足快地处理记号,那么你就不错笼罩这是在幕后发生的事实。

    然而,尽管每秒 1,800 个token可能看起来很快,事实也如实如斯,但经过肤浅的计较咱们发现,淌若不是因为系统计较才略受限的话,Cerebra 的 WSE-3 应该大约以更快的速率吐出token。如上所说,该居品代表了 Cerebras 的极少抨击,迄今为止,该公司主要专注于 AI 考试。关联词,硬件自身并莫得实在改革。Feldman暗示r,它使用调换的 WSE-3 芯片和 CS-3 系统进行推理和考试。况兼,这些并不是莫得达到考试条件的吊销部件——咱们问谈。

    “咱们所作念的是膨胀了编译器的功能,使其大约同期在芯片上甩掉多层,”费尔德曼说。

    有分析东谈主士直言,Cerebras 的 AI 推理劳动不仅加快了 AI 模子的实践速率,还不错改革企业对在本质应用中部署和与 AI 交互的主见。

    分析东谈主士暗示,在典型的 AI 推理责任历程中,大型话语模子(举例 Meta 的 LLaMA 或 OpenAI 的 GPT-4o)都存放在数据中心,应用方法编程接口 (API) 会调用它们来反映用户查询。这些模子相等雄壮,需要无数计较资源才调高效运行。GPU 是现时 AI 推理的主力,承担着吃力的任务,但它们在这些模子的重压下苦苦抵拒,尤其是在模子内存和计较中枢之间迁移数据时。

    但借助 Cerebras 的新推理劳动,模子的总共层(面前是 80 亿参数版块和 700 亿参数版块的 LLaMA 3.1)都凯旋存储在芯片上。当向模子发送领导时,数据险些不错立即得到处理,因为它无谓在硬件内长距离传输。

    值得一提的是,这种性能水平已由提供孤独 AI 模子分析的 Artificial Analysis Inc.考证,是前所未有的,为 AI 推理缔造了新方法。Artificial Analysis Inc. 合资独创东谈主兼首席实践官 Micah Hill-Smith 暗示:“Cerebras Inference 的速率突破了性能规模,况兼价钱极具竞争力,因此关于具有及时或大容量需求的 AI 应用开发者来说尤其具有诱骗力。”

    Hill-Smith 进一步指出:“关于 Meta 的 Llama 3.1 8B 和 70B AI 模子,Cerebras 的速率比基于 GPU 的科罚决策快一个数目级。”“咱们在 Llama 3.1 8B 上测量到每秒输出token卓越 1,800 个,在 Llama 3.1 70B 上测量到每秒输出token卓越 446 个——这些基准测试中创下了新记载。”

    它的价钱也很有竞争力,Cerebras 暗示,该劳动的起价仅为每百万个token 10 好意思分 - 十分于 AI 推理责任负载的性价比高 100 倍。他们补充说,Cerebras Inference 劳动荒芜适应“agentic AI”责任负载,即不错代表用户实践任务的 AI 代理,因为此类应用方法需要大欺压缚领导其底层模子。

    SRAM,突破极限的刀兵

    据干系报谈所说,Cerebras之是以能达成这个成就,与他们独到的设想相关。

    大家皆知,现在推理速率受限于勾通 GPU 和内存及存储的网罗瓶颈。勾通内存和中枢的电路每单元本事只可传输有限量的数据。天然电子在导体中迁移赶紧,但本色数据传输速率受到信号可靠发送和收受频率的法例,并受到信号衰减、电磁骚动、材料特质以及数据传输所必须经过的默契长度的影响。

    而在传统的 GPU 设立中,模子权重存储在与处理单元分开的内存中。这种区别意味着在推理过程中,需要通过细线在内存和计较中枢之间束缚传输无数数据。Nvidia 和其他公司尝试了各式配置来最大法例地镌汰这些数据需要传输的距离——举例,在 GPU 封装中将内存垂直堆叠在计较中枢之上。

    Cerebras 的新方法从根柢上改革了这一格式。Cerebras 不是将晶体管中枢蚀刻到硅晶片上并将其切成芯片,而是在单个晶片上蚀刻多达 900,000 个中枢,从而无需在各个芯片之间进行外部布线。WSE 上的每个中枢都结合了计较(处理逻辑)和内存(静态就地存取存储器或 SRAM),形成一个孤独的单元,不错孤独运行或与其他中枢协同运行。

    模子权重分散在这些中枢上,每个中枢存储通盘模子的一部分。这意味着莫得一个中枢不错容纳通盘模子;相背,模子被拆分并分散在通盘晶圆上。

    “咱们本色上将模子权重加载到晶圆上,是以它就在中枢傍边,”Cerebras 居品和政策高等副总裁 Andy Hock 解释谈。这种配置允许更快的数据拜访和处理,因为系统不需要通过相对较慢的接口束缚地走动传送数据。

    Cerebras 暗示,其架构在 LLaMA 3.1 等模子的推感性能方面不错达到“商场上其他居品 10 倍”,尽管这还有待进一步考证。伏击的是,Hock 宣称,由于 GPU 架构的内存带宽法例,“本色上莫得些许 GPU 不错像咱们相通快速完成这些推理任务”。

    通过优化大型模子的推理,启盈配资Cerebras 正在定位我方以鼎沸快速增长的商场对快速、高效的 AI 推理才略的需求。

    换而言之,这种设想从某种进度上是让SRAM去取替更不菲的HBM。天然 SRAM 在性能方面彰着优于 HBM,但它的不及之处在于容量。关于大型话语模子 (LLM) 来说,44GB 根柢不够,因为您还必须探求到键值缓存在 Cerebras 所针对的高batch sizes下占用了十分大的空间。Meta 的 Llama 3 8B 模子是 WSE-3 的理思化场景,因为大小为 16GB(FP16),通盘模子不错装入芯片的 SRAM 中,为键值缓存留住爽朗 28GB 的空间。

    Feldman 宣称,除了极高的详尽量除外,WSE-3 还不错膨胀到更大的batch sizes,但关于它究竟能膨胀到多猛进度并守护每个用户的token生成率,这家初创公司不肯泄漏。

    “咱们面前的batch sizes通俗变化。咱们预测第四季度的batch sizes将达到两位数,”Cerebras 告诉咱们。

    当被问及更多细节时,该公司补充谈:“咱们面前的batch sizes还不锻练,是以咱们不思提供它。该系统架构设想用于高batch sizes,咱们预测在将来几周内已毕这一筹谋。”

    与当代 GPU 相等相似,Cerebras 通过在多个 CS-3 系统上并行化模子来科罚这一挑战。具体来说,Cerebras 使用管谈并行性将模子的层分散在多个系统上。举例关于需要 140GB 内存的 Llama 3 70B,该模子的 80 个层分散在通过以太网互连的四个 CS-3 系统上。正如您所料思的,这如实会诽谤性能,因为数据必须越过这些链路。

    在高带宽内存和计较中枢之间每秒也只可传输爽朗 3 TB 的数据。这远远低于高效运行大型话语模子所需的每秒 140 TB 的速率,而这种速率是高详尽量的,不会遭受要紧瓶颈。Cerebras宣称:“咱们内存和计较之间的有用带宽不单是是 140 TB,而是每秒 21 PB。”

    从这些先容不错看到,Cerebras能否撬动英伟达不知谈,但第一个受害者,依然历历如绘,那即是早阵子引起鄙俚询查的Groq。

    Groq,首当其冲

    从设想上看,Groq 的话语处理单元 (LPU) 本色上经受了与 Cerebras 雷同的方法,即依赖 SRAM。

    Groq 并不是 AI 芯片领域的外行,它由谷歌 TPU 的当先创造者 Jonathan Ross 在 2016 年创立。但 Groq 不单是是更好的 TPU。Ross 和他的团队开发了一种新的架构,当先称为张量流处理器 (TSP),但现在改名为话语处理单元(LPU),再次得到细密的营销恶果!TSP/LPU 是一个巨大的芯片大小的内核,使用一种新颖的策略:笃定性计较,不错相等高效地提供无数的 FLOPS。

    Groq 的主要架构上风在于他们开发了一种王人备笃定性的架构,王人备由软件法例。这本色上意味着什么?为什么它更有用率?因为大多数应用方法都瑕瑜笃定性的。举例,思思翰墨处理器。翰墨处理器不知谈您要输入的下一个字母,因此它必须准备好反映它收到的任何输入。事实解说,当代芯片的好多复杂性都来自于大约处理非笃定性计较。

    Groq 卡本色上莫得片外内存。每个芯片上有 220 MB 的 SRAM,仅此辛勤。这意味着,淌若您思运行大型模子,您需要好多芯片。要运行 LLaMA-70B,Groq 使用了 576 个芯片。关于 70B 参数模子来说,这十分于 8 个机架。关于雷同GPT-4 等领有 1.76 万亿个参数的模子,要在 Groq 系统上运行它,你需要卓越 10,000 个芯片。每个机架包含 72 个芯片,因此每个 GPT-4 类系统实例需要 100 多个机架。此外,在这种鸿沟下,将总共这些芯片联网启动加多瓶颈——面前,Groq 的光学互连只可膨胀到 264 个芯片,而不是 10,000 个。这恰是Groq与Cerebras的不同之处——Groq 的架构 SRAM 密度较低,因此需要通过光纤勾通更多加快器来因循任何给定的模子。

    Cerebras 需要四个 CS-3 系统才调以每秒 450 个token的速率运行 Llama 3 70B,而 Groq此前曾暗示,它需要 576 个 LPU 才调突破每秒 300 个tokern的速率。Cerebras 援用的东谈主工分析 Groq 基准略低,为每秒 250 个token。

    Feldman 还指出,Cerebras 无需借助量化就能作念到这极少。Cerebras 合计 Groq 使用 8 位量化来已毕其性能筹谋,这减少了模子大小、计较支拨和内存压力,但代价是准确性有所下落。

    与 Groq 雷同,Cerebras 计算通过与 OpenAI 兼容的 API 提供推理劳动。这种方法的上风在于,依然围绕 GPT-4、Claude、Mistral 或其他基于云的模子构建应用方法的开发东谈主员无需重构其代码即可整合 Cerebra 的推理居品。

    在资本方面,Cerebras 也但愿以每百万token 60 好意思分的价钱提供低于竞争敌手的 Llama3-70B。况兼,淌若你思知谈,这是假定输入与输出token的比例为 3:1。

    比拟之下,Cerebras 在竞争云上为 H100 提供调换模子的资本为每百万token 2.90 好意思元。不外,与 AI 推理相通,有好多旋钮和杠杆不错动掸,凯旋影响提供模子的资本和性能,因此对 Cerebra 的说法捏保留作风。

    关联词,与 Groq 不同的是,Feldman 暗示 Cerebras 将不竭为某些客户提供里面部署系统,举例那些在严格监管的行业运营的客户提供里面部署系统。

    天然 Cerebras 可能比竞争加快器具有性能上风,但其因循的模子仍然有些有限。在发布时,Cerebras 因循 Llama 3.1 的 80亿 和 700 亿参数版块。不外,这家初创公司计算加多对 4050亿、Mistral Large 2、Command R+、Whisper、Perplexity Sonar 以及自界说微调模子的因循。

    绕开了英伟达最大门槛?

    如报谈所说,Nvidia 之是以能紧紧占据 AI 商场,原因之一是其在计较协调开导架构(CUDA:Compute Unified Device Architecture)方面的主导地位,这是其并行计较平台和编程系统。CUDA 提供了一个软件层,闪开发东谈主员不错凯旋拜访 GPU 的虚构指示集和并行计较元素。

    多年来,Nvidia 的 CUDA 编程环境一直是 AI 开发的事实方法,并围绕它开发了雄壮的器具和库生态系统。这形成了一种情况,即开发东谈主员通俗被锁定在 GPU 生态系统中,即使其他硬件科罚决策不错提供更好的性能。

    Cerebras 的 WSE 是一种与传统 GPU 王人备不同的架构,需要对软件进行调遣或重写才调充分期骗其功能。开发东谈主员和筹商东谈主员需要学习新器具和潜在的新编程圭表才调有用地使用 WSE。

    Cerebras 试图通过因循 PyTorch 等高等框架来科罚这个问题,闪开发东谈主员更容易使用其 WSE,而无需学习新的初级编程模子。它还开发了我方的软件开发器具包,以允许进行初级编程,可能为某些应用方法提供 CUDA 的替代决策。

    然而,通过提供不仅速率更快况兼更易于使用的推理劳动(开发东谈主员不错通过肤浅的 API 与其进行交互,就像使用任何其他基于云的劳动相通),Cerebras 使刚刚加入竞争的组织大约绕过 CUDA 的复杂性并仍然已毕顶级性能。

    这顺应行业向绽开方法的抨击,开发东谈主员不错解放礼聘最适应责任的器具,而不受现存基础设施法例的敛迹。

    关于这个的将来,大师如何看啊?

    https://www.theregister.com/2024/08/27/cerebras_ai_inference/

    https://www.forbes.com/sites/craigsmith/2024/08/27/cerebras-speeds-ai-by-putting-entire-foundation-model-on-its-giant-chip/

    https://www.zach.be/p/why-is-everybody-talking-about-groq

    https://www.theregister.com/2024/07/14/quantization_llm_feature/

    半导体宏构公众号保举

    专注半导体领域更多原创内容

    怜惜全球半导体产业动向与趋势

    *免责声明:本文由作家原创。著述内容系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或因循,淌若有任何异议,欢管待洽半导体行业不雅察。

    今天是《半导体行业不雅察》为您共享的第3868内容,接待怜惜。

    『半导体第一垂直媒体』

    及时 专科 原创 深度

    公众号ID:icbank

    可爱咱们的内容就点“在看”共享给小伙伴哦



    Powered by 启盈配资 @2013-2022 RSS地图 HTML地图

    建站@kebiseo; 2013-2024 万生优配app下载官网 版权所有