大模型最快推理芯片一夜易主：谷歌TPU创业团队打造

返回首页　

设为首页　

加入收藏　

今天是:

网站首页电脑主板电脑cpu 电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修

大模型最快推理芯片一夜易主…
ddr5是什么意思
多快好准！有道词典笔A6 Pro…
英伟达值14万亿吗？
是谁发明的显卡啊显卡开发
游戏本什么时候发明的第一个…
性能不输高端产品爱国者低价…
网购电脑电源的比较试验结果…
超四成移动电源抽检不合格标…
E5200双核320G硬盘PC新学期热…
电脑硬盘坏了怎么办电脑硬盘…
PC最后的性能短板!提升硬盘性…
广州惠普笔记本售后维修点地…
惠普维修服务点几点上班惠普…
惠普电脑维修“五一”只接单…
小商品批发平台“工厂优+”创…
武汉喜乐优品百货有限公司对…
办公用品批发采购平台有哪些
笔记本CPU排行榜：性能天梯图…
2019年cpu排行_2019年cpu推荐…
笔记本cpu天梯
华硕“灵耀14 双屏”AI超轻薄…
华硕超薄上网本1005HA现身（…
华硕无畏Pro15 2023评测：全…
H310主板配什么CPU？通过对比…
主流游戏PC配置哪里找？这篇…
主板选购指南二：主板版型
推倒万亿参数大模型内存墙！…
Stability AI试图通过新的图…
三星A系列再添新成员Galaxy …
中国特供显卡RX 6750 GRE太便…
同时更新！摩尔线 Ubuntu驱动
AMD ROCm 60发布：新增支持两…
快速检测开关电源芯片好坏的…
开关电源怎么测试怎么判断好…
好品质还亲民长城HOPE-6000…
游戏、生产两不误 PCIe 40高…
西部数据（WD）SSD固态硬盘 …
西部数据（WD）
开工返学季惠普战系列台式机…
海淀区联想笔记本电脑维修
上门修电脑的电话是多少
经典推荐：太平洋数码产品完…
实拍广州中六电脑城：就在西…
广州IT卖场格局未来趋势成重…
现在笔记本电脑处理器排名处…
先人一步开工大吉机械革命极…
笔记本电脑处理器榜单
AOC 冠捷 27B2H 27英寸IPS显…
优派（ViewSonic）显示器 Vi…

专题栏目

您现在的位置：电脑评测网 >> 电脑内存 >> 正文

高级搜索

大模型最快推理芯片一夜易主：谷歌TPU创业团队打造

作者：佚名文章来源：本站原创点击数：更新时间：2024/2/25 0:14:45 | 【字体：小大】

　　花都逍遥游，作者：白交、克雷西，原文标题：《大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了》，题图来自：视觉中国

　　• 💥 Groq推出的大模型最快推理芯片每秒可生成接近500 tokens的速度，比云平台厂商快18倍。

　　一夜间，大模型生成已经没什么延迟了……生成速度已经接近每秒500 tokens。

　　初创公司Groq，谷歌TPU团队原班人马，基于自研芯片推出推理加速方案（注意，这不是马斯克的Grok）。

　　据他们介绍，其推理速度相较于英伟达GPU提高了10倍，成本却降低到十分之一。

　　提示词：你是一个小学生，还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。

　　结果啪的一下，只需1.76秒就生成了一长串读后感，速度在每秒478Tokens。

　　不过内容是英文的，以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……

　　至于GPT-4这边的表现，内容质量自然更好，也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成，也有近二十秒钟的时间。

　　除了Demo演示外，Groq现在支持API访问，并且完全兼容，可直接用OpenAI的API进行简单切换。

　　目前支持Llama 2-70B和7B， Groq可以实现4096的上下文长度，还有Mixtral 8x7B这一型号。当然也不局限于这些型号，Groq支持具体需求具体定制。

　　不过可以看到，每秒500tokens似乎还不是终极速度，他们最快可以实现每秒750Tokens。

　　Groq是集软硬件服务于一体的大模型推理加速方案，成立于2016年，创始团队中很多都是谷歌TPU的原班人马。

　　创始人兼CEO Jonathan Ross，设计并实现了第一代TPU芯片的核心元件，TPU的研发工作中有20%都由他完成。

　　Groq没有走GPU路线，而是自创了全球首个L（anguage）PU方案。

　　LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽，最终实现的LLM推理性能比其他基于云平台厂商快18倍。

　　据此前他们介绍，英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens，而Groq设置每个tokens大约需要1焦耳到3焦耳。

　　因此，推理速度提高了10倍，成本却降低了十分之一，或者说性价比提高了100倍。

　　延迟方面，在运行70B模型时，输出第一个token时的延时仅有0.22秒。

　　甚至为了适应Groq的性能水平，第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。

　　据介绍，Groq的芯片采用14nm制程，搭载了230MB大SRAM来保证内存带宽，片上内存带宽达到了80TB/s。

　　算力层面，Gorq芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度则为188TFLOPs。

　　Groq主要基于该公司自研的TSP架构，其内存单元与向量和矩阵深度学习功能单元交错，从而利用机器学习工作负载固有的并行性对推理进行加速。

　　在运算处理的同时，每个TSP都还具有网络交换的功能，可直接通过网络与其他TSP交换信息，无需依赖外部的网络设备，这种设计提高了系统的并行处理能力和效率。

　　结合新设计的Dragonfly网络拓扑，hop数减少、通信延迟降低，使得传输效率进一步提高；同时软件调度网络带来了精确的流量控制和路径规划，从而提高了系统的整体性能。

　　Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理，暂不支持模型训练。

　　此外Groq还提供了编译平台和本地化硬件方案，不过并未介绍更多详情，想要了解的话需要与团队进行联系。

　　而在第三方网站上，搭载Groq芯片的加速卡售价为2万多美元，差不多15万人民币。

　　它由知名电子元件生产商莫仕（molex）旗下的BittWare代工，同时该厂也为英特尔和AMD代工加速卡。

　　当时GPTs商店推出之后，Groq就喊话奥特曼：用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满。

　　一名自称Groq工作人员的用户与网友互动时表示，Groq的目标是打造最快的大模型硬件，并扬言：

电脑内存录入：admin 责任编辑：admin
	上一个电脑内存： ddr5是什么意思下一个电脑内存：没有了

　栏目文章

大模型最快推理芯片一夜易主：谷歌TPU创业团队… (02-25)	ddr5是什么意思 (02-25)
多快好准！有道词典笔A6 Pro领航新学期英语学… (02-25)	推倒万亿参数大模型内存墙！万字长文：从第一… (02-21)
Stability AI试图通过新的图像生成人工智能模… (02-21)	三星A系列再添新成员Galaxy A35、A55手机曝光… (02-21)
电脑中的内存是什么意思 (02-20)	AMD也能超8000金百达星刃DDR5 7200内存开箱 (02-20)
电脑故障英文解释 (02-20)	基于3D Xpoint技术的傲腾DC非易失DDR4内存面世… (02-19)
内存条安装后出现英文怎么回事 (02-19)	小小的内存条千万别小看确是中国缺少的核“芯… (02-19)
Moonshot AI亮相：发布支持20万字输入的千亿参… (02-18)	简述Cortex-M0―4各个优势 (02-18)
支持20万字输入Moonshot AI开启千亿大模型的“… (02-18)	作弊者太多影响后续 PVP 更新计划：开发商宣布… (02-17)
推倒万亿参数大模型内存墙万字长文：从第一性… (02-17)	阿斯加特DDR5 5600MHz 16GB 笔记本内存269元限… (02-17)
什么是计算机内存＂计算机内存的定义与解释＂ (02-15)	小霸王计算机助美国登月如今1t内存在只算中档… (02-15)

	设为首页加入收藏联系站长友情链接版权申明网站公告管理登录
	电脑评测网声明：登载内容出于传递信息之目的，绝不意味着赞同其观点或证实其描述，若侵权请来信告知，我们将及时处理！