返回首页  设为首页  加入收藏  今天是:
网站首页电脑主板电脑cpu电脑内存电脑硬盘电脑显卡电脑电源显示器电脑配件电脑维修
相关文章
 大模型最快推理芯片一夜易主…
 ddr5是什么意思
 多快好准!有道词典笔A6 Pro…
 英伟达值14万亿吗?
 是谁发明的显卡啊显卡开发
 游戏本什么时候发明的第一个…
 性能不输高端产品 爱国者低价…
 网购电脑电源的比较试验结果…
 超四成移动电源抽检不合格 标…
 E5200双核320G硬盘PC新学期热…
 电脑硬盘坏了怎么办 电脑硬盘…
 PC最后的性能短板!提升硬盘性…
 广州惠普笔记本售后维修点地…
 惠普维修服务点几点上班 惠普…
 惠普电脑维修“五一”只接单…
 小商品批发平台“工厂优+”创…
 武汉喜乐优品百货有限公司 对…
 办公用品批发采购平台有哪些
 笔记本CPU排行榜:性能天梯图…
 2019年cpu排行_2019年cpu推荐…
 笔记本cpu天梯
 华硕“灵耀14 双屏”AI超轻薄…
 华硕超薄上网本1005HA现身(…
 华硕无畏Pro15 2023评测:全…
 H310主板配什么CPU?通过对比…
 主流游戏PC配置哪里找?这篇…
 主板选购指南二:主板版型
 推倒万亿参数大模型内存墙!…
 Stability AI试图通过新的图…
 三星A系列再添新成员Galaxy …
 中国特供显卡RX 6750 GRE太便…
 同时更新!摩尔线 Ubuntu驱动
 AMD ROCm 60发布:新增支持两…
 快速检测开关电源芯片好坏的…
 开关电源怎么测试怎么判断好…
 好品质还亲民 长城HOPE-6000…
 游戏、生产两不误 PCIe 40高…
 西部数据(WD)SSD固态硬盘 …
 西部数据(WD)
 开工返学季惠普战系列台式机…
 海淀区联想笔记本电脑维修
 上门修电脑的电话是多少
 经典推荐:太平洋数码产品完…
 实拍广州中六电脑城:就在西…
 广州IT卖场格局未来趋势成重…
 现在笔记本电脑处理器排名 处…
 先人一步开工大吉 机械革命极…
 笔记本电脑处理器榜单
 AOC 冠捷 27B2H 27英寸IPS显…
 优派(ViewSonic)显示器 Vi…
专题栏目
网络
您现在的位置: 电脑评测网 >> 电脑内存 >> 正文
高级搜索
大模型最快推理芯片一夜易主:谷歌TPU创业团队打造
作者:佚名 文章来源:本站原创 点击数: 更新时间:2024/2/25 0:14:45 | 【字体:

  花都逍遥游,作者:白交、克雷西,原文标题:《大模型最快推理芯片一夜易主:每秒500tokens干翻GPU!谷歌TPU人马打造,喊话奥特曼:你们也太慢了》,题图来自:视觉中国

  • 💥 Groq推出的大模型最快推理芯片每秒可生成接近500 tokens的速度,比云平台厂商快18倍。

  一夜间,大模型生成已经没什么延迟了……生成速度已经接近每秒500 tokens。

  初创公司Groq,谷歌TPU团队原班人马,基于自研芯片推出推理加速方案(注意,这不是马斯克的Grok)。

  据他们介绍,其推理速度相较于英伟达GPU提高了10倍,成本却降低到十分之一。

  提示词:你是一个小学生,还没完成寒假作业。请根据《星际穿越》写一篇500字的读后感。

  结果啪的一下,只需1.76秒就生成了一长串读后感,速度在每秒478Tokens。

  不过内容是英文的,以及读后感只有三百六十多字。但后面也赶紧做了解释说考虑到是小学生写不了那么多……

  至于GPT-4这边的表现,内容质量自然更好,也体现了整个思路过程。但要完全生成超过了三十秒。单是读后感内容的生成,也有近二十秒钟的时间。

  除了Demo演示外,Groq现在支持API访问,并且完全兼容,可直接用OpenAI的API进行简单切换。

  目前支持Llama 2-70B和7B, Groq可以实现4096的上下文长度,还有Mixtral 8x7B这一型号。当然也不局限于这些型号,Groq支持具体需求具体定制。

  不过可以看到,每秒500tokens似乎还不是终极速度,他们最快可以实现每秒750Tokens。

  Groq是集软硬件服务于一体的大模型推理加速方案,成立于2016年,创始团队中很多都是谷歌TPU的原班人马。

  创始人兼CEO Jonathan Ross,设计并实现了第一代TPU芯片的核心元件,TPU的研发工作中有20%都由他完成。

  Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。

  LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽,最终实现的LLM推理性能比其他基于云平台厂商快18倍。

  据此前他们介绍,英伟达GPU需要大约10焦耳到30焦耳才能生成响应中的tokens,而Groq设置每个tokens大约需要1焦耳到3焦耳。

  因此,推理速度提高了10倍,成本却降低了十分之一,或者说性价比提高了100倍。

  延迟方面,在运行70B模型时,输出第一个token时的延时仅有0.22秒。

  甚至为了适应Groq的性能水平,第三方测评机构ArtificialAnalysis还专门调整了图表坐标轴。

  据介绍,Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。

  算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。

  Groq主要基于该公司自研的TSP架构,其内存单元与向量和矩阵深度学习功能单元交错,从而利用机器学习工作负载固有的并行性对推理进行加速。

  在运算处理的同时,每个TSP都还具有网络交换的功能,可直接通过网络与其他TSP交换信息,无需依赖外部的网络设备,这种设计提高了系统的并行处理能力和效率。

  结合新设计的Dragonfly网络拓扑,hop数减少、通信延迟降低,使得传输效率进一步提高;同时软件调度网络带来了精确的流量控制和路径规划,从而提高了系统的整体性能。

  Groq支持通过PyTorch、TensorFlow等标准机器学习框架进行推理,暂不支持模型训练。

  此外Groq还提供了编译平台和本地化硬件方案,不过并未介绍更多详情,想要了解的话需要与团队进行联系。

  而在第三方网站上,搭载Groq芯片的加速卡售价为2万多美元,差不多15万人民币。

  它由知名电子元件生产商莫仕(molex)旗下的BittWare代工,同时该厂也为英特尔和AMD代工加速卡。

  当时GPTs商店推出之后,Groq就喊话奥特曼:用GPTs就跟深夜读战争与和平一样慢……阴阳怪气直接拉满。

  一名自称Groq工作人员的用户与网友互动时表示,Groq的目标是打造最快的大模型硬件,并扬言:

电脑内存录入:admin    责任编辑:admin 
  • 上一个电脑内存:

  • 下一个电脑内存: 没有了
  •  
     栏目文章
    普通电脑内存 大模型最快推理芯片一夜易主:谷歌TPU创业团队… (02-25)
    普通电脑内存 ddr5是什么意思 (02-25)
    普通电脑内存 多快好准!有道词典笔A6 Pro领航新学期英语学… (02-25)
    普通电脑内存 推倒万亿参数大模型内存墙!万字长文:从第一… (02-21)
    普通电脑内存 Stability AI试图通过新的图像生成人工智能模… (02-21)
    普通电脑内存 三星A系列再添新成员Galaxy A35、A55手机曝光… (02-21)
    普通电脑内存 电脑中的内存是什么意思 (02-20)
    普通电脑内存 AMD也能超8000金百达星刃DDR5 7200内存开箱 (02-20)
    普通电脑内存 电脑故障英文解释 (02-20)
    普通电脑内存 基于3D Xpoint技术的傲腾DC非易失DDR4内存面世… (02-19)
    普通电脑内存 内存条安装后出现英文怎么回事 (02-19)
    普通电脑内存 小小的内存条千万别小看确是中国缺少的核“芯… (02-19)
    普通电脑内存 Moonshot AI亮相:发布支持20万字输入的千亿参… (02-18)
    普通电脑内存 简述Cortex-M0―4各个优势 (02-18)
    普通电脑内存 支持20万字输入Moonshot AI开启千亿大模型的“… (02-18)
    普通电脑内存 作弊者太多影响后续 PVP 更新计划:开发商宣布… (02-17)
    普通电脑内存 推倒万亿参数大模型内存墙万字长文:从第一性… (02-17)
    普通电脑内存 阿斯加特DDR5 5600MHz 16GB 笔记本内存269元限… (02-17)
    普通电脑内存 什么是计算机内存 "计算机内存的定义与解释" (02-15)
    普通电脑内存 小霸王计算机助美国登月如今1t内存在只算中档… (02-15)