开租书店GPU供不应求其实已经司空见惯了,但之所以这次能被热议起来,是因为这款产品背后的厂家。
从玩家们的讨论中不难得出答案——性价比够高,2000元价位就能在2K画质下畅玩3A游戏。
而这款显卡,正是英特尔不久前发布的第二代Arc B580,售价仅249美元。
但英特尔的Arc B580不仅价格比它们低,还配备了12GB的VRAM和192bit的显存位宽。
即使是价格更低的Arc B570(219美元,下个月上市)也配备了10GB的VRAM。
虽然Arc是游戏显卡,但毕竟是GPU啊,于是……也有一部分人买来开始搞AI了。而这,可能会让它未来的销售再增三分热度。
不仅是个人用户的尝鲜,我们还打听到有些企业已经着手把英特尔的显卡塞进包括工作站和服务器在内的商用计算设备中了,具体搭配的“食谱”就是:英特尔至强系列CPU+Arc显卡。
不过暂时用的还是英特尔上一代的A770,作为上一代的旗舰型号,A770有着16G大显存,用在AI推理上,也算游刃有余。
首先可以看出来,无论个人还是企业,买英特尔消费级显卡来搞AI,基本都是来做AI推理的。
一方面,随着行业热议的“预训练Scaling Law撞墙”了,像OpenAI o1/o3系列模型也开始依靠增加推理算力提高模型能力。
另一方面,AI应用落地的爆发也使得推理需求大幅增长,这些需求往往不强求算力的溢出甚至极致,即所谓硬需求不高,而是更加注重实现够用的性能(包括并发度和时延),以及与之同步的易获取、易部署、易使用和成本上是否够实惠。
那么做AI推理为什么选择英特尔游戏显卡?正如前面分析,性价比肯定是一大考虑因素。
从硬件方面讲,即使是顶级的算力卡,单卡做AI推理在面对高并发等场景时,显存也会成为瓶颈,但升级到四卡、八卡成本又会飙升。此时,英特尔 A770这种2000元价位就有16G大显存的型号,就成了兼顾性能与成本之选。
从应用方面讲,很多场景其实对每秒token生成速度要求并不高,特别是有流式传输等优化手段,只要first token latency到位了,后面生成速度满足一定要求,体验就很好。
这是我们拿到的4张英特尔Arc A770显卡跑Qwen2.5 32B模型的演示Demo,来感受一下这个速度,是不是足够了?
拿最流行的大模型推理框架之一vLLM来说,得益于开源软件的发展,其早已实现了高级别的抽象和封装,其实换用哪种硬件,用起来都没差太多。
可能还有人要问了,那为什么不选专用AI推理加速器,比如风头正盛的Groq、Sambanova这些?
这就要说到,多模态交互是现在AI应用的一大趋势,无论是与AI视频对话、数字人,还是直播、短视频场景的一些应用,都同时会用到视频解码或图形渲染能力,这就非得是通用GPU不可。
专用加速器虽然在特定任务上有优势,但在处理多样化需求时,通用GPU更具灵活性。
所以总结来看,用英特尔显卡搞AI推理,算力够用,大显存还有,可行性就有了,性价比也有了,对于现有业务来说,迁移成本更是理想。
其实,英特尔在两年前刚推出Arc系列时就采取与友商不同的策略,许可证方面明确不限制数据中心使用。
为了方便大家用好AI,英特尔的软件团队一直没闲着,除了更新oneAPI,还在持续推出和更新一系列开源工具,吸粉不断。
例如加速库IPEX-LLM,可用于大模型的推理和微调,在GitHub上已经有6.8k star。
从IPEX-LLM也可以看出英特尔对中国市场的重视,针对中国主流的开源大模型ChatGLM、Qwen、MiniCPM等都提供了适配,中文文档和教程也做的比较完善。
为了方便大家选择模型,英特尔还在HuggingFace上维护了一个低比特量化模型的排行榜,设置好条件,就可以一键比较并筛选出自己需要的模型。
这么看下来,英特尔为AI开源社区做的众多贡献,给企业和开发者提供了便利,也是现在大家愿意尝试英特尔显卡的原因之一。
2025年,英特尔准备推出Battlemage系列显卡的更大显存版本,其容量将增至24G。
以后就是现有版本继续服务于游戏等消费级市场,24G的更大显存版本瞄准“生产力市场”。
“生产力市场”的目标用户涵盖了数据中心、边缘机房、教育科研和个人开发者等。
拥有更大显存的英特尔显卡,不仅可在AI推理需求上,也能在渲染和视频编解码应用上做到比专业图形卡、工作站显卡性价比更高。
还真别说,“从游戏人间转向打工赚钱”+“算力够用、显存保大”,很有可能会成为英特尔GPU突围的一招妙棋。
|