刁蛮婆婆俏媳妇。”GPU IP巨头Imagination中国战略市场及生态副总时昕博士在一场演讲中曾说道。
那究竟什么是GPU呢?维基百科定义,GPU中文名为图形处理器,是一种在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。
VR、区块链、3D建模、渲染等一切跟图像有关的处理过程都需要GPU。当下最热门的元宇宙,集以上图像处理需求大成,对GPU的需求也不言而喻。除了图形处理功能,GPU还是目前公认最好的AI加速器,尤其是在云端训练大模型应用场景中。更有意思的是,在自动驾驶的赛道上,GPU也杀了进来:全球GPU龙头英伟达正对接越来越多的车企合作订单。 简而言之,只要有高清画质需求,只要有AI处理需求,就离不开GPU。因此,随着这两大需求的持续增长和巨大的市场想象空间,全球GPU龙头英伟达凭借GPU芯片的优势,市值就高达7410亿美元(约合人民币47198亿元,截至2021年12月23日),晋升为当下全球市值最高的半导体企业。
GPU芯片研发有多难?GPU需求大,价值高,反观国内芯片企业在该领域却进度缓慢。目前中国在桌面和移动端领域的GPU供应基本被英伟达、AMDARM垄断,国产GPU是个巨大的蓝海市场且鲜有企业涉足。 近年来,在市场和国家战略替代的需求下,国内掀起一股“GPU投资热潮”,涌现了一批国产GPU初创企业。尽管投资热度高涨,国内初创企业多以技术难度更低的通用计算型GPU(GPGPU)切入赛道,能做高性能商业化的渲染GPU产品的企业依旧凤毛麟角。
在落幕的“中国集成电路设计业2021年会暨无锡集成电路产业创新发展高峰论坛(ICCAD 2021)”上,国内芯片企业芯动科技公开展示了其今年11月最新发布的首款国产高性能4K级显卡GPU芯片——“风华1号”,引发了业内人士的强烈关注,盛赞芯动科技是“中国版的英伟达”。以芯动科技为样本,综合其“风华1号”发布会上的介绍,或能解答这一问题。
芯师爷从不久前举办的“风华1号”发布会上了解到,“风华1号”GPU在多个领域表现上取得了第一,如第一款渲染能力达到5T-10T FLOPS的国产GPU显卡;第一款图形API达到OpenGL4.0以上,并能实际演示4.0 benchmark的GPU;还是第一款支持多路渲染+编解码+AI服务,硬件虚拟化和chiplet可延展的国产GPU等。
芯动科技SoC体系架构师何颖提及,单从算力对标的线号”双芯片的显卡可对标英伟达T4系列产品。换而言之,“风华1号”是一颗“真正”的高端国产GPU芯片,即便是对标全球GPU龙头企业产品也不遑多让。 据芯师爷复盘“风华1号”的研发之路,发现国内企业做GPU主要有两大难,一是难在专利壁垒;二是难在GPU芯片的体系化创新。 在专利壁垒方面,GPU是先进制程数字芯片,对于GPU企业来说,高技术含量的自有IP的持续演进是技术自主和市场竞争优势的保障。但在该领域起步早的全球GPU巨头们已筑建了层层专利保护墙。以GPU架构IP专利为例,就连全球科技领头羊企业苹果,在该领域也绕不开专利授权:苹果从A4到A10X所有处理器芯片都是采用Imagination的IP,到A10之后苹果通过架构授权,有了自己的GPU架构把控,依然是基于Imagination的TBDR架构专利授权,隶属于该架构分支。但一旦架构授权后独立演进了,也就不再被专利卡脖子了。 在GPU芯片设计方面,GPU也绝非简单的芯片设计,其设计较一般芯片更复杂,系统更庞大,涉及面更广。做GPU需要极其专业的团队,团队从前到后要包圆,做到软硬全栈。专业人才要涵盖架构、算法、硬件、软件以及各种验证方式,包括后端、版图、驱动、测试、机械结构、生产、供应链等领域。这意味着,GPU研发团队需要在全链条节点上都配备丰富的量产经验人才,才能完成这样非常商业化的体系。
为何是芯动科技突围而出?芯动科技从0-1直接突围高端GPU芯片的研发,这样的成果值得溯源与反思:为什么是芯动科技一鸣惊人,突破了国内企业做GPU芯片的困局。 芯师爷了解到,芯动科技是中国一站式IP和芯片定制及GPU领军企业,成立至今已15年。15年间芯动科技作为幕后英雄,为各国产半导体代工厂和300家全球知名客户提供顶尖IP和芯片定制,协助了包括瑞芯微、君正、微软、AMD、亚马逊等知名公司各种芯片量产,而且所有技术自研可控,能持续迭代,不断超越。逾50亿颗先进SoC芯片成功推向市场的背后,比如大家每天用的轨道交通身份证识别和全球顶级示波器,都有用到芯动科技的IP技术。广泛的合作使得芯动科技在To B的圈子非常知名,更值得一提的是,在芯片IP领域,芯动科技还是TSMC 2021全球研讨会认可的唯一大陆合作伙伴,其技术和量产积累之深厚可见一斑。 正是在为各合作伙伴提供IP和芯片定制期间,芯动科技积累了GPU所需要的全套高端IP、图形芯片内核定制技术和先进工艺经验,形成了从工艺到设计,到器件,到量产,到封装,到整机的完整芯片设计验证条流程。这为“风华1号”GPU芯片的研发奠定了稳固的基础。芯动科技SoC体系架构师何颖透露,“风华1号”集成了GDDR6/6X、PCIe 4、Chiplet Innolink、HDMI2.1 、Display port 、VDAC、PLL、TV Sensor、PUF等高端自研IP技术,IP全自主研发,远高于友商。 其中,GDDR6/6X、Chiplet Innolink均为GPU业内顶尖技术。以GDDR6X技术为例,GDDR6X并非简单的超频技术,为了数据密度更高,它使用了32位并行单端PAM4技术,比业界常见的串口差分PAM4技术,难不止一个数量级,全球除了英伟达,一个公司都做不出来,每个时钟周期可以传输多次数据——数据吞吐量越大,芯片并行计算能力越大,GPU能够同时渲染的像素点越多,画质越清晰。使用GDDR6X技术可满足4K高刷新率画面需求;在提升接口数据传输速率的同时,它实际内核频率甚至可以做到比上一代技术更低一些。 GDDR6X显存技术研发难度极高,目前全球只有英伟达和芯动科技两家拥有。芯动科技GDDR6X研发负责人高专表示,GDDR6X的PAM4并行技术是英伟达与美光在一栋楼里共同研发两年才研发出来,而芯动团队是全球唯一一家,仅凭有限的远程技术支持,只用一年时间就做出来了,连AMD目前都还没有做到成功研发该技术。这都是基于芯动科技团队十多年的技术基础积累和200次流片打磨的经验。 此外,为了保持技术的领先,芯动科技还立足全球和GPU全产业链,持续引入了大量GPU领域顶尖专业人才。 芯动首席算法科学家杨喜乐博士是顶级的架构师,她自从博士毕业之后,曾在英国Imagination公司担任架构师,过去的25年间一直从事GPU核心图形引擎的建模和创新,是全球GPU芯片领域从几何物理渲染到计算引擎领域的知名专家,持有GPU 3D计算机图形学核心领域顶级图形专利共计125项,目前Imagination、苹果等公司最新的核心GPU产品的设计、优化和迭代都离不开她的专利和算法。在芯动科技的邀请下,她回国投身国产GPU图形引擎的持续创新。
在芯动科技GPU专家团队的努力下,“风华1号”GPU架构目前已在Imagination GPU的架构授权下,自主研发了两代,把原生移动端的架构拓展到了高性能计算、云计算的场景,在架构自主可控上不存在被“卡脖子”风险。 芯动科技DX团队负责人章涛也是其从海外招揽的技术大咖。据悉,章涛是来自前AMD的图形框架开发的领军人物。他表示,“投身芯动开发GPU软件感觉非常棒!芯动团队从老板到员工,都在专心做事。”章涛透露,明年芯动科技就会发布风华显卡Windows操作系统的DX框架。 芯动云计算总裁敖海在“风华1号”发布会上曾这样总结:“‘风华1号’凝聚了芯动科技自有的众多技术积累,又有世界著名GPU公司顶尖人才的联合参与的加持,是芯动人努力和成果的结晶,也是芯动科技完成‘让风华GPU走进千家万户,让大家习惯用国产的GPU办公和娱乐’使命的开端。风华系列GPU赋能国产生态正加紧奋勇向前,目前芯动科技正在加紧与合作伙伴进行‘风华1号’适配调优,在向数据中心和国产桌面GPU 等合作伙伴送样的同时,风华2号和3号已经在路上了。”
写在最后在半导体供应链面临不确定风险的产业环境下,芯动科技瞄准高速成长的高清画质云渲染和元宇宙需求,推出的“风华1号”正当其时,填补了国产4K级桌面显卡和服务器显卡两大空白,为国产新基建5G数据中心、桌面、元宇宙、云游戏、云桌面等千亿级产业提供了有力支持,值得国产半导体产业为其喝彩。 同时,我们也该注意到,罗马不是一天建成的,发展中的中国GPU产业和国际巨头之间仍有不小的差距。芯动科技选择的是既充满机遇、又充满挑战的GPU市场,未来国产GPU生态的长期发展也需要国产GPU产业链企业的持续支持。 巨大的研发费用和长期资本开支,在已经多年持续盈利的芯动科技看来,并非很大挑战。芯动科技工程副总毛鸣明认为,硬科技要“十年坐得板凳冷”,需要长期打磨,不是像互联网靠砸钱就能成功的,投资人需要非常清楚这一点。长远来看,国产GPU芯片技术突围最终还是需要靠经年累月的迭代和优化, 通过不断试错,走进应用于千家万户的终端产品供应链中取胜。 芯动科技SoC体系架构师何颖也表示:“芯动科技是全球6大晶圆代工厂签约支持的技术合作伙伴,有着众多自研IP和强大稳定的团队执行力,在多年的持续奋斗中,芯动科技在跨工艺研发和供应链能力上极具优势,令合作客户长期受惠。而国产GPU上下游产业链的长期、持续商用也会成为芯动科技GPU芯片发展的强大驱动力。未来,芯动科技将根据产业链客户需求,为风华系列GPU产品找到更多可持续落地场景,完成让风华GPU走进大家生活的使命。”
芯动科技(Innosilicon)是中国一站式IP和芯片定制领军企业,专注于高性能计算GPU、高带宽交换与存储等领域,提供全球各大工艺从55纳米到5纳米FinFET全套高性能IP核和ASIC定制解决方案。公司15年来立足本土发展,所有IP和芯片全国产自主可控,经过200多次先进工艺流片,过50亿颗高端SoC量产,连续十年中国市场份额遥遥领先。芯动是中国唯一受到全球6大顶尖晶圆厂(台积电/三星/格芯/中芯国际/联华电子/英特尔)签约支持的技术合作伙伴,聚焦从28/22纳米、14/12纳米、10纳米、7纳米到5纳米等FinFET/FDX节点,支持了中芯国际、华力等国产先进工艺量产首发。芯动是为数不多圆满完成多项国家重大专项的领军企业,历史客户群涵盖华为海思、中兴通讯、瑞芯微、全志、君正等国内前十设计公司,以及AMD、微软、亚马逊、高通、安盛美等全球知名企业。我们日常所用的轨道交通身份证“刷脸认证”、高清机顶盒、监控摄像、游戏机、手机、平板、全球顶级示波器主控芯片、以及CPU/GPU/NPU等多种先进产品背后都有芯动技术。
文章出处:【微信公众号:芯动科技Innosilicon】欢迎添加关注!文章转载请注明出处。
什么? /
制造商成为以代工为首要业务的公司的一步。英特尔即将推出的名为Ponte Vecchio的
行Linux操作系统的星光RISC-V单板计算机,搭载了赛昉的惊鸿7100 RISC-V视觉处理
。为了添加更加强大的图形性能,赛昉授权采用Imagination的B系列
、录像机、汽车等,都使用嵌入式系统,有些嵌入式系统还包含操作系统,但大多数嵌入式系统都是由单个程序实现整个控制逻辑。不明觉厉,嵌入式
训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示
训练模型的时候,如果机器锁屏一段时间再打开的时候鼠标非常卡顿,或者说显示界面非常卡顿,使用nvidia-smi查看发现,训练模型的
市场规模为254.1亿美元,预计到2027年将达到1853.1亿美元,从2021年到2027
增量式编码器输出的脉冲波形信号形式常见的有哪几种?增量式编码器倍频技术的M法
出不同的物体。我用它去拍摄我家的狗,发现它不仅能识别出这是狗,甚至还能够识别出狗的类型。大家想知道图像识别
以与传感器一一对应的电子控制单元(ECU)为主,主要分布与发动机等核心部件上。...
什么是Flash Memory?Flash Memory主要可以分为哪几类?SLC、MLC、Parallel NOR Flash等
什么?它与eMCP有什么联系?为何eMCP在中低端市场仍占据优势?那么uMCP5会迅速取代eMCP吗?
USB Type-C有哪些主要特点?USB Type-C中的快速角色交换
我们知道交流电是经由火线再流向零线的,然后又从零线一下子流向火线。那为何当我们碰到零线的时候并没有触电,但是碰到火线的时候又被触电?有的小伙伴开始好奇,在电力系统中,交流电路里,电流
在有些人看来,Imagination Technologies是在移动端领域的知名
适用于广泛的市场,而汽车行业就是重要的一个。实际上,Imagination为汽车
什么黑科技?锂电池作为新能源汽车最核心的三电部件,直接关乎整车续航、动力、安全等重要性能。首次发布的蜂窝电池技术,吸引了不少业内人士和新能源用户的关注。
的发明改变了人类生活方式 1947年12月23日,美国贝尔实验室3位科学家约翰巴登、威廉肖克利和瓦尔特布拉顿发明了
能不能控制LCD,为什么要用FSMC啊?而且,在给的原理图上,LCD的数据线相连,又和
电子工程师那段日子的弥足珍贵,对比目前在体制内稳定而又前途迷茫的环境,我不禁自我感叹:人生
怎么了?都说年轻人一股冲劲,就应该出去闯一闯,就不应该稳定。现在我真不知道怎么去选择,后路我该何去何从?
相关专业讲师短周期的培训,可周末,如您想挣点外块,积累资源,充实生活,请联系我。要求有二年以上实际项目经历,具有CUDA或OpenCL实际项目开发经验者优先,表达能力较好
。而这也解释了为什么英伟达所开创的GPGPU在过去几年里赚的钵满盆满。 其实仔细想想,除了“牧村波动”所昭示的进化规则,通用
、生产、销售及物联网于一体的科技企业,主要以四合一气体检测仪产品为主,那么今天我们就来说说它的特点。1、专利
有这个两句线的SPI功能很强大,SPI时钟最多可以到18Mhz,.....另外有一句:W25X16支持标准的SPI,还支持双输出的SPI,最大SPI时钟可以到75Mhz(双输出时相当于150Mhz),...........想问下,SPI时钟最大
从我使用过程中,这个PCB板子倒个角,我在使用中不会轻易被刺到或割到,但是我在实际应用中遇到的板子好多都是四方的,但是都没有倒角,所以在这里想问一下大家:四方形的PCB板子
什么意思?第一个Kp修改后对电流有影响,貌似是衰减吧?其他的呢?好像改了都没什么反应。相关的手册只笼统的说是“ current loop turning ”的设置,而且还说是默认设置成“ 低负载” 模式,但本人技术有限,英文不懂,还是猜不出意思。
加速必须要用cuda,最重要的是只用GPUArray和gather函数,加速效果不知道如何,主要是有多个函数调用关系?哪位前辈能指导一下?
我在xenserver 6.2 SP1上的传递模式中有K2,我正在尝试确定我的应用程序如何强调
是基于网络的),但不清楚的部分是能够查看高清媒体(通过浏览器或媒体播放器)。 - 这种类型的使用需要
1之间的负载平衡。如果我在主机上打开2 K240q,则第一个VM被分配给
里都设计了用于全局变量寄存器,同时为了保持专利申请到位前的应用,保留了
大外寄存格局。。(55亿晶体管你们都干了什么?)现在专利申请到了,就一步位给15年以后
请问片内flash被统一地映射到程序和数据存储空间这是什么意思?在物理结构上
中的flash and otp memory章节中:"片内flash被统一地映射到程序和数据存储空间。"请问一下,这话
,其创新程度据说可以媲美 P20 Pro 和 Mate RS 的三摄。 这项技术
什么呢?就在今天上午,华为消费者 BG 总裁余承东在自己的微博上进行了「官宣」。 余
更像“专才”——图形类数值计算为核心。在不同类型的运算方面的速度也就决定了它们的能力——“擅长和
编程的项目,发现水还是很深的。不过还是有一些心得,准备稍微整理一下,留作后来人的参考。先放一张图:分别是CPU和
计算的效率对比具体内容,元旦后整理作为一个系列,也作为自己的一个纪念。
何方神圣,比起传统的无线通信技术又有哪些优势?主要应用在哪里呢?与NB-IoT有啥区别?
相关专业讲师短周期的培训,可周末,如您想挣点外块,积累资源,充实生活,请联系我。要求有二年以上实际项目经历,具有CUDA或OpenCL实际项目开发经验者优先,表达能力较好
是显卡的“心脏”,也就相当于CPU在电脑中的作用,它决定了该显卡的档次和大部分性能,同时也是2D显示卡和3D显示卡的区别依据。图形处理
的发展前景,AMD-ATI、NVIDIA现在的产品都支持OPEN CL.NVIDIA公司在1999年发布GeForce 256图形处理
什么?IO口具体设置成什么?(输出不接外部器件?输入不上拉?)我查了下百度都没说清楚,复制粘贴的就算了!!另外想问一下,LCD驱动时IO口是怎么输出3种
什么限制了电池的容量?”一句话的简单回答是:电池背后的化学限制了电池的能量密度。
|