国产GPU添新玩家,两款业界第 一7nm芯片曾由他打造

 行业新闻     |      2022-09-07 10:44

他在现场只是播放了一张的演讲内容。

竟引得众人不约而同,纷纷高举手机摄影,会场更是掌声不停

他叫钱军,许多人熟知这个名字,是由于他曾在AMD担任高管一职长达近10年时间。

在此时代,钱军还率领团队设计量产了两个业界第 一

第 一颗7nm图形处置器

第 一颗7nm GPGPU架构的AI芯片

而适才现场之以是会有那般回响,正是由于钱军在2018年所确立的瀚博半导体,搞了一个“大动作”——

预览了国产7nm云端GPU芯片,SG100

据领会,SG100是集渲染、AI和视频于一体的全功效GPU,在吞吐、延时等性能中具备*水平。

至于它所要发力的领域,正是云游戏、云手机、云桌面、云盘算等元宇宙要害性应用场景。

例如在现场,钱军便演示了在SG100加持下视频渲染的效果对比:

不难看出,在色彩、帧率、细节、光照等方面,都是要优于世面主流GPU芯片。

而且随着SG100的预览,也就意味着国产GPU玩家队伍,又正式添加一位新成员。

但纵观整场宣布会,“业界*”、“性能数倍”等标签显得格外醒目。

之前以“拥有18年以上高端芯片设计和量产履历”先声夺人的瀚博半导体,再次来到聚光灯下。

顺应多样化盘算需求:芯片、盘算架构、软件平台

在钱军看来,芯片及其衍生的产物,从来不是“单打独斗”的存在。

相反,他以为芯片性能的壮大,应当是源自底层盘算架构

为此,瀚博半导体在现场率先亮出的即是自研的统一盘算架构——VUCA(Vastai Unified Compute Architecture)。钱军示意:

我们用了中台的看法。焦点的IP就类似中台,然后上层有统一的开发平台。可以凭证产物和设计和偏重点,设计和推出更相符市场需求的产物。

而这张全景图,可以说是贯串了瀚博半导体的多项焦点手艺。

例如架构的底层整合了多款高性能盘算引擎,包罗高性能AI引擎、可编程的矢量盘算引擎,另有硬件化视频解码、具备渲染能力的显示焦点等。

在这些盘算引擎之上,拥有一个高效统一的存储治理、一致性的接口和低延迟的链接

之以是云云设计,是由于芯片及其产物单单有算力是不够的,接口、数据等因素依旧会成为制约算力效能的羁绊。

除此之外,要想让算力资源效能更大化,它还需要被池化、在云端被集中;因此,瀚博半导体的统一盘算架构还设置了完整的虚拟化功效

而配合的统一的底层软件设计、模块化的上层盘算算子库和功效模块,则会让芯片及产物在面临差异客户的需求时,变得加倍天真。

整体而言:

瀚博统一架构让盘算麋集型的AI、视频、渲染义务性能获得*化硬件加速,同时端到端缩小延时,一体化助力云端实时图形渲染、AI增强处置、视频编解码等需求。

也正是基于这样的统一架构,钱军在现场宣布了瀚博半导体的更多新品。

数据中央推理加速卡——载天VA10

载天VA10是一款用于数据中央的高性能AI盘算、推理的加速卡。

从性能角度来看,载天VA10所拥有的*亮点,在于INT8峰值算力达400TOPS

这一数值便一举刷新业界纪录。

但若是仅依附算力峰值来判断加速卡的强弱,那照样有一些片面,需要的更多的综合性对照。

好比要思量“算力密度”,算力密度可以从两个维度来讲。

*是按芯片单元面积将算力平均下来,好比一平方毫米芯片的算力若何。另外一个,是每单元瓦的算力,也即每瓦功耗能够提供多大的算力。

例如载天VA10的设计功耗为150W,而在一致条件之下:

*吞吐率是主流GPU的2倍以上

*性能延时是主流GPU的6%

不仅云云,在低延时场景(低于4毫秒的YoloV3检测算刑场景)下,载天VA10的推理性能,更到达同功耗市场主流GPU的3倍以上。

也正是得益于载天VA10的云云性能,它便异常适合“上岗”一些需要高实时性的云端AI场景,例如直播视频增强、智慧交通治理、实时语义明白等。

以智能ROI优化为例,载天VA10的效果。

不难看出,无论是实时处置效率,亦或是色彩增强效果,载天VA10都是肉眼可见的更胜一筹。

边缘AI推理加速卡——载天VE1

除了数据中央端,瀚博半导体聚焦在边缘端同样宣布了新品,载天VE1

差异于载天VA10,载天VE1更偏重的发力点,是在那些大算力的需求场景。

例如车路协同、低速自动驾驶(无人配送车、口岸物流园区无人驾驶的车辆)等。

而载天VE1之以是能够“胜任”于这些场景,照样得益于它自身的性能:

在 40~65瓦功耗下,INT8峰值算力达100TOPS

吞吐率到达主流GPU的2倍,但延时不到主流GPU的5%

软件平台VastStream

但也诚如适才所言,硬件性能上的“单打独斗”并不能将其功力全程施展出来。

因此,瀚博半导体对此的破解之道,即是“软硬一体”——VastStream

据领会,VastStream软件平台,可以加速各种AI应用的部署。

例如盘算机视觉、视频处置、自然语言处置、搜索与推荐、算子自界说扩展等。

而其全新软件组件,还提供了系统治理等三大治理工具,利便客户部署。

与此同时,VastStream的基础软件栈功效也变得加倍厚实。

主要特征包罗统一接口、天真调剂、通用AI盘算、多路高效视频转码 AI增强、易编程快迁徙、工具链完整等。

至此,不难看出瀚博半导体已经泛起一条清晰可见的营业线:

芯片、推理加速卡、一体机的硬件产物,再到软件整合的系统解决方案。

那么对于这位新晋的“GPU玩家”来说,现在也到了回覆这个问题的时刻:

瀚博要走怎样的一条“GPU之路”?

对于这个问题,钱军其着实现场已经给出了谜底:

我们致力于做全球*的综合算力平台

而这次预览的GPU,可以说仅是瀚博半导体完整拼图中的主要一块。

这一点,从瀚博半导体的生长路径中便可以领会一二。

钱军在确立瀚博半导体之初,虽然有着数十年深耕GPU的团队,但他们却没有直接切入到造GPU的赛道。

选择的切入点反倒是“AI 视频”,而且这其中的AI更多的是在推理应用侧。

之以是云云,是由于钱军以为视频就像一枚硬币,有着2个维度。

对于已经发生的视频,是一个盘算机处置的问题,包罗增强、剖析等等。

而对于还未泛起的视频,那就是一个像素生产的问题,包罗渲染等事情。

虽然此前瀚博半导体从未官宣过类似SG100这样的GPU的新闻,但与GPU相关的能力实在已经是嵌套在了此前的产物中,只是并未对外宣传。

此举背后的逻辑,就是让产物先用起来,然后再打造一颗自力的高性能GPU。

加之已有的推理卡、软硬件等,便可把“综合算力平台”的拼图拼完整了。

然而把“国产GPU”这条线铺开来看,在瀚博半导体之前,已然是一副势头凶猛的态势。

那么在这样的大环境之下,瀚博半导体正式进入“国产GPU玩家”之列,其所持的杀手锏又将是什么?

对此,钱军示意:

主要的不是只有一个芯片、一个“硬疙瘩”;更主要的是一个软件的生态互助的生态

唯有做到高性能、低成本,然后用起来才是硬原理。

One More Thing

瀚博半导体此次正式步入GPU市场,一个异常醒目的标签,即是团队拥有在AMD数年的造芯履历。

而在2020年确立的摩尔线程,其首创人也曾在GPU巨头英伟达任职长达15年。

两个GPU巨头之间耐久的“对垒”,已然是人尽皆知的事情。

但现在,从英伟达和AMD出走的人,在国产GPU这条蹊径上再度“交锋”。

嗯,有点意思。