行业前瞻
行业前瞻 当前位置:首页>行业前瞻

AI与自动驾驶打造GPU强力增长引擎

发布时间: 2024-01-15 09:43:50来源:光博会

数字经济建设框架下,AI与自动驾驶将贡献算力需求全新增量

数字经济建设、AI大模型、智能驾驶成为开启智能时代的确定性研究方向。其中,数字经济建设搭建数字化布局整体框架,并提供政策支持;AI大模型及智能驾驶率先落地,有望成为拉动算力需求的核心驱动力。 

GPU凭借高并发计算能力及灵活拓展性成为当下算力主流解决方案
首先,神经网络算法数据要求量大,并行计算程度高,与GPU高并行计算能力、高内存带宽相适配。GPU较CPU具备更多的算术逻辑单元、控制单元与内存缓存,其SIMD架构与深度学习算法需求更吻合;其次GPU拥有相对较优的性能及灵活性。常用的计算平台包括CPU、FPGA、GPU、DSA以及ASIC,一般情况下随着芯片性能的提升,其灵活性会逐渐下降。ASIC、DSA设计成本高、周期长,其灵活性难以满足应用层及宏架构趋势的需求,而GPU拥有包括CUDA、OpenCL在内的平台技术持续赋能,性能提升潜力大、应用拓展力强。 

边缘及终端设备有望开启AI智算元年,数据中心及车端持续拉升算力需求
GPU下游目前主要应用于移动端、数据中心服务器以及车规级芯片。其中,移动端应用又可以分为PC GPU、手机GPU,主要用于加速图形处理,以提高计算机游戏的图像质量及性能,随着深度学习及人工智能发展的需要,移动端GPU也可以用于手机端加速深度学习、计算机视觉和自然语言处理算法等;数据中心服务器又可以分为高性能计算服务器与智能计算服务器,由于GPU具有高并发的计算能力,因此被广泛的用于数据中心建设;在汽车领域,GPU主要应用于车端及其配套设施智能芯片,负责处理来自摄像头、普通雷达、激光雷达等传感器数据,实现智能驾驶。 

供给驱动市场,产品技术及产能是核心竞争力
英伟达市场份额独占鳌头,国际呈现三强格局,国内厂商加速布局。英伟达凭借技术及产能优势,在移动端、AI 服务器、自动驾驶领域具有较大话语权。我国厂商 GPU 市场份额较小,正处于技术追赶环节,目前国产 GPU 在数据中心、人工智能以及通用计算型 GPU领域均实现产品布局,未来随着国内数据中心、智能驾驶及终端侧GPU市场需求的提升,国产 GPU市场份额有望实现渗透。 

图片

PART.

01


数字经济、AI、智能驾驶视角下看算力需求 

1.1演变趋势:从通用计算到智能计算,从分散独立到云网边协同 

宏观角度下,数字经济建设及人工智能发展掀起了新一代算力革命,算力基建成为国家数字化转型和经济发展的重要竞争策略。从 1964 年戈登·摩尔提出著名的摩尔定律后, CPU 性能的发展便遵循这一规律,但目前数字经济与人工智能的高速发展,基于 CPU的摩尔定律已经失效,如何突破“算力墙”,满足新时代各种算力需求,成为各国主要的竞争焦点。 

图片

微观角度下,算力形式逐渐由通用计算过渡为高性能计算,从分散独立的端计算向云网边协同计算演变。当前,常见的高性能计算可以分为科学、工程计算与智能计算;算力资源服务可以分为云计算、混合计算及算力网络。 

1)科学、工程计算。这类计算主要利用超级计算机实现并行计算,是一种算法优化和硬件集群结合的计算模式。高性能计算由于具有较高的性能、效率及计算精度,可以广泛的用于大规模复杂科学计算,比如工程模拟仿真、航空航天、地震预测等,同时也能支持人工智能、智慧城市等新兴领域。 

2)智能计算。智能计算以智能芯片为计算算力底座,可以较好的满足 AI 领域模型训练所需的智能运算需求,因此用于支持专一的人工智能应用场景。基于智能计算搭建的人工智能计算中心,通过将各种交叉技术集成,广泛的应用于智能语音处理、机器视觉、自然语言(文本)处理等不用的领域。 

3)云计算、混合计算、算力网络属于新型算力资源服务模式。云计算通过 World Wide Web(万维网)向用户提供包括服务器、存储、数据库等在内的各项计算服务,因为万维网以网页为核心,因此云计算主要面向消费互联网;而算力网络主要以算法及算力协同为核心,通过协同联动云计算、边缘计算、端计算及通信网络,能够实现对复杂计算任务的分解及高效调度。 

图片

1.2战略地位:算力属于基础设施建设,是智能时代发展的物理承载 

整体架构层面,算法、算力及数据是实现人工智能的三要素,其中算力是构筑智能时代的物理基础。人工智能离不开算力、算法及数据,其发展需要在建立在庞大的数据集、优秀的深度学习算法及强大的计算能力基础之上,而算力作为底层基础设施,是开启智能时代的关键因素,其核心于智能芯片的技术进步。
 
图片

实际发展层面,全球数据量正以指数级速度增长,“算力荒”问题日益凸显。据 IDC 数据显示,2018 年至 2019 年全球大数据存储量分别为 33Z B、41 ZB,而 2020 年全球数据量达到了60 ZB,同比增长 46%;庞大的数据集必然依赖强大的数据处理能力,进而要求宏观算力快速发展,NTCysd 预计 2021-2028 年全球算力规模将以超过 40%的速度增长,2028 年将达到 7510 EFlops。 

图片

1.3应用驱动:数字经济搭建整体框架,AI大模型、智能驾驶持续拉升 

市场方面,数字经济建设、AI 大模型、智能驾驶成为开启智能时代的确定性研究方向。其中,数字经济建设搭建数字化布局整体框架,并提供政策支持;AI 大模型及智能驾驶率先落地,成为拉动算力需求的核心驱动力。 

1)全球正加快数字经济建设,算力发展成为主要战略竞争点之一。目前,全球正处于经济数字化转型阶段,据中国信通院发布的《全球数字经济白皮书》显示,数字经济已经成为各国发展 GDP 的核心战略,具体数据来看,2020 年全球 47 个国家数字经济增加值达到32.6 万亿美元,占 GDP 比重为 43.7%,同比名义增长 3%。此外,数字经济已经成为我国稳增长促转型的重要引擎,出台多项政策支持算力发展,截至 2022 年我国数字经济规模已达 50.2 亿元,数字基础设施规模能级大幅提升,在用数据中心算例总规模超180 EFlops,位居世界第二。 

2)AI 大模型的快速扩张是算力需求的关键驱动力。由于 AI 大模型通常需要在大规模无标注的数据集上进行重复的训练,因此相比于传统的小模型在应用场景上更具有普适性。但与此同时,数据集的快速增长以及模型不断迭代优化使得 AI 大模型尺寸快速膨胀,GPU 算力也遵循着同样的增长规律。据 OpenAI 数据显示,GPT-3 175B 相比于 GPT-3 Small,总计算力(Flops)及参数量增长了约 1400 倍;而据Semianalysis 最新分析指出,GPT-4 模型尺寸进一步扩张,在其 120 层模型中总共包含了 1.8 万亿参数,约GPT-3 175B 参数量的 10 倍。 

图片
图片

3)汽车智能化功能升级,智能驾驶将贡献算力需求的全新增量。汽车正逐渐步入智能化时代,传感器数量的增加及交互能力的提升,将带来数据的几何式增长,这必然要求车端拥有强大的数据分析和处理能力。据华经产业研究院预测,2025 年我国 L3、L5 级别智能驾驶渗透率将分别达到 14%、1%,到 2030 年两者将分别达到 40%、12%。而L3 级别及以上智能驾驶汽车,不仅需要处理人机交互等指令,还需要与外界环境、云数据中心进行交互。

据分析,L3、L5 级别智能驾驶算力需求将分别达到 30-60 TOPS、 100T OPS,未来随着智能驾驶汽车渗透率的提升,将会持续带动智能驾驶市场整体算力需求的增加,预计 2025、2030 年智能驾驶市场算力需求达到 1.9 万、19 万 TOPS, 2021-2025 CAGR 达 112%。 

图片
图片

1.4优化路径:提升芯片性能及创新存算架构是研究主流 

系统算力主要受处理器性能与数据传输能力影响,当数据处理能力与传输能力不匹配时,计算能力由两者中较低者决定。处理性能主要与指令复杂程度、频率、并行度有关,一般来说,指令越复杂、计算频率越高、并行程度越大,处理器性能就越好;而数据传输的能力与处理器内部存算架构有关,在计算机体系里,根据访问延迟及容量大小将存储结构分为寄存器、缓存、内存、外存与远程存储,而这种存算分离的架构形式,通常使得数据传输成为限制系统算力的因素。 

图片

1)指令的复杂程度。指令系统是连接计算机软件和硬件的桥梁,一般来说,指令的复杂程度于处理器运算性能有关,指令越复杂,其性能就越好。典型的处理器平台大致可以分为CPU、协处理器、GPU、FPGA、DSA、ASIC,其中 CPU 为通用软件平台,支持包括整形计算类、浮点类、数据传输类、控制类等在内的通用指令,而其余处理器为硬件加速平台,用于执行各类复杂指令。 

2)计算频率。一般来说,处理器计算的速度于频率呈现正相关关系,计算频率越高,速度越快。以CPU 为例,执行一条指令需要依次经过取址、译码、地址生成、取操作数、执行、写回阶段,每个阶段需要消耗一个时钟周期,上个阶段执行完毕后才会进入到下个阶段。在此基础上,时钟周期的设定便取决于各阶段用时最大者,而提高时钟频率大致有两种方法:一是通过超流水线架构提高处理器主频,通过增加多级流水从而细化每个阶段;一是通过优化工艺技术降低各阶段逻辑门处理延迟。 

3)并行度。并行度是指在计算机体系中,指令并行执行的最大数目,并行度越大,意味着系统能够同时处理更多指令,其运算速度越快。常用的并行设计包括指令并行、处理器核并行、芯片级并行及服务器并行。 

4)数据传输能力。数据传输能力并不直接影响处理器性能,但复杂的存储分层结构会使得系统功耗、延迟及访问宽带增加,从而限制算力的提升。优秀的计算系统应使得处理器性能与数据传输能力尽可能匹配,以减少“木桶效应”对于算力的限制。目前,数据传输能力的优化方向主要包括近存计算及存算一体化架构。 


PART.
02
算力需求视角下看GPU发展的必然趋势 

2.1性能:GPU技术发展迅速,高并发计算能力契合算力需求 

1)横向比较,GPU 较CPU 而言,更符合深度学习算法的高度并行计算需求。

一方面,CPU 性能提升已达到瓶颈,与高速增长的算力需求脱节。CPU 作为第一代高效计算平台,目前无论从不管是从架构/微架构设计、工艺、多核并行等各种角度出发,其性能都难以提升,2016 年之后,CPU 性能每年提升仅 3.5%。随着数字经济、AI 大模型、智能驾驶等算力需求的推动,CPU 性能已无法满足上层软件算力需求。 

另一方面,GPU 较CPU 具备更多的算术逻辑单元、控制单元与内存缓存,其SIMD 架构与深度学习算法需求更吻合。CPU 为线程级并行的 MIMD 架构,其核心少但性能强,可以用来处理复杂的控制逻辑、预测分支、乱序执行、多级流水等,而 GPU 为数据级并行的 SIMD 架构,其核心多但性能弱,用于优化具有简单控制逻辑的数据并行任务。 

而神经网络算法数据要求量大,并行计算程度高,与 GPU 高并行计算能力、高内存带宽相适配。神经网络的训练环节需要处理大量的数据,并且其结构非常统一,每一层成千上万个相同的人工神经元都在执行相同的计算操作,具有高效并行计算能力与内存带宽的 GPU,不仅能够更快的完成数据的读取与写入,还能实行多条指令并行计算。 

图片

2)纵向比较,GPU 架构技术仍在演进,其高性能计算与智能计算能力不断优化

GPU 最早作为显卡的核心零部件,专用于图形渲染及处理。GPU(Graphic Processing Unit),即图形处理单元,英伟达公司在 1999 年发布 GeForce 256 图形处理芯片时首先提出GPU 的概念,GeForce 256 作为专门负责计算机图形显示的计算机零部件,通过 T&L 及其他多项技术引擎,减少了显卡对于 CPU 的依赖。GPU 组成中通常包含一个显存、一个主频、一个 VRAM、一个显存速率以及一个显存位宽。

图片

GPU 架构迭代频繁,已从从专用图形处理器发展为高效的通用计算平台,向外拓展人工智能计算及高性能计算领域。当 GPU 引入可编程特性,将图形硬件的流水线作为流处理器来解释,基于GPU 的通用计算也开始出现,即 GPGPU。 

英伟达产品在 2008-2022 年内,架构迭代调整了 8 次,其在 2010 年推出具有完整 GPU架构的 Fermi,在 2017 年 Volta 架构中首次推出 Tensor 内核以支持深度学习算法,而目前 Hopper 架构的 GPU 已广泛的应用于 AI 大模型训练与推理环节。 

英伟达Tensor 核心持续升级,智能计算及高性能计算能力得到不断优化,已成为AI 模型推理的关键张量核心。英伟达 Tensor 核心最初在 Volta 架构上推出,在后续推出的Turing、Ampere、Hopper 上不断优化,Tensor 核心能够加速矩阵运算,大幅增加浮点计算吞吐量。具体来看,拥有 Tensor 核心的 V100 相比于 P100 其混合精度运算速度提高了9 倍,而英伟达推出的第四代Tensor 核心其FP8 性能较Ampere FP6 提高16 倍,而在 AI 大型语言模型推理方面,性能比 Ampere 高出 30 倍。 

图片

2.2灵活性:GPU可编程优势明显,通用灵活性适配AI应用端拓展 

GPU 拥有相对较优的性能及灵活性。常用的计算平台包括 CPU、FPGA、GPU、DSA以及 ASIC,一般情况下随着芯片性能的提升,其灵活性会逐渐下降。CPU 为软件加速平台,通过标准化的指令集使得 CPU 平台的硬件实现与软件编程完全解耦,灵活性最高;ASIC 为专用集成电路,是一种为专门目的而设计的集成电路,不支持硬件编程,灵活性最差。

图片

1)ASIC、DSA 设计成本高、周期长,其灵活性难以满足应用层及宏架构趋势的需求。DSA 与ASIC 属于专用领域定制类型芯片,其中 ASIC 属于完全定制性化芯片,其晶体管根据算法定制,流片量产后算法便不可编辑;DSA 在 ASIC 基础上回调,保留一定编程能力,但其功能覆盖的领域成具有较大的局限性。ASIC 与 DSA 的通用性是限制其应用的关键因素。 

首先,通用性限制了 ASIC 与 DSA 的应用领域,与芯片高企的研发成本相矛盾。据估计,5nm 制程的芯片研发成本已经超 5 亿美元,高企的研发成本需要具有充分量产能力芯片来摊薄,而 ASIC 与 DSA 芯片均为面向特定领域专用芯片,不同领域则面临重新设计的问题,尤其是在 AI 应用领域,ASIC 与 DSA 的研发周期和成本并不能满足其 AI应用及算法迭代优化的速度。

图片

其次,专用性使得 ASIC 与 DSA 芯片与算力融合的宏架构趋势相矛盾。数字经济的建设需用云、网、边各部分资源协同融合,从而组成庞大的算力网络,然而不同计算引擎、平台、设备以及数据中心的芯片应用场景具有较大的差异,这使得 DSA、ASIC 芯片难以成为数字经济时代的整体解决方案。 

图片

2)CUDA、OpenCL 技术持续为GPU 赋能,GPU 性能提升潜力大、应用拓展力强。一方面,CUDA 生态为 GPU 提供各种数据接口(API)、算法库与工具、跨平台支持以及大规模集群计算支持,CUDA 使得开发人员能够使用流行的编程语言对英伟达 GPU进行编程,同时还集成包括 TensorFlow、PyTorch 和 MXNet 在内的所有深度学习框架;另一方面,随着深度学习算法和模型的收敛,GPU 可以通过对算法进行手工优化实现资源的高效调度,充分释放出硬件的性能,每一代 CUDA 升级都会带来约 10-20%的性能提升。

图片


PART.
03

GPU市场:供给推动市场,技术及产能是核心驱动力 

3.1需求端:移动端兜底,自动驾驶及数据中心建设贡献增量 

GPU 下游目前主要应用于移动端、数据中心服务器以及车规级芯片。其中,移动端应用又可以分为PC GPU、手机 GPU,主要用于加速图形处理,以提高计算机游戏的图像质量及性能,目前随着深度学习及人工智能的发展,移动端 GPU 也可以用于加速深度学习、计算机视觉和自然语言处理等人工智能应用;数据中心服务器又可以分为高性能计算服务器与智能计算服务器,由于 GPU 具有高并发的计算能力,因此被广泛的用于数据中心建设;在汽车领域,GPU 主要应用于车端及其配套设施智能芯片,负责处理来自摄像头、普通雷达、激光雷达等传感器数据,实现智能驾驶。 

图片

1)自动驾驶贡献GPU 全新增量,蓝海广阔。车载芯片的架构模式经历分布式架构向混合式架构转变,未来将向中心计算架构演进。计算架构将随着自动驾驶升级进行优化,不同的计算架构,对于车载芯片的要求具有差异。分布式架构计算需求小,仅通过 CPU控制;混合式架构为实现部分自动驾驶功能将引入 GPU 来辅助计算;而中央计算架构中,汽车端计算将升级为更加通用的计算平台,进而保证了整车架构的稳定性和功能的扩展性。 

图片

分布式计算架构中,每个 ECU 负责特定的功能如灯光控制、门控制、车轮控制等等,随着汽车功能的增多,分布式架构需要配置更多的 ECU 及线束,将会使得汽车内部架构复杂,不利于汽车架构及功能扩展。 

混合式计算架构减少了 ECU 数量,根据汽车各部分功能进行划分,如博世将汽车控制分五个功能域(动力域、底盘域、车身域、座舱域、自动驾驶域),每个功能域设置域控制器,再通过以太网和 CANFD 相连。不同功能域所需算力不同,座舱域及自动驾驶域由于要满足人机交互、机器视觉等需求,其算力要求较高,通常通过 DPU (CPU+GPU+FPGA)架构来满足算力需求。 

中央计算架构或汽车云计算架构,将功能域深度融合,升级为更加通用的计算平台,将显著增加车端的计算需求。在这种架构中,区域控制器平台相当于局部中央计算平台,与混合式架构区域控制器的不同在于,中央计算架构中的区域控制器需要独自处理局部区域传感器、执行器、ECU 等部件传回的数据,而混合式架构中的区域控制器需将这部分数据传输至中央计算平台处理;同时还需承担控制和协调本区域执行单元及网络协议转换的责任。 

图片

国内外厂商车载芯片多数采用含GPU 架构,随着智能驾驶升级,有望拉升车端 GPU 需求。智能驾驶时代,车端芯片承载的功能增加,不仅需要处理各环节传感器收集的环境数据、地图定位数据、V2X 信息通信数据,还需要通过各种智能算法规划最佳决策,同时控制执行单元。

随着 AI 技术的进步,基于深度学习算法的智能驾驶方案成为汽车制造商的布局重点。目前国内芯片制造厂商普遍采用 GPU 加速深度学习算法,例如英伟达 ORIN 采用 CPU+GPU+ACCEL 架构,其算力由 GPU 及 DLA 提供。根据测算,预计2023 年全球自动驾驶领域 GPU 市场空间将达到24 亿美元。 

图片

2)受益于数字经济及人工智能,数据中心市场 GPU 加速放量。高性能计算中心及智算中心建设属于数字经济建设重要的一环,二者的建设将带动GPU 市场增长。据Hyperion研究显示,2025 年全球高性能计算市场规模将达到 199 亿美元,2022-2025 年 CAGR约为 5.5%,此外,根据超算 top500 统计,全球前 500 超级计算机中 56%算力由 GPU提供,GPU 需求将随着高性能计算市场增长同步提升,预计2023 年全球高性能计算中心GUP 市场空间约为21 亿美元。 

图片

不同于高性能计算中心,智算中心是利是用先进的人工智能算法和芯片进行智能算法模型训练和推理。总量方面,根据 IDC 及中商情报网数据预测,2023 年全球 AI 服务器市场规模将达到211 亿美元,同比增长 15%,而据 Aletheia Capital 最新报告分析,2025年 AI 服务器市场规模将激增至 1350 亿美元,2023-2025 CAGR 高达 152%;价值方面,由于智能算法具有计算难度小、计算量大等特点,对于计算任务的高并发能力及吞吐量要求较高,因此对于 GPU 的需求更大,据统计,机器学习型 AI 服务器中,GPU 成本占比约为 72.8%。未来,随着智算中心建设有序推进,GPU 有望迎来量价齐升,预计2023 年AI 服务器领域 GUP 市场空间约为187.8 亿美元。 

图片

3.2供给端:英伟达独占鳌头,国内技术追赶空间广阔 
英伟达市场份额独占鳌头,国际呈现三强格局,国内厂商加速布局。英伟达凭借技术及产能优势,在移动端、AI 服务器、自动驾驶领域具有较大话语权。国际市场方面,根据Jon Peddie Research 调查数据显示,2023 年第一季度,全球桌面级显卡销量约为 630万块,其中英伟达显卡销量约为 529 万张,以 84%的市场份额占据领先地位,此外销量位居前三的 GUP 供应商还包括 AMD 及 Intel,其销量分别为 76 万张、25 万张;国内市场方面,我国厂商 GPU 市场份额较小,正处于技术追赶及国产替代环节,目前国产 GPU 在数据中心、人工智能以及通用计算型 GPU 领域均实现产品布局,未来随着国内数据中心、智能驾驶及终端侧 GPU 市场需求的提升,国产 GPU 市场份额有望实现渗透。 

图片

1)智能驾驶。

产品及技术方面,英伟达Thor 芯片领先市场,同时搭建完整的自动驾驶生态网络。英伟达于 2022 年 9 月宣布其车规级超级芯片 Thor,Thor 基于英伟达最新 CPU 与 GPU打造,可提供每秒 2000 万亿次浮点运算性能,相比于前序产品 Orin,性能提升 8 倍。此外,英伟达围绕自动驾驶搭建完整的合作网络与生态,通过包括自动驾驶汽车、卡车、出租车、Tier1 供应商、仿真测试、传感器、软件、地图在内的合作网络,以及从原始数据采集到验证的自动驾驶技术、数据中心硬件、软件及工作流在内的生态环境,全方位加固自动驾驶领域护城河。 

图片

目前,国内大多数智能驾驶车型选用英伟达产品,地平线与华为自研市场份额正在逐步扩大。国内蔚来、小鹏、理想等造车新势力车型普遍选用英伟达 ORIN 产品,比如,在理想的入门级车型中搭载的智能驾驶芯片为地平线征程 5,而在其高配置 Max车型中则搭载英伟达ORIN 芯片,除此之外华为在自动驾驶领域同样具有布局,华为提供自动驾驶的全栈解决方案,其发布的昇腾 610、MDC810 已经量产,MDC610 平台,单组算力为200TOPS,与英伟达 ORIN 产品差距较小。 

图片图片

盈利能力及产能方面,英伟达智能驾驶业务2024 财年2 季度营收较一季度出现下滑,但同比增加15%,总营收达 2.53 亿美元。市场结构上,2023 年度 H1 中国市场乘用车自动驾驶计算方案市场份额中,英伟达仍以 52.57%的份额占据第一,地平线以30.71%的市场份额占据第二,华为海思则占据 4.05%的市场份额。 

图片

2)数据中心市场。英伟达凭借 GUP 硬件实力以及数据中心强大产品矩阵,占据市场领导地位。GPU 硬件产品方面,英伟达高性能计算 GPU 经历数十代产品迭代升级,其技术指标全面升级,公司于 2022 年发行的 H100 芯片,采用台积电 4N 工艺,集成最高可达 18432 个单精度和 9216 个双精度的 CUDA 核心以及 576 个第四代 Tensor 核心,为高性能计算及AI 研究提供强大的支持,在算力上,H100 的 FP16、TF32 以及 FP64性能达到了其上一代产品 A100 的 3 倍,分别为 2000 TFLOPS、1000 TFLOPS 和 60 TFLOPS。

图片

此外,英伟达还在软件及技术产品方面提供支持,通过其丰富的产品矩阵搭建数据中心一站式解决方案。未来,随着 AI 及高性能计算市场计算需求的不断增长,GPU 之间以及数据中心之间的通信传输需求也在增加,而英伟达 NVLink 技术可为 GPU 系统配置高更的宽带及增强的可扩展能力,NVLink Switch 系统基于 NVLink 的高级通信能力构建,可为计算密集型工作负载提供更高带宽和更低延迟,从而显著增强服务器内及服务器之间GPU 通信能力。 

图片

国产厂商在高性能计算 GPU 布局者较多,产品性能逐渐向英伟达靠拢。以英伟达最新发布的数据中心 GPU 为参考,H100 SXM 采用台积电 4N 工艺,其单精度浮点算力已达到 67 TFLOPS,整型算力已达到 3958 TOPS,相比英伟达前序产品 A100,H100 的AI 推理性能及 HPC 性能分别提升 30 倍与 7 倍;而目前国内算力较高的产品为壁仞科技推出的BR100P,采用台积电7nm 工艺,峰值状态下单精度浮点算力达240 TFLOPS,整型算力达1920 TOPS,BR100 芯片性能相比于英伟达 A100 性能提升 3 倍以上,向H100 产品靠拢。 

图片图片

盈利能力及产能方面,数据中心业务营收已超游戏业务,成为英伟达最高收入来源,但其产能受限于台积电工艺,短期供需缺口较大。据英伟达 2024 财年 Q2 报告,其数据中心营收已达到 103.2 亿美元,同比增长 171%,约占总营收比例为 76%;产能方面,英伟达 H100 均由台积电代工,其产能受到台积电工艺限制,据英伟达预计,H100 芯片 2023 年全年全球范围出货量约为 55 万颗,但据 GPU Utils 数据统计,保守估计情况下,H100 的供给缺口将达到 43 万颗。壁仞科技 BR100P 系列芯片同样由台积电代工,预计于2023 年量产,若量产计划顺利推进,国产替代有望渗透。 

图片

3.3 GPU产业链概况及国内重点公司介绍 

GPU 产业链上中下游分别为芯片设计、芯片制造及芯片封装与测试。产业链上游,GPU设计基本以英伟达、超微半导体、英特尔三强垄断,中下游台积电凭借先进的 4nm、7nm工艺及CoWoS 封装技术产能领先,三星电子、格罗方德半导体、英特尔产能落后,且在产品工艺上与台积电相比优势不大,此外,在封装测试环节,国内厂商长电科技、通富微电及赛微电子等具有布局。2022 年全球前十大封测企业中,长电科技以 10.7%的市场份额位居第三,通富微电以 6.5%的市场份额位居第四。 

图片

国内在GPU 具有布局的公司基本处于产业链上游。重点公司中,景嘉微、凌久电子、中微电等少数企业拥有完全自主知识产权,从 GPU IP 核、计算架构、算法模型、原理验证、硬件实现、驱动开发等环节正向设计,从而保证 GPU 升级迭代自主可控;其他厂商则通过IP 授权与自主研发相结合的方式开发产品,部分产品在性能上已与国际接轨。 

图片图片

景嘉微:立足军工显控领域,顺势切入民用领域。公司成立于 2006 年,产品主要涉及图形显控领域、小型专用化雷达领域及芯片领域。公司是国内为数不多开发出具有完全自主知识产权GPU 产品的上市企业,并且在 JM5400 GPU 的基础上,不断研发更为先进且适用更为广泛的产品,产品布局从机载领域向其他领域延申。 

公司通过增发布局通用计算 GPU 市场,有望受益民用市场需求扩量。公司 7 月发布定向增发说明书,募集资金将用于高性能通用 GPU 芯片研发项目,未来随着车载、船舶显控、通用市场显控需求的提升,公司未来有望实现军用与民用双向扩容。 

海光信息:公司产品研发进展顺利,备战服务器广阔市场。公司目前经营的主要产品为CPU 及 DCU,其中 DCU 即海光协处理器为公司面向大数据处理、人工智能、商业计算推出的 GPGPU 产品,DCU 系列产品深算一号为公司 GPGPU 主要在售产品,其他产品中,深算二号发布已提上日程,深算三号研发进展顺利。 

公司产品国内领先,已适配主要 AI 大模型。公司 DCU 产品目前已经能够支持大模型训练,实现LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用,与国内包括文心一言等大模型全面适配,达到国内领先水平,随着信创领域回暖及 AI 应用落地,公司业绩有望保持高增长。2018 至 2022 年,公司营收保持高速增长, 2018 至 2022 CAGR 达 221%,2023 年上半年,公司营收增速回落,最终实现营收26.12 亿元,同增 3%,归母净利维持高增速,最终实现 6.77 亿元,同增 42%。


上一篇:人工智能热潮涌动,带动高速光互联快速发展

下一篇:强圈建链、赋能提质,深光协携会员企业赴成都考察