投资 >

今日热议:为AI大模型训练“修路”:腾讯云首发H800 GPU,集群算力提升三倍

2023-04-14 15:44:46   来源:21世纪经济报道

21世纪经济报道记者白杨 北京报道

4月14日,腾讯云正式发布新一代HCC(High-Performance Computing Cluster)高性能计算集群。据悉,该集群采用腾讯云星星海自研服务器,搭载英伟达最新代次H800 GPU,服务器之间采用3.2T超高互联带宽,可为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。

腾讯云的实测数据显示,新一代集群的算力性能较前代提升高达3倍,是目前国内性能最强的大模型计算集群。去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练,当时的训练时间为11天,如果基于新一代集群,训练时间将缩短至4天。


【资料图】

在AI大模型火热的当下,算力也成为业界关注的重点。这是因为在大模型的训练过程中,算力、算法和数据缺一不可。随着围绕AI大模型的全球军备竞赛打响,业界对算力的需求也更加旺盛。

去年,有研究机构预估,未来对一个大模型训练所需的算力,可能每三、四个月就需要翻一番,这意味着一年就要增加10倍。而今年在ChatGPT的推动下,算力的增长也将进一步提速。

腾讯云异构计算产品总监宋丹丹此前接受21世纪经济报道记者采访时表示,大模型对算力的要求分为训练和推理两个阶段。其中,训练需要短时间内并行算力非常全且非常大,并且要在短时间内能够交付,所以对算力的量级、算力的稳定性弹性扩容能力都有较高的要求。

现阶段,AI大模型正处于训练需求的爆发期,大家都需要海量的可扩缩容的高性能算力,而且这些算力需要稳定交付和计算。所以对云厂商来说,目前正迎来一个全新的市场机遇。

首发H800 

过去几年,算力其实也在因需而变,以往的计算已经变成了智算。所谓智算,也称异构计算,是用不同制程架构、不同指令集、不同功能的硬件组合起来解决问题的计算架构。例如,相对于只用CPU的通用计算,在服务器里使用CPU+GPU就是异构计算。

智算背后的逻辑,是让最适合的专用硬件去做最适合的事。GPU在并行计算任务为主的AI训练/推理和图形图像处理等专用场景上,比传统CPU效率更高且延迟更低。

腾讯云此次发布的HCC,也是利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能提升至最强。除此之外,腾讯云新一代HCC备受关注的原因,是它在国内首发了英伟达H800 GPU。

资料显示,H800是英伟达新代次处理器,基于Hopper架构,对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800相比,H800的性能提升了3倍,在显存带宽上也有明显的提高,达到3 TB/s。

虽然论性能,H800并不是最强的,但由于美国的限制,性能更强的H100无法供应给中国市场。有业内人士表示,H800相较H100,主要是在传输速率上有所差异,与上一代的A100相比,H800在传输速率上仍略低一些,但是在算力方面,H800是A100的三倍。

先进芯片不等于先进算力

芯片受限,固然是个卡脖子难题,也需要投入更多力量去解决。但从AI大模型训练的角度,近日多位AI行业人士在接受记者采访时均提出,算力的提升不是单纯堆卡,而是存在“木桶效应”,计算、存储、网络一旦出现瓶颈就会导致运算速度严重下降。光增加GPU卡或计算节点,但网络时延没降低,并不能线性地提升算力收益。

所以,用上了先进芯片并不代表就拥有了先进算力。以算力对网络的要求为例,目前GPU并行是大模型训练的必备技术,不同于传统并行以加快计算速度为目的,大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张GPU卡中,并保持不同GPU卡之间有效的通信,整体配合完成大模型的训练部署。

即使是目前业界已有的GPU分布式训练方案,也严重依赖于服务器之间的通信、拓扑、模型并行、流水并行等底层问题的解决情况。如果只有分布式训练框架,甚至都无法正常启动训练过程。这也是为什么当时GPT-3已发布一年,却只有少数企业可以复现GPT-3。

先进算力的背后,是先进芯片、先进网络、先进存储等一系列的支撑,缺一不可。比如在网络层面,模型参数量越大,对带宽的需求就越高。相比单点GPU故障只影响集群算力的千分之几,一条链路的负载不均导致网络堵塞,就会成为木桶短板,影响到数十个甚至更多GPU的连通性。在这种情况下,其他链路即使畅通无阻,通信时间仍然会大幅度增长,进而直接影响训练效率。

此外,集群训练也会引入额外的通信开销,导致N个GPU算力达不到单个GPU算力的 N 倍。业界开源的GPU集合通信库(比如NCCL),也不能将网络的通信性能发挥到极致。

优化计算集群弥补芯片短板

正因算力的“木桶效应”,也给了云厂商可施展的舞台。通过对单机算力、网络架构和存储性能进行协同优化,提高算力效率,云厂商的高性能计算集群是能够弥补芯片一部分传输损耗的。

腾讯云此次发布的新一代HCC,在网络层面,利用自研的星脉网络为新一代集群带来了3.2T超高通信带宽。实测结果显示,搭载同样的GPU,3.2T星脉网络相较1.6T网络,能让集群整体算力提升20%。

存储层面,训练场景下,几千台计算节点会同时读取一批数据集,需要尽可能缩短数据集的加载时长。腾讯云的新一代集群,引入了自研的文件存储、对象存储架构,具备TB级吞吐能力和千万级IOPS,可支持不同场景下对存储的需求。

底层架构之上,针对大模型训练场景,新一代集群集成了腾讯云自研的TACO Train训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。

另外值得关注的是,腾讯多款自研芯片也已经量产。其中,用于AI推理的紫霄芯片、用于视频转码的沧海芯片已在腾讯内部交付使用。据腾讯云披露,紫霄目前已经在腾讯头部业务规模部署,可提供高达3倍的计算加速性能和超过45%的整体成本节省。

数据显示,腾讯云目前的分布式云原生调度总规模超过1.5亿核,并提供16 EFLOPS(每秒1600亿亿次浮点运算)的智算算力。对于近半年突然火热的AI大模型,宋丹丹表示,市场环境的变化没有打乱腾讯云的产品规划,但确实是让产品节奏提前了,因为AI业务和计算算力是相互促进的,AI技术迭代对算力提出更高的要求,那我们也会有更高的动力去让算力产品更快演进。

标签:

相关阅读

今日热议:为AI大模型训练“修路”:腾讯云

投资

4月14日,腾讯云正式发布新一代HCC(High-PerformanceComputingCluster)高性能计算集群。据悉,该集群采用腾讯云星星海自研服务器,搭载英伟

2023-04-14

天天快资讯:三部门:到2025年,铸造和锻压

投资

工业和信息化部、国家发展和改革委员会、生态环境部发布关于推动铸造和锻压行业高质量发展的指导意见,到2025年,铸造和锻压行业总体水平进一

2023-04-14

焦点讯息:沪苏浙皖四省启动新一轮长三角文

投资

持续推进以社保卡为载体的长三角居民服务“一卡通”在旅游观光、文化体验方面实现“同城待遇”。深化文化和旅游公共服务数字化平台的互联互通

2023-04-14

全球热门:财报金选|燕京U8成“大杀器”!燕

投资

净利预增超70倍,打响“开门红”的第一炮。投资者直呼:业绩大爆发!丰富高端产品矩阵,燕京U8销量提升为利润提升提供重要支撑。

2023-04-14

【时快讯】香港科创及工业局:对ChatGPT未

投资

智通财经APP获悉,4月14日,香港创新科技及工业局局长孙东出席数字经济峰会2023金融科技论坛与媒体交流。孙东表示,从香港方面来说,由于OpenA

2023-04-14

今日热议:为AI大模型训练“修路”:腾讯云首发H800 GPU,集群算力提升三倍

投资

4月14日,腾讯云正式发布新一代HCC(High-PerformanceComputingCluster)高性能计算集群。据悉,该集群采用腾讯云星星海自研服务器,搭载英伟

2023-04-14

天天快资讯:三部门:到2025年,铸造和锻压行业总体水平进一步提高

投资

工业和信息化部、国家发展和改革委员会、生态环境部发布关于推动铸造和锻压行业高质量发展的指导意见,到2025年,铸造和锻压行业总体水平进一

2023-04-14

焦点讯息:沪苏浙皖四省启动新一轮长三角文旅一体化高质量发展重点任务

投资

持续推进以社保卡为载体的长三角居民服务“一卡通”在旅游观光、文化体验方面实现“同城待遇”。深化文化和旅游公共服务数字化平台的互联互通

2023-04-14

全球热门:财报金选|燕京U8成“大杀器”!燕京啤酒净利预增超70倍,触底反弹的开始?

投资

净利预增超70倍,打响“开门红”的第一炮。投资者直呼:业绩大爆发!丰富高端产品矩阵,燕京U8销量提升为利润提升提供重要支撑。

2023-04-14

【时快讯】香港科创及工业局:对ChatGPT未来走向保持密切关注

投资

智通财经APP获悉,4月14日,香港创新科技及工业局局长孙东出席数字经济峰会2023金融科技论坛与媒体交流。孙东表示,从香港方面来说,由于OpenA

2023-04-14

TechInsights:2022年全球物联网模块和网关市场出货量以及收入分别同比增长6%和18%

投资

智通财经APP获悉,TechInsights近期发布的研究报告指出,2022年,全球物联网模块和网关市场的出货量和收入分别同比增长了6%和18%。中国供应商

2023-04-14

IMF亚太部副主任:2023年中国经济将迎来强劲反弹 5%左右增长目标切实可行

投资

国际货币基金组织(IMF)亚太部副主任托马斯·赫尔布林表示,2023年中国经济将迎来强劲反弹,中国政府设定的5%左右的经济增长目标与国际货币

2023-04-14

新能源、电子两大新业务发力,钎焊材料龙头华光新材2022年营收创新高

投资

近日,中温硬钎料行业“单项冠军示范企业”华光新材(688379 SH)发布了2022年年报。2022年,公司实现营业收入12 20亿元、归母净利润0 09亿元。

2023-04-14

快资讯:亚运之城杭州:电竞大赛落地中心场馆,打造“动漫大IP”融合产业链

投资

初春的杭州,还带着些寒意,但这无法阻挡电竞迷们满怀热情来到这座城市。

2023-04-14

接盘金刚光伏大宗交易后违规减持,3名自然人被警示

投资

4月13日,甘肃证监局对3名接盘金刚光伏大宗交易的自然人分别出具警示函。

2023-04-14

遇见旗袍是于万千人群中的惊鸿一瞥 沿途洒满了爱的芬芳

旗袍,中国和世界华人女性的传统服装,被誉为中国国粹和女性国服。虽然其定义和产生的时间至今还存有诸多争议,但它仍然是中国悠久服饰文化

北京市电影院有序恢复开放 周五预售部分场次已满座

7月21日,北京市政府发布《北京市电影局关于在疫情防控常态化条件下有序推进电影院恢复开放的通知》,宣布全市低风险地区影院,可于7月24日

近期持续强降雨影响 第46届武汉渡江节因长江水位过高取消

武汉7·16渡江节组委会14日发布公告,由于长江武汉关水位超警戒水位,按照规定取消2020年第46届武汉7·16渡江节。受近期持续强降雨影响,

“非遗”普及受众最看重“动手”参观大师工作室非常享受

过去一段时间,国家级非遗项目灰塑传承人邵成村,多次在陈家祠等工作现场,向身边那些带着好奇目光的人们讲解灰塑的种种技术细节:草根灰、

璧山冷酒夜市 丰富市民夜间文旅活动

7月13日,位于璧山区南门唐城夜市街区的璧山冷酒夜市开街。这是璧山区打造夜间经济消费载体、培育夜间经济活动品牌的举措之一。璧山市民一

年内两市超过500家上市公司完成回购 累计回购金额超332亿元

近期A股市场持续震荡,不少上市公司或其重要股东推出回购、增持计划,用真金白银力挺股价。记者根据同花顺数据统计,今年以来,两市超过500

持续发力补链强链加大研发抢占市场 渝企跑出“加速度”

玥湖路渝快电充换电站 一辆新能源汽车,离不开研发、动力、配套等多个环节。作为汽车制造重镇,重庆在这些环节的多个板块上,正在加速奔跑

重启上市公司资本运作 康佳集团去年半导体业务营业收入为3.22亿元

近日,康佳集团正式对外发布2021年年度业绩报告。2021年,康佳集团实现全年营收491 07亿元,归属于母公司的净利润为9 05亿元,同比增长89 5

伟禄集团连续6年增长 去年营收同比增长37.5%

深港通标的之一的深圳企业伟禄集团近日公布2021年业绩。财报数据显示,伟禄集团全年营业收入11 95亿港元,同比增长37 5%,连续6年稳步增长;

龙头企业去年净利倍增 整个行业营收规模有望创造历史新高位

近日,面板龙头TCL科技、京东方分别发布2021年度业绩快报,两家企业去年归属于上市公司股东的净利润分别增长129 3%、412 86%,实现超过百亿

深圳国企全力为市民 守好“菜篮子”“米袋子”保障量足价稳

疫情防控形势下,民生物资供应是否充足成为市民最为关注的问题之一。连日来,深农集团、深粮控股等企业,充分发挥国企担当,全力为深圳市民