1、市场规模快速增长
ToB/C 大模型应用加速落地,多模态大模型快速演进,进一步带动智算产业强劲发展。
2023 年,ChatGPT等大语言模型已然引发“抢芯大战”,AI催生算力需求爆发增长。2024年,随大模型加速向垂直行业和领域渗透、GPT Store等助推AI原生应用落地、以及多模态模型快速发展,智算市场将继续保持高增长态势。海外市场,FactSet和彭博预测2024年北美三大头部云商(AWS、微软和谷歌)的云业务营收、云基础设施投资增长将达到22.5%、16.6%,相比2023年均小幅提升,整体较为乐观。我国市场,参照工信部等六部门联合印发的《算力基础设施高质量发展行动计划》发展目标,2023-2025年我国算力规模复合增长率为18.5%,2024年新增算力规模将接近40EFLOPS,算力核心产业规模有望突破2.4万亿元。
2、产业新格局加速形成
AI 算力促进IDC和云服务升级,助推“三三一”算力服务产业新格局。
2023 年,拥有大量GPU资源,专门从事算力建设到租赁解决方案业务的第三方算力租赁商成为算力服务市场新势力并引得资本青睐与关注。中贝通信、真视通、莲花健康等算力租赁上市公司的股价(截至2023年12月27日)均达到100%甚至200%以上增长。2024年,IDC服务提供商、云服务提供商、第三方算力租赁商将成为算力市场的“三大运营主体”,瓜分整体算力服务市场,并提供算力租赁、算力+平台服务、算力+平台+模型服务的“三类算力服务模式”,特别第三方算力租赁模式有望复现第三方IDC服务商高速增长路径,在优质客户合作驱动下利用自身渠道和资源整合能力,打造“客户-资金-AI算力”闭环扩张。同时,算力共享联盟模式将逐步显现,如多个初创公司共同开展GPU算力购买和共享使用,降低算力整体使用成本。产业市场将形成“三大运营主体”、“三类算力服务模式”以及“一种新型算力共购共享联盟”的“三三一”产业格局。
3、规模化集约化建设凸显
大模型量级突破,驱动智算集群化,E级以上大型智算中心成主流。
大模型参数规模的跨量级突破,数据集倍数增长,亟需海量算力承载,助推AI服务器性能的持续提升,智算布局呈现规模化、集群化趋势明显。一是单个服务器性能的提升可有效降低服务器间参数、数据量等传输时延,提升计算效率,预计2024年下半年将推出超越现有H系列的高性能GPU卡。二是依托高性能GPU卡搭建超级计算机(服务器集群),E级规模智算集群将成为主流。根据赛迪报告预测,到2024年年底我国将有5%—8%的企业大模型参数从千亿级跃升至万亿级,算力需求增速将达到320%。谷歌、微软等相继推出的大模型参数量向千亿、万亿级规模演进,着力打造面向大模型训练的E级智算集群。据公开统计我国建成的超E级智算中心仅5家,预计2024年超大规模智能中心占比稳步提升。
4、算力布局向纵深拓展
AI 大模型向边缘和终端延伸,智算基础设施加速向城市和边缘渗透。
多模态大模型和算力底层技术不断完善,大模型部署在边缘侧与移动端成必然趋势,面向城市、边缘的智算中心布局态势将愈加明显。一方面AI大模型扩张带来推理算力需求激增,驱动分布式推理算力中心下沉,本地或靠近部署算力可有效缓解成本压力。另一方面AI大模型逐渐向智能汽车、电脑、手机等边缘端下沉,融入终端等智能体,边缘算力可有效满足低时延AI应用的快速响应要求。继成都、北京、上海、深圳等城市之后,2024年将有更多城市推出针对算力高质量发展的政策文件,统筹城市级和行业类智算资源需求,提速城市算力基础设施升级。
5、云智和训推一体化
一体化成为智算主流服务模式,实现算力、算法和数据的高效协同。
以数据为主线,云计算为基础的一体化智算服务将成主流,实现算力、数据和算法的高效协同,满足智算应用场景的数据处理、存储、传输等环节要求。加大AI与云计算融合发展已成头部云商共识,AWS与英伟达开展AI基础设施、加速库、基础模型等全栈合作,旨在将AWS打造成为运行GPU的最佳云端环境;阿里云近日陆续推出大模型一键部署至数据库与函数计算等功能,以优化云上AI开发流程;百度将灵境矩阵平台升级为智能体平台,从关注模型层转战到重视生态、应用培育。2024年关注重点聚焦在“AI+云+数据”的全栈式一体化服务,ICT开发范式与产业生态将进一步被重构。云主机、存储、数据库等一系列产品将面向AI全面升级,数据处理、训练、微调、推理等模型使用全流程将倾向于在同一服务环境中实现。
6、泛在算力网络加速
算力组网新技术蓬勃发展,算力中心互联和内部网络亟需突破带宽瓶颈。
近日国家发改委等五部门联合印发《深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》,明确打造层级化网络时延圈,满足差异化城市-区域-国家的多级算力服务体系,为算力组网提供了指导。2024年,算力中心互联组网方面,随着新一代高性能芯片的发布,算力互联持续催生800G及1.6T需求,远距RDMA、百P级全光互联、新型光纤等关键技术将进一步突破,算力互联的低时延、确定性保障持续改善。算力中心内部组网方面,无阻塞、高吞吐量是承接大模型训练的核心诉求,将催生RoCEv2相关算法更加成熟。
7、公共算力统一调度
算力普惠服务持续突破,区域级、城市级服务平台初现。
以政府、运营商、云商等为运营主体的算力一体化调度平台、算力互联互通平台正在建设与试点运营,支撑算、网、云融合调度与一体化发展,实现从“任务找算力”到“算力适配任务”的转变,有效解决算力资源分散、主体多、供需匹配失衡和使用成本高等问题。2024年公共算力统一调度服务将呈现新的变化,一是依托IXP的公共算力平台将成为主要形态,附加算力调度、供需对接等将加速试点应用;另一方面围绕枢纽节点的算力生态聚集效应进一步加强,区域级、城市级等公共算力服务平台初步显现,并形成具有行业影响力的联合运营体。
8、多元化和国产化提速
芯片类型、架构和供给呈多元化趋势,国产芯片自主生态加快建设。
新技术广泛应用与全球算力短缺的背景下,芯片类型、架构和提供商方面均呈现多元化趋势,芯片自主可控能力将进一步提升。芯片类型方面,5G、人工智能、自动驾驶等新兴技术产业化加速,产业及政策关注从以CPU为主,向高性能计算芯片、存储芯片等拓展;芯片架构方面,RISC-V以其优秀的灵活性及扩展性,突破以x86与ARM架构主导的产业格局,业界已成功探索RISC-V在AI领域应用;芯片厂商方面,主流云商均着手自研芯片,通过软硬协同制衡英特尔、英伟达等垄断,华为、中芯国际、长鑫等多家国内厂商近期均有突破。2024年关注重点聚焦在国产化芯片的生态体系建设,包括芯片设计、制造、封装等全流程及相关软件、系统、框架等关键环节。
9、传统DC向AIDC演进
AI 算力引领数据中心加快绿色化、模块化和运维智能化发展。
数据中心正在向智算中心快速演进,液冷制冷引入、模块化建设、智能化运维等将显著上升。一是液冷制冷应用将从局部试点状态逐步转向爬坡期,单机柜功率密度达到20KW时液冷与风冷投资成本已基本持平,2024年液冷应用将加快普及,2025年国内运营商50%以上数据中心项目将覆盖。二是智算中心灵活适配、快速交付等工程实施能力增强,围绕制冷、供电、智能化系统的模块化设计、标准化封装,产业联合创新和系统解决方案将更加丰富。三是数据中心智能化运维水平有望上新台阶,特别是运用AI等技术手段,充分发挥电源空调设备自动化、智能化优势,实现运行能耗的精准管控和智慧运营。
来源:天翼智库