算力租赁的逻辑分享
现在什么概念最火,当然是算力租赁了。
自八月开始,市场发现国内算力供不应求,算力连连涨价,自然做算力租赁的公司股价也是水涨船高。
中贝通信涨了将近3倍,莲花健康跨界转型算力涨了两倍多,真视通和华为合作算力直接十连板,恒润股份顶着200亿市值也能四连板!还有很多算力概念数不胜数。
在经过与诸多产业公司和产业专家的深入沟通,查阅相当多的资料之后,还是有一些心得分享给大家的,主要结论如下:
1、算力租赁属于新兴行业,是一个非常值得重视的行业;
2、市场对行业的认知还在非常初级阶段,目前炒作也仅限于到卡数卡和规划算力的段子,非常表面;
3、未来胜出的以及股价最后能走出来的将是具备拿卡能力,拥有稳定客户,且在运维上拥有独特竞争力的公司。
一、算力租赁行业的需求从何而来?
1、算力需求井喷
去年底今年初,以ChatGPT为代表的语言大模型应用惊艳世界,人工智能商业化落地预期不断抬高,全世界范围内涌现了一大批大模型创业公司,全球对于大模型科研的热情持续高涨,随之而来的大模型训练、微调、推理需求急剧增加,催生了大量AI算力需求。
AI应用根据其开发阶段,对算力的需求也不同。
在开发周期中,需要大量的训练侧算力;当模型开发完成上线后,则不再需要训练算力而是推理算力。
现阶段AI应用的开发如火如荼,需求主要为能够满足训练模型要求的算力;当AI应用落地潮到来后,对于推理侧算力的需求将更为旺盛。
以训练算力为例,根据英伟达和斯坦福大学合作的论文,GPT-3假设使用1024张A100(约600P)进行训练,端到端训练时间大约需要34天。
然而随着模型参数量的增加,需要的GPU数量非线性增加。
以GPT-3到GPT-4的迭代为例,参数规模增大10倍,对应训练计算量增加至少60倍。根据媒体SemiAnalysis报道称GPT-4参数量为1.8万亿,且采用更大的训练集,GPT-4训练过程中A100卡数量达到万张量级。
2、这些需求为什么没有完全被云计算厂商承接住?
由于模型训练时要求大量GPU对同一个模型进行同时计算,但除了总峰值运算能力外,GPU间的连接方式同样直接影响了总体GPU的利用率。
传统的GPU集群在节点(单个服务器)内部可以使用大带宽机内连接,而在服务器之间仍然使用传统架构,故无法进行高效的多节点并行训练。
对于绝大部分业务级大模型来说,单节点(至多8GPU)是无法进行训练的。
而高性能集群大量在节点间使用大带宽光模块进行互联,能够极大的提升多节点训练时的GPU利用率。对于生产AI应用的客户,高性能集群的设计建设直接关系到对于客户能够提供多少的有效算力。NvI.Dia同样
简单来说,大模型训练需要的是具备高速互联基础的高性能GPU集群,传统的单个的计算是解决不了这些问题的。
若要满足客户训练的需要,只能规划建设新的集群,而无法重复利用现有的基础设施。
而高性能集群专长为模型的训练,若用于普通互联网业务,从成本角度出发是非常昂贵的不划算的。
综上,云计算厂商在高性能集群的业务开展上并无优势,所以算力新时代爆发的时候,云计算厂商承接不住这么大的井喷需求,不然就没有其他算力租赁公司什么事了。
二,算力租赁的优势
算力产业链基础设施包括数据中心、服务器、芯片、光通信、云服务等关键环节。
云计算平台是AI算力主要的承载方式。云计算的本质,是将大量的零散算力资源进行打包、汇聚,实现更高可靠性、更高性能、更低成本的算力。具体来说,在云计算中,中央处理器(CPU)、内存、硬盘、显卡(GPU)等计算资源被集合起来,通过软件的方式,组成一个虚拟的可无限扩展的“算力资源池”。在该模式下,用户通过与服务提供商的少量交互,即可随时随地便捷地通过网络访问进入可配置地计算资源共享池,根据需求调用网络、服务器、存储、应用软件和服务等各种资源。
算力租赁就是对算力进行出租,是一种通过云计算服务提供商租用计算资源的模式。用户可以根据自己的需求租赁服务器或虚拟机实现大规模的计算任务,而无需拥有自己的计算资源。
其优势包括:无需投入大量资金购买计算设备、高效稳定的计算服务、灵活的扩容或缩减,更好地满足用户的需求、非常灵活的计费方式,可以根据实际使用情况进行计费。通过租赁计算资源,用户可以快速地启动项目,使用稳定高效的计算资源,大大缩短了研发周期和成本。
算力租赁服务提供商可以根据用户的需求提供不同配置的云服务器,并可以随时根据用户的需求进行扩容或缩减。此外,新技术如容器化和服务器less计算等也对算力租赁领域带来了更多的创新和便利。
目前大模型还是基于整个节点租赁提供算力服务的这种模式。如果要满足这种超大规模计算、高通量的带宽,我们只能把业务的需求和算力节点更加靠近一点,来解决传输时延的问题,以及节点内通讯的问题。第二是要做算力梯次化、层次化、合理化布局,将来实现算力、标注、训练一体化的功能。因此,在算力未来需求持续增加的情况下,网络带宽和时延限制(性能)和网络带宽成本限制(成本)导致的算力需求错配需要通过在边缘端部署算力进行支撑,构成“云-边-端”泛在算力部署方案。
三,算力租赁市场格局
国内部分厂商已经开展算力租赁相关业务,包括亚康股份、南凌科技、英博数科(鸿博股份全资子公司)、首都在线、优刻得、朗源股份、利通电子、宝腾互联(中青宝旗下)、青云科技,真视通,中贝通信、汇纳科技、铜牛信息、顺网科技、世纪华通、云赛智联、特发信息 等。
国内服务器头部厂商包括中科曙光、浪潮信息、新华三(紫光股份旗下)、工业富联、拓维信息等也展开相关布局。
对于大多AI企业和行业应用企业而言,轻资产的算力租售模式与企业资金实力和业务场景最为匹配,该模式有望快速在AI行业渗诱,掌握算力资源的企业将具备非常明显的先发优势。
另一方面,算力租售业务本身也是轻资产模式,通过管理城市云的闲置资源并进行调度最大化合理利用资源,租售收益与政府分成实现双赢,有利于城市云的进一步落地。
随着人工智能浪潮的持续爆发,云计算和虚拟化技术的不断进步,算力租赁服务变得更加智能化、弹性化和可靠性。提供商不断提升其基础设施的规模和性能,以满足不断增长的需求。
四,接下来算力租赁板块如何演绎?
通过以上分析,本文已经阐明了为何会语言大模型的进化会催生出一个新的行业,算力租赁公司的核心在于拿卡能力、资金实力、自有布局、客源、运营能力、调度平台、专注GPU集群等等。
接下来还有更大的催化就是人工智能应用的落地,近期,OpenAI 发 布 GPT-4V、谷歌发布 RT-X、Meta 发布 AnyMAL,标志着多模态大模型进入加速迭代阶段,同时大模型监管政策不断完善,全面商用化的时点渐行渐近,大模型推理需求爆发的时间点越来越近,接下来一定要重视能做好推理侧算力租赁商业模式的公司。
假如一家公司像矿场一样找个电费便宜又好散热的偏僻地方建厂,那他的商业模式将只支持大模型训练,因为大模型推理(应用),需要良好的网络资源,需要低延迟和大带宽,将推理内容高效分发给客户。
总结来看,就是算力租赁是新兴行业,接下来是一个去伪存真的行情,蹭热度的公司会逐渐被淘汰。
而上游能拿到卡,自身有现成的大型基础设施,还有强大的运维能力,下游又能搞定诸多大厂客户的公司,将整合好全产业链,拥有整体解决方案,将从整个产业链脱颖而出。
作者:小肥柴的大牛梦1
- 免责声明
- 世链财经作为开放的信息发布平台,所有资讯仅代表作者个人观点,与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论,请提供相关材料,发送到:2785592653@qq.com。
- 风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。
- 世链粉丝群:提供最新热点新闻,空投糖果、红包等福利,微信:juu3644。