首页
搜索 搜索
当前位置:快讯 > 正文

算力网络成新型基础设施,如何像电网般“即插即用”?

2023-07-27 23:04:31 21世纪经济报道

21世纪经济报道记者骆轶琪 深圳报道


【资料图】

随着各行各业积极拥抱数字经济,算力正成为重要的资源条件,伴随而来是对算力网络的建设需求。

近日举行的超算赋能高质量发展论坛期间,中科院计算所研究员、并行软件实验室主任张云泉在演讲中提出,算力是硬件和软件配合共同执行某种计算需求的能力,其越来越成为数字经济社会发展的关键。

由于超算、云计算、大数据、AI正在融合创新发展,以计算为核心的算力经济将成为衡量一个地方数字经济发展程度的代表性指标和新旧动能转换的主要手段。

中国工程院院士张宏科则指出,目前信息网络已成为大国博弈的核心与关键,我国亟需研究和探索算力网络技术创新来满足自主可控和网络强国等重大战略建设需求及新兴行业的技术创新需求。

在他看来,异构网络的深度融合与网络智慧化创新,正成为网络技术发展的两大必然趋势,需要从基础理论、关键技术和示范应用三个层面进行突破,创建替代兼容、自主可控、深度融合、高级智慧的算力网络体系。

算力网络协同发展

张宏科院士认为,算力作为资源,类似于通信、水力电力网络等资源,未来的目标是实现“即插即用”,现在还在探路阶段。

举例来说,当前用户的网络是绑定某家运营商,计算机IP被捆绑在某个网端,不能把用户和应用都迁移到相应的数据中心,就需要网络技术端进行突破融合,这背后是从技术和体制层面都需要突破。

据张云泉介绍,算力网络是一种根据业务需求,在云、网、边之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。这将成为数字时代的“电网”,让计算更加随时随地、即开即用。

总体来说,狭义的算力经济,是围绕算力形成的计算产业,如数据中心、芯片、元器件、操作系统、应用软件等。广义的算力经济包括数字产业化、产业数字化和城市数字化提供算力基础设施和支撑保障的新模式新业态,即算力+产业体系。

目前国内的计算主体是以超算、智算、大数据中心、城市大脑四种形式并行发展。

受访时张云泉向21世纪经济报道记者表示,“算力网络的发展可以追溯到十多年前,在超级计算领域有‘网格计算’概念,目的是把超算中心通过高速网络连接起来,共同完成一件重要的计算项目。”张云泉介绍,这是通过模仿电网概念而来,意在将超算中心串联成一张算力网络执行计算任务。因此算力网络与全国一体化布局的“东数西算”之间存在强耦合关系。

张云泉观察发现,目前有多种部署算力网络的运营模式。如有提出把智算中心能力进行连接的“鹏程云脑”;有推动超算中心能力连接的曙光智算;也有从标准和协议着手拉动核心产业链公司共同推动的算网云协同系统工作委员会模式等。

“当然,建立算力网络还面临一定难题,包括架构设计、软件栈建设、算力和存力如何调度、不同算力中心能力如何整合等,需要进一步完成定性。”他进一步分析。

国家超级计算深圳中心主任冯圣中则向记者讲述,早在上世纪60年代开始,美国就开始研究,如何保证在极端条件下,算力的可持续服务问题,互联网即发端于此。到上世纪90年代相关技术成熟并演变为互联网经济。到今天,全世界的超算中心应该说早已连接在了一起,但应用生态成为算力融合发展的关键挑战。

“超算应用的移植、优化、生态适配等还有大量工作要做,比如基于不同架构或系统的硬件之间,难以实现轻松融合。”他指出,当前超算面临的首要问题就是建设生态,没有生态就无法吸引应用在超算平台落地。这将涉及操作系统、基础软件、应用软件等多个层面,因此单纯依靠某一家厂商完成不现实。

展望未来趋势,张云泉表示,算力经济的普及一定是走标准化道路,需要类似电力插座一样的算力插座。那么未来会出现类似发电厂的算力工厂,尤其出现在西部新能源发达的地区。

其中,不同类型的产业角色:超算云公司(超算互联网)、网络通信公司(算网融合)、国家电网(近电厂算力中心)等,分别从不同技术途径抢占算力服务市场,鹿死谁手尚未可知。

同时,他建议尽快推进国家算网、算力调度、算力交易等方面的新型组织机构和平台的建设;推出算力服务的评测标准,确保算力服务健康发展。

大模型的机遇挑战

去年底以来火热全球的生成式AI浪潮,正对算力提出旺盛需求。

张云泉认为,通用模型不需要很多,只需要训练出若干水平很高的大模型,然后由此衍生到各个行业落地,形成更多行业垂直模型、基于本地需要的模型、个人服务模型等不同类型垂直领域模型,如此可以减少对大模型的重复竞争问题,也能更资源集约、不会有上万颗那么庞大的GPU需求。

不过他告诉记者,算力网络与AI大模型的算力需求不太匹配,因为AI大模型多为单一对大算力的需求,需要上万块GPU卡工作,其对网络带宽的要求很高,由此也考验GPU和内存间的高速互联技术。

冯圣中则认为,从技术发展角度值得探讨的话题是,能否用相对小的算力资源,达到不亚于当前GPT4所能实现的成果。这背后需要关注技术创新、算法创新等方向。

“举例来说,我们常说人工智能还远不是人类智能。人类孩童的成长其实是用小数据吸收和学习,而不是通过大数据训练。那么计算机是否也可以不用那么多GPU卡,通过算法创新逼近人类智能?这是值得关注的。”他指出。

基于当前现状,张云泉对记者分析,生成式AI对于国内相关计算产业链产业而言,有软、硬两方面值得关注。

具体来说,当前国产计算芯片多侧重在发展推理能力,但如今备受争抢的英伟达旗下芯片则涵盖AI训练能力,后者是需要补上的短板;此外,软件生态的建设进展将对其落地产业起到重要作用,这尤其需要重视。为此,英伟达曾耗费不下10亿美元研发CUDA语言,提供免费培训、在学校开设课程等,由此培养出百万量级CUDA工程师,这也是英伟达称霸GPU市场的其中一个支点。

软件生态的发展同样对超算应用有重要作用。张云泉对记者分析,超算中心聚焦的领域相对窄,以服务科学计算为主,目前的短板在于面向工业、商业计算等领域,相关支持软件较为缺乏。“难点在于,能否孵化服务超级计算机的CAD软件、CAE软件、工业软件等。”他进一步指出,也要从法律和知识产权保护方面对软件服务行业提供更多支持,由此才能为软件生态构建提供更大发展空间。