浪潮云海刘健:一云多芯+云原生是算力异构最优解

发布时间: 2024-05-01 06:04:34  来源:天博app 

  浪潮云海秉承开放兼容、分层解耦的技术理念,面向全行业用户更好的提供领先的私有云产品与解决方案,助力企业构建坚实云基座,实现数字化重构与转型。在金融领域的云原生和云计算建设过程中,浪潮云海积累了丰富的实践经验,凭借创新务实的实干理念,以客户的真实需求为核心的服务意识,得到了行业和客户的广泛认可。

  本文系浪潮数据云计算方案总监刘健演讲实录,以下内容将从云计算的发展的新趋势、金融云的趋势及挑战、浪潮云海在云原生基础设施建设过程中的实践成果三部分进行有关经验的分享和观点的探讨。

  目前,AI、5G、大数据这些词汇已和云计算密不可分,在这样的环境下,浪潮云海认为开放硬件、开放软件以及软硬件分层解耦已成为数据中心发展的重要趋势,同时,面对更为多样的计算场景,云计算体系架构的演进、模型即服务、多元算力的管理能力也成为下一代云数据中心的进化方向。

  为满足用户对产品性能和使用体验的需求,在倡导软硬解耦的基础上,浪潮云海同样关注软硬件的同步优化。在云计算领域,通过对硬件的深度优化,可大幅度的提高产品性能,以此解决软件层容器和虚拟化的损耗问题;通过DPU改变底层的高可用架构,以此来实现虚拟机高可用的逻辑切换。

  计算系统架构的解耦和计算设备之间的互操作性是未来计算可持续发展的关键。在网络层面,硬件SDN和网络设备极易绑定,在解耦的阶段,通过云上软SDN和任意厂商网络设备,配合GPU和智能网卡加速,就能做到解除绑定和性能提升;在存储系统层面,也能够最终靠同样的办法实现存储系统的加速;在安全层面,以DPU做加强,可实现计算机系统负荷的卸载。以上都是通过硬件优化来实现软件的性能提速。

  随着ChatGPT的持续火热,模型已经和算力、算法一样,成为了下一代云的基础设施标准。但从归属划分上看,公有云上训练得到的模型仍属于公有云,只有在私有云上基于自己的数据来进行训练,才能得到专属的大模型,这也是国内大型金融机构目前致力发展的方向。

  支撑新兴业务发展,助力多元算力场景。现在的数据中心从物理资源层上看基础设施更加多元,X86和ARM设备的混部已成为常态;用户对算力引擎的需求也囊括了虚拟化、裸机、容器,且这一状态将长期持续;算力类型上也从单纯的CPU向GPU、FPGA扩展。

  金融云发展大致可分为三个阶段:IOE时代、业务云化时代、云原生时代。云原生能力又可概括为以下三点:应用的容器化,服务的Mesh化及Serverless。金融IT本质上是为组织和业务服务的,所以上层技术的变化往往源于组织架构的变迁。业务架构从单体、到服务化再到微服务架构,数据架构从统计分析到数据服务湖仓一体,技术架构对应发展到服务网格,最终形成组织架构和开发框架的变革。每个阶段组织架构和技术架构都需要匹配,这是一个逐步演进的过程。

  IaaS层的建设经验较为通用,但是PaaS层的建设则更为复杂,对此我们做出以下分析:

  1.IaaS和PaaS都有明显的行业属性,如果一个云厂商卖给全部客户的PaaS都是一样的,则它是不具备行业属性的。每个行业的业务不同,要求的PaaS指标和组件也不同,标准化产品未必适用。

  2.容器即服务,很多场景下用户觉得PaaS不好用、不灵活是因为厂商将PaaS的基础设施跟PaaS的服务整合在了一起,极端情况可能是每个产品都附带了容器平台。对此,浪潮云海的建设经验是把PaaS的功能解耦出来,使之成为容器即服务。

  3.在业务层的搭建过程中,我们提议用户建设一个统一的云基础设施,并选择业务可解耦的PaaS厂商,将解耦后的能力架设在统一的容器即服务平台上。

  微服务体系的建设也存在多架构并存和逐步演进的过程:在微服务框架里面,Dubbo和SpringCloud是目前较为流行的应用分布式、微服务开发框架,在金融行业应用广泛;而Istio目前的发展的新趋势则是平台级别的服务治理框架,可进行无侵入的遗留系统微服务改造。当然,微服务架构的选择和平台规划、公司规划是密不可分的,同时也需要逐步去演进。

  对于微服务的运维,我们提议将IaaS层和PaaS层打通,形成垂直运维体系。这里面临如下挑战:PaaS组件版本、开发框架多,不同的PaaS组件有不同的硬件资源,导致部署效率低;在业务数据网络隔离的情况下,怎么样才能解决PaaS的跨域使用。对此我们提议在网络分区的情况下,依据使用环境需求按需部署、按需编排,并构建统一发放的网络,把中间运维侧打通,通过运维网络将PaaS发放到不同的域里面去,通过就近部署、就近访问,统一运维,实现PaaS层的统一。

  目前,浪潮云海主要着力于建设云原生基础设施的底层,参考信通院发布的《云原生能力成熟度标准》,聚焦两个方向来开展工作:第一,技术架构,主要是资源管理、运维保障、研发测试等;第二,业务应用,主要是弹性、高可用、自动化、可观测等。

  在金融云的建设实践中,“一云多芯”是金融行业云的一项重要的基础指标。一云多芯”可使用户得到满足算力多样化需求,并且可有效规避算力孤岛;是打破小生态、构建大生态的关键纽带;并且可大大降低供应链风险。无论是从业务角度、技术角度,还是产业链角度,践行“一云多芯“慢慢的变成了当下及未来云计算产业高质量发展的关键,是产业链相关厂商的必然选择,现在,能源、电力行业也对一云多芯提出了明确的要求。

  浪潮云海认为“一云多芯+云原生”是解决算力异构的最优解,我们根据无状态和有状态两种业务形态总结出以下实践经验:

  1.对于无状态应用,基本都基于Java开发,编译过程并不难,重新编译后的应用,都能运行在多芯集群里,对底层CPU或服务器并无太多限制;

  2.对于有状态的数据,最重要的是保障数据库数据无丢失,不一定要追求一云多芯。但能够直接进行相关尝试,如在一云多芯环境中部署分布式数据库,可以用X86算力支撑primary集群或写操作,用非X86算力承载standby或者读操作,这是数据库一云多芯的一种实现方式。这种模式也能应用在数据库层面的容灾建设中。

  1.集群内的算力自动等价调度:因为不同架构服务器之间有算力的换算问题;对此,我们联合信通院及多家厂商,进行过算力自动等价调度测试;

  3.无感切换:目前我们的产品已经具备这种能力,用户底层基础设施的架构并不可能影响上层业务运行,用户可基于不同架构的底层资源进行动态的调整和资源的调用。

  对于微服务架构体系的建设,如上提到,首先是开发框架的并存问题。对此,我们提议通过配置中心将各架构统管起来,先把共性的东西抽离出来,再进一步做融合。其次是多数据中心的问题,目前用户普遍都有多套数据中心,对此,能够最终靠级连的方式做管理,用总分总的模式进行管理。

  下一代云的高可用设计在云原生层面不难实现,但并不是所有业务都是云原生的,这就使得难以从上层解决高可用的问题。作为基础设施厂商,我们提倡通过底层建设,即使不依赖云原生也能实现高可用。所以对于下一代的高可用架构,我们大家都希望可以在这两个维度上来回切换,同时也希望能打通裸机和虚拟机的控制平面,实现多引擎间的高可用。这其中还有很多挑战,仍需逐步演进。

  目前浪潮云海已经服务了15000多家客户,在各个行业全面开花,涵盖金融、能源、交通、医疗、企业、教育等关键领域,是客户数字化、智慧化转型的重要云底座。这这中间还包括国内规模最大的金融生产云,承载客户的双11业务;规模最大、芯片种类最多的省级政务云,承载4套公共应用服务,104个业务系统;和汽车、轨交、科学计算实验室等多个千万级大项目。

  共创教育数字化,鸿合科技亮相2023中国商显产业领袖峰会暨ISVE智慧显示展

  携手影后舒淇,OPPO Find N3 Flip官宣,多项升级8月29日发布

  00后大学生将人工智能技术带进贵州山区,25万只乌骨鸡迎来“AI饲养员”

  林芝农产品前置智能仓正式启用,带动千家万户小生产,助力改革开放先行区建设

  “蓉遇科普·2023”网络点赞正式开启,快一起来为“科普之翼”的腾飞集赞!