智算创新 云峦同行!龙蜥衍生版浪潮信息 KeyarchOS 的 10 年发展历程

简介: 浪潮信息 KeyarchOS 的 10 年发展历程。

在算力产业发展时,算力供给的服务化、云原生化,以及算力应用的智能化,对系统软件支撑层提出了高要求。在这种情况下,浪潮信息提出了“以应用为导向、以系统设计为核心”的系统理念。在 2023 龙蜥操作系统大会浪潮信息分论坛上,浪潮信息系统软件产品部总经理苏志远分享了《智算创新 云峦同行》的主题演讲,从产业背景、云峦创新以及产业实践等三个方向介绍了龙蜥操作系统商业发行版云峦  KeyarchOS(以下简称“KOS”),以下为演讲全文:



产业背景

整个系统软件最终是要服务算力产业、赋能智算。在算力产业发展时,算力供给的服务化、云原生化,以及算力应用的智能化,对系统软件支撑层提出了高要求。在这种情况下,浪潮信息提出了“以应用为导向、以系统设计为核心”的系统理念。服务器是一台硬件盒子,与系统结合才真正具有灵魂,从而对上支撑业务、对下管理算力资源,这就是“以系统设计为核心”的关键技术理念。


在“以系统设计为核心”的技术理念中,操作系统处于一个尤为重要的位置。硬件经过操作系统内核驱动或者外置 OOT 驱动的支撑,才能将能力发挥出来,而应用无论是开发环节还是运行环节都要依赖于操作系统提供的北向标准的接口。因此,操作系统在系统设计中至关重要,与硬件、应用软件构成了系统设计的关键。



操作系统产业的发展,严格依赖于社区的良性发展。社区汇聚了所有厂商的创新能力,是一个天然的汇聚体,也是操作系统产业永葆活力的关键。


在 IT 产业、数据中心领域,其发展是开源社区慢慢主导整个技术发展的过程,也是开放理念逐渐取代封闭理念的过程。在最早的大机时代,IBM Z 系统从上到下是垂直的,应用程序都是自己开发。到小机时代,芯片收敛到 Unix 架构,操作系统基本上遵循了 Linux 标准,小机也曾辉煌一时。随着 X86 等更加开放的架构设计以及开源 Linux 软件的兴起,原来 Unix 小机的位置逐步被取代。


开源开放大趋势是操作系统本身永葆活力的关键。操作系统社区还是很丰富的,龙蜥、debian 等社区都是发展整个产业的关键力量。



我国当前操作系统产业现状具有特殊性。CentOS 停更的全球性问题,加上 2+8+N 的行业替代,中国作为最大的算力应用市场,对系统软件和操作系统有着更深的要求,其要求有自主的根社区支撑发展。


目前做操作系统的厂商大概分为三类,一类是传统的软件厂商,一类是整机厂商,还有运营商、大型互联网厂商。大家做操作系统的目的可能有所不同,但只要把技术路线收敛到社区之后,无论出于什么目的,都可以促进操作系统产业的技术创新和生态繁荣。

云峦创新


2022 年,浪潮信息联合龙蜥社区正式推出了服务器操作系统商业发行版云峦 KOS。从 2008、2009 年开始,KOS 主要用于内部支撑,2022 年我们面向通用市场正式推出了商业发行版。在小机方面的研究经验,覆盖全球的售后服务能力,以及依托整机所积累的二三十年的生态,是浪潮信息做操作系统的核心优势。从整个运行体制和运营机制上来讲,龙蜥社区是一个非常开放中立的社区,这是我们选择龙蜥操作系统开发商业发行版的重要考虑因素。龙蜥社区理事长单位阿里云是典型的应用厂商,其应用品类可能是最多的,这符合我们“以应用为导向”的技术理念。龙蜥操作系统经历了“双 11”等极端考验,因此我们对龙蜥操作系统有充分的技术信心,联合社区推出了商业发行版。



下图是过去十年浪潮信息研究操作系统的发展历程。最早是支持安腾架构,后来面向 Power、X86 进行了专门的优化、支持。在 V1、V2、V3、V4 四个版本的时候,操作系统研发以支持内部业务优化为主。龙蜥大会浪潮信息展区展示了自己的云、存储、边缘计算、AI 智算软件栈,均在系统软件层次进行了深度融合与优化。围绕操作系统,浪潮信息有主打的技术方向,首先是稳定可靠,也就是“能用”;其二是软硬协同,也就是“好用”;其三是智能化运维、安全可信,这是保证“可用”的关键标签。我们围绕能用、可用到好用的主线,构建产品的技术标签与核心能力。



在稳定可靠方面,操作系统很难看到大的技术迭代和革命性更新,但在优化方面有很多工作要做,或许一个点优化完之后,可以让业务系统每年少宕机一些时间。在 Servers 可维护性方面,KOS 具备内核热补丁、内核热升级等能力,在尽量少影响业务的情况下,实现系统的持续稳定迭代。如果内核升级时需要重启系统,肯定会造成业务中断,且影响时间比较长。在内核热升级基础之上不停机,redis 业务基本呈现出秒级切换。我们做过统计,在服务器的故障场景中,内存故障占到所有故障场景的 80%。在全国芯片市场体系下,可能故障率会更高。在庞大的、几十万条经验库的支撑下,通过内存故障预测、内存故障容错等提升操作系统的稳定可靠属性,LTP 测试用例通过率达到了 98%,在业界具有非常高的水准。



在软硬协同方面 KOS 也有相应优势。KOS 非常关注硬件方面能力,希望把算力充分发挥出来。浪潮信息与 Intel 合作,用最新的 QAT 技术提升整个传输性能,在网络通信占比高的场景下 Redis 性能提升了 40%。异步 IO 可以提升操作系统的读写性能,来源于社区的创新技术在产品中使能,包括 CXL 内存分层优化、安全加固,这是安全方面的特性。性能提升eBPF也是当前非常热门的技术点,我们联合龙蜥社区发布了《eBPF 技术实践白皮书》(关注龙蜥公众号【OpenAnolis龙蜥,后台回复关键字“白皮书”即可获取下载链接】)。eBPF 目前是操作系统领域相对比较新、比较热门的点,它可以在网络、安全、可观测性方面全面增强对于操作系统的使用能力。



使用操作系统还需要搭配一些工具,否则纯命令行很难将操作系统用好。KOS 在运维工具开发方面进行了全面的布局,在运维方面,浪潮信息本身具有 InManage 服务器管理套件,其包含了很多工具。这一服务器管理套件在单一集群中可以管理 10 万节点,累计管理超过 400 万节点,这是在金融领域中最大的一个管理软件,也是 KOS 构建工具能力的核心。在稳定性和性能优化方面,KOS 利用 Ktuning 实现数智化调优,利用 KSysAK 实现故障快速定位,这两个软件也给到内部的云、数、存储产品线,获得一致好评。安全可信方面,后面将专门介绍无侵入病毒检测等相关工作。



《国产服务器操作系统发展报告(2023)》中,根据信通院面向用户群体的调研显示,龙蜥操作系统位列用户意愿迁移系统的首位。KOS 基于龙蜥操作系统增加了新的特性,构建了 X2Keyarch 迁移工具,高效支撑 CentOS 迁移。当前,我们也邀请了很多中立的开发者体验迁移能力,将镜像、环境提供给开发者,他们基于真实的应用进行迁移体验,并形成一些感受和建议。我们将开发者所写的技术文章,原汁原味地形成了《开发者说案例手册》,让更多的人了解迁移工具是不是好用,是不是足够兼容,是否足够支撑业务稳定运行。



安全是操作系统永恒的话题。浪潮信息一直在安全可信、安全加固方面投入研究,研究历史可以追溯到 2008、2009 年。那时候浪潮信息就开始做安全相关工具,只不过当时工具仅作为操作系统的一部分,没有单独大规模推广,但在过程中浪潮信息积累了深厚的安全研发能力。作为中关村可信联盟副理事长单位,浪潮信息之前有可信服务器,在可信评估方面有一些先进的成果。我们在 2022 年底发布的产品,今年就拿到了安全操作系统等级保护的四级,也就是最高级。目前国内只有三个厂商拿到了网络安全产品专用等级保护证书。



对来自 Linux 内核的各类操作系统产品而言,北向的接口开发都差不多,所以在应用软件的识别上,只要是 Linux 系的,没有什么严重的、难以解决的问题。难点主要在硬件方面的兼容性,如果缺乏部件厂商的配合协同,可能操作系统都装不上。在这一点上,浪潮信息具有明显的优势,能够拉通上游的器部件厂商、板卡厂商,协同支撑龙蜥操作系统。在此基础之上,2023 年增加了一个举措,浪潮信息内部所有的产品基础测试环节,将以 KOS 为基础系统,在产品上市前解决所有的硬件兼容性问题,这将为国内操作系统硬件生态做出重要的贡献,同时解决客户在使用龙蜥发行版时对硬件兼容性的担忧。浪潮信息拥有业内最全的服务器硬件产品线,覆盖了业内最全的、各种各样的芯片、板卡,因此,浪潮信息服务器能够兼容的龙蜥发行版,基本上业内所有服务器都可以兼容。



生态方面,浪潮信息正式向大家发起生态招募,无论是南向硬件还是北向应用,欢迎大家加入龙蜥社区与 KOS 生态圈。

产业实践


最后简单给大家分享几个创新实践,分享一下 KOS 在教育、广电、金融方面的案例。


首先是教育领域的案例。KOS 支撑了某高校的科学计算集群,目前已经有 600 节点。在整个过程中,操作系统替换只是第一步。在此基础上,我们联合科学计算团队,进行了整体调优,从框架层到编译库层进行全方位的性能升级。优化升级后,整体超算性能比原来的 CentOS 提升了 20% 以上。



上图是广电行业案例。预装后不用担心兼容性问题,是这一案例中最吸引用户的点。原先运行在 CentOS 上的应用无缝切换到 KOS 上,展现出天生良好的兼容性。



这是金融领域的案例。依托云平台,KOS 稳定支撑了省级银行的业务执行,经过操作系统、虚拟化与上层的云平台联合调优后,整体稳定性提升了 50% 以上。



面向 2024 年,浪潮信息将依托联合实验室,在技术、生态、商业、运营等方面全面投入龙蜥社区的建设,推动国内操作系统产业发展创新。


精彩视频回放、课件获取:

2023 龙蜥操作系统大会直播回放及技术 PPT上线啦,欢迎点击下方链接观看~

回放链接:https://openanolis.cn/openanolisconference

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

相关文章
|
对象存储
关于uniapp解决单/多文件上传的解决思路
关于uniapp解决单/多文件上传的解决思路
612 0
|
数据可视化 关系型数据库 编译器
【C/C++ 单线程性能分析工具 Gprof】 GNU的C/C++ 性能分析工具 Gprof 使用全面指南
【C/C++ 单线程性能分析工具 Gprof】 GNU的C/C++ 性能分析工具 Gprof 使用全面指南
1832 2
el-input el-select调整字体及内边距
1. 背景 el-input输入框默认提供的字体较小,且内边距较大。 这是为了提供统一的样式和好看的外观。 在某些情况下,我们希望使用较大的字体,且让输入框的内边距小一些以便容纳更多东西。
3067 0
|
消息中间件 Ubuntu Java
Kafka安装部署
Kafka安装部署
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
395 34
|
KVM 虚拟化
KVM虚拟机的热迁移
这篇文章详细介绍了KVM虚拟机的热迁移过程,包括临时迁移和永久迁移的步骤,以及可能遇到的故障和解决方案。
626 1
KVM虚拟机的热迁移
|
消息中间件 存储 网络协议
操作系统的心脏:深入理解进程间通信(IPC)机制
在现代计算机系统中,操作系统扮演着至关重要的角色,而进程间通信(IPC)作为操作系统的核心功能之一,极大地影响着系统的性能和稳定性。本文将通过浅显易懂的语言,详细探讨进程间通信的基本原理、主要类型及其实际应用,旨在为读者提供一个清晰且全面的理解和认识。 ##
828 1
|
Java Linux 调度
Java线程的优先级详解
Java线程的优先级机制允许开发者根据程序需求为线程设定不同优先级,范围通常在1到10之间,默认优先级为5。高优先级线程在执行时通常会得到更多的CPU时间,但这并不意味着低优先级线程会被完全忽略。系统资源分配仍然取决于具体的调度策略。理解线程优先级有助于优化多线程应用的性能。
579 8
|
SQL 安全 前端开发
软件测试指南:从策略到实践
【8月更文第21天】软件测试是为了评估软件的质量并验证其是否符合预期的功能要求而进行的一系列活动。本文将详细介绍软件测试的不同阶段、测试类型、测试策略与计划的制定、以及如何有效地管理与跟踪发现的缺陷。
916 1
|
机器学习/深度学习 数据采集 人工智能
【AI在金融科技中的应用】详细介绍人工智能在金融分析、风险管理、智能投顾等方面的最新应用和发展趋势
人工智能(AI)在金融领域的应用日益广泛,对金融分析、风险管理和智能投顾等方面产生了深远影响。以下是这些领域的最新应用和发展趋势的详细介绍
1750 1

热门文章

最新文章