Linux 应用运行抖动的背后 | 龙蜥大讲堂25期
抖动是影响业务性能的一大类问题,通过深入理解 Linux 应用运行过程的抖动原因,来协助系统及应用进行优化。同时介绍怎么 SysAK 工具对问题进行监控和诊断。
Alibaba Cloud Linux 与倚天软硬结合,加速数据智能创新
根据 IDC 报告统计,通过云满足客户业务的需求,已经大大超过了传统管理基础设施。ECS 作为阿里云的比较关键的产品和服务,需要用自身产品能力满足不同类型的市场需求。吴天议主要分享了基于龙蜥社区 Anolis OS,阿里云采用倚天芯片与 CIPU 构建的面向云原生神龙计算体系架构,如何满足未来智能化的应用的需求。
2023龙蜥操作系统大会
据《国产服务器操作系统发展报告(2023)》称,在云与AI深度融合的技术浪潮之下,服务器操作系统产业正处于升级迭代的关键时期。该主论坛将聚焦服务器操作系统产业 2.0 时代背景,集领域专家学者、联盟协会领导、企业领军人物等,深度解读国产操作系统的过去与未来。讲师/嘉宾简介专家学者、联盟协会领导、企业领军人物
Linux 性能调优产品KeenTune快速入门
6 月 11 日 ~ 12 日,龙蜥社区联合 Linux 中国,在北京召开的开放原子全球开放峰会现场组织 LUG 线下沙龙活动,与大家一同聊聊开源、聊聊 Linux 、聊聊社区当中的那些最新的技术。
手机内核稳定性的治理与实践
我们了解的 Linux 稳定性都是基于 x86 和 Arm 服务器上的,然而在手机上的系统稳定性,也值得我们去一探究竟。魅族科技高级工程师、龙蜥系统运维SIG Contributor 白浩文与嘉宾一起谈一谈《手机内核稳定性的治理与实践》。他首先简要介绍了稳定性问题的来源,以及开发过程。重点举例介绍了运行时动态检测的一些方法以及相关原理。在实践中,魅族手机在开发阶段引入了一些新的特性来提高捕捉内存异常的概率,其中也包括从上游龙蜥社区引入的改进特性。为了全方位监控和解决稳定性问题,魅族也在智能化分析问题和提升效能方面做了相应工作。最后,还作了简要的总结和阐述所面临的一些挑战。
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
Apache Spark是当前流行的开源数据处理引擎,Spark SQL为用户提供可靠的查询计算解决方案。近期,Gluten项目作为基于Apache Arrow的原生SQL引擎正式亮相,旨在增强Spark SQL计算性能。与此同时,多个向量化SQL引擎和更加活跃的开源社区也纷纷涌现。其中Velox项目尤为引人注目,它提供了向量化数据库加速库。本议题简要介绍了Gluten-Velox框架的概况和原理,同步Gluten-Velox社区在AArch64平台上的使能状态,并通过一个 Velox的优化案例,展示此Spark SQL向量化执行引擎框架在AArch64上的潜力。
Linux基础内容学习方法和概述
课程介绍:如何成为网络安全工程师?不知道该如何入门?本课程通过四个模块的知识学习,让您能够对网络安全相关基础技术有一个全面的了解和掌握,主要内容包括:IT基础技术、网络安全基础概念、网络安全渗透技术基础及Web应用安全基础。主要的学习方式包括在线直播、图文和在线实验进行学习。如果您是一位对网络安全感兴趣的大学生,我们还会根据您学习过程的参与情况,与线下考试情况,给您推荐实习或就业机会,快快来参与吧。系列课程Linux基础内容学习方法和概述(本节)用户管理和文件管理网络基础学习方法和概述局域网、路由技术 常见网络应用层协议和工具 MySQL数据库学习方法和概述 MySQL对象与应用和运维技术 Web应用基础学习方法和概述Web服务和应用实践网络安全学习方法、背景和发展密码学概述和关键算法密码学常见应用身份与访问控制概述、相关技术和常见威胁网络层和主机层常见漏洞和攻击 应用层和数据层常见漏洞和攻击渗透测试概述和相关工具概述信息收集和漏洞扫描技术 网络层主要攻击 、流量捕获技术和初识Netcat 主机层主要攻击 、口令破解和权限提升 OWASP Top 10 概述 、初识SQL注入、XSS和文件上传常见 Web 漏洞解析Web安全工具DVWA部署 、暴力破解和命令注入实操XSS 、 文件包含和文件上传实操SQL回显注入 、 SQL盲注和CSRF实操网络层和主机层安全防护技术基础Web应用层和数据层安全防护技术基础讲师介绍:唐俊飞:铭学在线创始人,网络安全行业知名讲师、CISSP、阿里云安全ACP、CISP、中国信息安全测评中心授权培训师资质(CISI)、 CSA(云安全联盟)大中华区授权培训师资质、阿里云MVP。16年网络信息安全以及培训领域从业经验,具有较强的网络安全管理、技术、咨询和培训实战项目经验,曾就职于:运营商、上市安全企业等。主要讲授CISSP(国际注册信息系统安全专家认证)、CISP(国家注册信息安全人员认证)、信息安全管理、渗透测试、等级保护、网络安全防护体系、云安全等课程资深讲师,培训人数20余万人次。张弛:梆梆安全安全服务团队负责人,致力于移动安全领域研究,目前主要负责移动应用渗透测试、安全培训体系建设、web渗透测试等工作。在职期间参与过重大活动保障、2019年护网行动作为攻击队参与护网行动等,通过自主学习获得了CISP、等保测评师等资格证书。目前在公司担任区域技术经理,深化移动安全的研究以及物、车联网方向的研究。张宁:梆梆安全高级培训讲师,在web安全和移动安全领域拥有数年渗透经验。在金融行业渗透测试有着丰富经验,目前为华夏银行,中信银行等多家银行服务过,也曾作为讲师为CCTV7,中原银行,金谷银行进行安全科普,漏洞挖掘等培训。适用人群:对网络安全感兴趣的在校大学生、网络安全初学者、希望掌握安全基础技术的IT在职者你能学到:网络安全相关的基本概念、基础渗透技术、基础防护技术等
第17课:Spring Boot2.0 实战Docker容器Linux与架构原理
直播内容:第17课:Spring Boot2.0实战Docker容器Linux内容摘要:Docker是最流行的开源容器引擎,Go语言开发,在互联网大规模集群、云计算、微服务等架构中广泛使用。本次课程一起学习Docker容器架构原理、如何基于Linux系统实战实战Docker容器,打包、发布、运行Java Spring Boot2.0应用。讲师:徐雷(点击关注专家,掌握一手干货)阿里云栖Java技术专场讲师2018阿里云大学讲师,与阿里P9叶翔主讲《阿里巴巴MongoDB高级实战课程》《阿里巴巴MongoDB认证》讲师阿里巴巴MongoDB大会讲师2017翻译《MongoDB实战》第2版吉林大学计算机学士,上海交通大学硕士直播地址:Java技术进阶群3000人大群进群方式:钉钉扫码入群
全网首档操作系统探访体验栏目“龙蜥+超级探访”震撼上线!看国产 OS 如何乘风破浪
如何联合开源技术与国际社区形成双向互动,消除 CentOS 策略变更带来的影响?“全网首档操作系统探访体验节目”《龙蜥+超级探访》重磅上线!统信软件既是实现开源和商业互补协作的成功典范,又是身先士卒引领伙伴投身开源的“大队长”,也是龙蜥+超级探访首期走进的企业。且看龙蜥社区联合行业内生态伙伴何实现从技术创新到商业变现的跨越。
中移动算力网络中的云原生虚拟化
中国移动信息技术中心 PaaS 架构师魏宝辉分享了《中移动算力网络中的云原生虚拟化》技术演讲。他对中国移动算力网络的基本布局规划做了简要介绍,算力网络是以算为中心、网为根基的新型信息基础设施 。通过技术升级实现算力无处不在、网络无所不达、智能无所不及的愿景。 在多样性算力的开发过程中,对云原生技术栈的需求愈发突显,开发团队多,发布调试频繁,对 k8s 集群环境需求量大,但是算力资源有限,开发环境的供给速度,跟不上业务的发展速度。中国移动信息技术中心通过 kubevirt 的云原生虚拟化技术,结合 gitops,云 ide 等工具体系,打造了自动化交付的全功能开发环境。在技术上采用了 vm in pod 的模式,并将 k8s 集群放入 pod 内。有效突破了物理机供给 k8s 集群紧张的情况,实现了用 8 台物理主机交付 170 多个开发集群。这种高效的自动化交付能力,也通过云原生虚拟化技术屏蔽了底层的硬件差异,以标准化的 k8s 交付方式,满足开发者的集群使用需求,提升算力资源的利用率,释放更大的算力价值。
Agent 时代下的全局 KVCache 管理架构演进
本演讲聚焦Agent场景下KVCache的存储需求和带来的挑战,梳理了KVCache管理模式的演进路径。重点介绍了SGLang生态中的Hf3fsMetadataServer(MiniManager),以及阿里云即将开源的企业级全局KVCache管理系统—-TairKVCacheManager。该系统已实现对Mooncake的原生支持,为Agent时代的大模型推理提供稳定高效的KVCache存储支持。
释放硬件潜能,激活软件生态 《龙蜥+超级探访》第二期走进 Intel
作为龙蜥社区的创始理事单位,以及全球最大的半导体芯片制造商,英特尔为龙蜥提供先进的硬件优化技术,是开源社区创新技术孵化合作的完美典范,也是本期《龙蜥+超级探访》走进的企业。本次访谈邀请了英特尔副总裁、英特尔软件和先进技术事业部总经理李映,英特尔技术总监、龙蜥社区理事杨继国,阿里云服务器操作系统产品经理贾正华,阿里云高级技术专家、龙蜥社区英特尔 Arch SIG Maintainer 丁宁,阿里云 Higress & MSE 云原生网关产品负责人耿蕾蕾等 5 位业界专家,深度解读在操作系统产业面向 AI 升级换代的历史节点上,英特尔如何联手龙蜥布局“云+AI”的未来?在双向奔赴的合作历程中,龙蜥与英特尔如何完美搭配将创新技术孵化至成熟产品,进而服务关键业务场景?
缓存一致性总线 CXL 的技术及应用研究 |龙蜥大讲堂 85 期
直播内容: 以 CXL 为代表的缓存一致性总线的出现,使得 CPU 之间、CPU 与异构加速器之间可以实现缓存一致性和多元异构计算融合,提升 CPU 与加速器之间的协同效率,实现大规模内存扩展与内存资源池化,有效提高内存资源利用率,提高服务器系统的可扩展性,灵活满足内存数据库、AI 异构加速、云计算等大内存和异构计算应用场景需求。《CXL 技术及应用研究》直播进行 CXL 技术基础剖析讲解,并分享应用 CXL 技术进行系统设计的应用心得。 听众受益: 理解 CXL 基本原理和应用场景,交流在工程上的应用实践。 适合人群: 软硬件工程师、系统架构师。 讲师介绍: 高显扬,浪潮信息硬件开发高级工程师,负责新一代融合架构系统设计,创新系统架构,实现大规模主机和资源解耦。从事的领域有系统架构设计、信号完整性分析、软硬件协同设计等。
libvirt 虚拟机热迁移流程简介 |龙蜥大讲堂81期
直播主题:libvirt 虚拟机热迁移流程简介 直播时间:2023 年 05 月 31 日(周三)16:00-17:00 直播内容: libvirt 是用于管理虚拟机的开源项目,是各大基于 OpenStack 二次开发的云平台管理底层 qemu-kvm 虚拟机的核心组件,而热迁移作为虚拟机管理中较为常用的功能,其在稳定性和效率关乎云平台的整体使用体验,本次分享主要讲解虚拟机热迁移在 libvirt 项目中的主要流程及迁移参数作用和影响。 听众受益: 了解 libvirt 虚拟机热迁移整体流程,迁移方式及关键迁移参数作用及影响。 适合人群: 云计算研发人员。 讲师介绍: 李东世,浪潮数据云计算高级研发工程师,负责浪潮数据云平台核心功能开发及维护,主导底层虚拟化相关功能开发、问题定位处理。
全面繁荣开发者生态分论坛-2023龙蜥操作系统大会
开发者生态是开源社区繁荣发展的力量源泉,本次专场我们将邀请业界合作伙伴、科研院所、开发者分享基于龙蜥开发者服务平台的工具实践,探讨面向未来的开发者服务新范式;同时基于“众测共创”一期建设经验,隆重推出“众测共创”升级计划,以更大力度、更开放的姿态汇聚开发者力量,共建一流的开源社区开发者生态。讲师/嘉宾简介技术专家
从 EPD 到 SGLang-Omni:图像密集场景推理加速实践与下一代全模态推理架构演进
本次分享展示EPD在图像密集请求(4–8张/次)下的优化:1 QPS时比非分离部署延迟低约6–8倍,高QPS下吞吐增约2倍;解析EPD解耦架构如何以组件弹性扩展与异构部署避免Prefill节点成倍扩容。并聚焦SGLang面向Omni多模态的系统演进,阐述如何将LLM推理扩展到文本、图像、音频、视频多模态IO,以及Processor拆分、数据流与调度、多阶段推理协同等关键设计与实践。
超融合 Kata 虚拟化容器技术介绍 | 龙蜥大讲堂 78 期
直播主题:超融合产品中的 Kata Containers直播时间:2023 年 05 月 17 日(周三)16:00-17:00直播内容:超融合技术融合基础实施为企业用户提供虚拟化、容器等不同形态的服务。本次直播分享 Kata 虚拟化容器技术,及超融合产品为集成 Kata 容器而进行技术方案演进历程,讲解超融合 Kata 容器技术设计与应用。听众受益:了解 Kata 整体架构,识别云原生现有方案在超融合环境下技术缺陷。适合人群:云原生及 Kata 爱好者,云计算、超融合研发工程师等。讲师介绍:王永超,浪潮数据超融合云原生工程师。负责浪潮信息超融合产品容器方案设计、研发及参与 Kata、Kubernetes 等开源项目贡献等工作。
ROLL:面向大规模 AgenticRL 的异步解耦与异构算力调度实践
本次分享将介绍阿里巴巴自研强化学习框架ROLL及其针对AgenticRL异构负载的深度优化方案。重点解读如何通过异构硬件亲和性调度、细粒度异步编排以及状态感知的按需弹性部署,攻克大规模场景下的通信与计算瓶颈。目前,ROLL已在三千卡集群、千亿参数MoE模型上实现了生产级的极致吞吐;此外,我们将探讨ROLL与Mooncake存算分离架构结合的未来演进,进一步释放大规模RL后训练的潜力。
共建大模型推理生态:Mooncake、KTransformers 与 SGLang
Mooncake 是一个以 KVCache 为中心、面向解耦场景设计的分布式大模型推理架构,通过零拷贝传输、多网卡池化与链路优化、弹性扩展与高效内存利用等技术,助力 SGLang 实现了 KVCache 的高效跨节点传输与共享,显著提升了推理性能。KTransformers 是一个 CPU/GPU 混合的大模型异构推理框架,基于 AVX/AMX 指令集,实现了 NVFP4、FP8、BF16 等原生精度 MoE kernel,支持了高效的原生精度推理;同时,使用专家级流水线进行流式预填充,通过 SGLang 的 GPU MoE Kernel 实现了 layerwise prefill 架构,大幅提升长上下文场景的吞吐与延迟表现。本次分享将聚焦于 Mooncake 和 KTransformers 的架构设计、关键技术特性、最新进展,以及与 SGLang 的集成实践和应用效果。
智算新范式:基于 Anolis OS 构建 Confidential AI Agent — OpenClaw-CC 隐私保护实践|龙蜥大讲堂144期
近日,英特尔中国高级工程师朱运阁与龙蜥社区云原生机密计算 SIG Contributor 赖堃共同带来了《智算新范式:构建 Confidential AI Agent》的主题分享。他们基于Intel® TDX(可信域扩展)技术与龙蜥社区开源生态,深度解析了 OpenClaw-CC 项目的架构设计与落地实践,展示了一套从硬件根信任到应用层隔离的全栈机密计算解决方案,为您系统化拆解如何构建“可用不可见”的机密智能体。
从主线到龙蜥的内核创新,驱动下一代 AMD EPYC 计算平台
阿里云智能集团技术专家冯光辉、AMD 资深内核专家舒明联合分享了《从主线到龙蜥的内核创新,驱动下一代 AMD EPYC 计算平台》。冯光辉介绍了 AMD Genoa、Turin 等平台在龙蜥操作系统中的适配现状,重点展示 INVLPGB、Bus Lock Trap、IBS 等高阶能力的落地情况,并分享了未来在 I/O 加速、SEV-SNP 机密计算等方向的社区支持计划。舒明则全面分享了 AMD EPYC 在开源生态中的技术投入与创新成果,涵盖从 Linux Kernel 上游社区的前沿开发进展到龙蜥社区的产品化支持;也深入解析了 AMD 工程师在 Linux Kernel Upstream 社区的最新补丁进展,包括 SDCI、PML、SDXI、vIOMMU 等关键特性,探讨其在实际应用中的价值与对下一代 AMD CPU 的支持。
使用 SGLang 进行高效稳定的强化学习
SGLang 贡献者、阿里巴巴集团通义千问(Qwen)团队成员林骏荣做了题为《使用 SGLang 进行高效稳定的强化学习》的主题演讲。近期,SGLang 强化学习团队在提升强化学习(RL)训练稳定性、并缩小训练与推理误差方面取得了显著进展。在本次演讲中,我们回顾了这些进展,讨论其背后的关键动机和解决方案。
一个高效可扩展的 Agentic RL 框架
近期,强化学习的任务形态正从以reasoningtask为主,逐步演进为更复杂的Agentictask。这类任务引入了agentframework,更加复杂的数据生成流程与稳定性挑战,对RL训练框架提出了全新要求。本次演讲将聚焦slime框架,系统介绍其针对AgenticRL场景所做的一系列关键优化设计,包括灵活的rollout机制、解耦的agent接入方式、高效的并行与同步策略等,全面展示slime如何显著提升AgenticRL训练的scalability。
智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?
大模型正从“参数竞赛”转向“应用落地”,算力的性能、成本与工程效率成为关键瓶颈。本圆桌邀请阿里云、中兴、沐曦、浪潮等企业专家,探讨三大关键:如何通过软硬协同释放异构算力效能?SGLang与开源社区如何降低部署门槛?在 AI 运维与垂直行业中如何构建稳定、弹性且低成本的推理方案?最终推动AI从技术突破走向产业落地。
全面深度云原生化分论坛-2023龙蜥操作系统大会
本话题将介绍龙蜥操作系统在云原生领域的深入探索和场景优化,展示其针对云原生所做的全面优化以及强大特性,邀请龙蜥社区的用户介绍这些特性在各自领域的落地情况。通过讲解基础软件的优化方法和案例,为听众提供关于如何在云原生场景下提高性能、安全性和稳定性的建议。同时我们也会邀请学术界大拿,为大家带来云原生领域前沿的探索信息。讲师/嘉宾简介技术专家
Perf Arm SPE介绍与使用
SPE是Armv8.2引入一种性能剖析机制,可以提供更加细节的CPU运行时采样信息。本次分享主要介绍如何在倚天710平台上利用Arm SPE特性定位伪共享问题、分析内存访问、分析指令延时以及监控访存延时等功能。
SIMD 指令集在 OpenJDK 中的现状与未来|龙蜥大讲堂 14 期
通过本次讲座,Java 开发者可以进一步地了解到一些 Java 代码背后的行为,特别是与 CPU 硬件相关的性能优化,进而理解如何使用 SIMD 指令集进一步提升 Java 代码的性能。同时,听众能大概了解 SVE 这一最新的 Arm SIMD 指令集架构。
OCP GPU RAS规范解读|龙蜥大讲堂
本次演讲重点介绍面向大规模数据中心的GPU RAS能力建设要求,包括大规模数据中心集成过程中遇到的痛点问题,GPU RAS功能及管理要求、GPU系统级故障注入、错误报告及调试转储等内容。
Mooncake 大模型开源生态体系建设与产业应用实践|龙蜥MeetUp
介绍了大模型推理架构Mooncake。该架构通过创新的KVCache中心设计,显著提升了Kimi智能助手的推理吞吐和成本效率,已引起业界广泛关注。近期,清华大学与阿里云等多家企业宣布共建Mooncake项目,旨在构建高性能推理框架的开源生态。阿里云与清华大学共同探索了大模型资源池化技术的工业应用,推动推理实例共享与缓存池化层标准化,实现高效分布式资源解耦,提升大模型长上下文推理性能。目前Mooncake已在vLLM/SGLang等多个推理框架集成,并在多家企业落地。
高效可靠的处理器微体系结构性能测量技术
在Arm成熟的软硬件生态支持下,Arm架构处理器走进数据中心。应用的跨平台迁移及处理器设计研发均依赖于处理器微体系结构的性能数据,准确、可靠的性能测量是性能工程的重要基础。本次演讲围绕性能测量,着重分享了两项工作。第一项工作是关于如何高效地复用硬件性能计数器进行可靠测量,此项工作主要针对现有工具在复用硬件性能计数器测量时存在的低效行为,通过研究Linux内核性能事件的调度机制,提出一种自适应的性能事件分组方法提高性能计数器的复用效率。第二项工作是关于Arm架构处理器实时内存带宽的通用测量方法,Arm架构的灵活性赋予了各硬件厂商定制处理器的能力。此项工作探索了Arm架构下实时内存带宽测量通用方案的可能性。
阿里云与龙蜥携手打造智算时代最佳服务器操作系统
阿里云基础软件部产品总监张鹏程从阿里云和龙蜥的角度,详细介绍了在共建服务器操作系统这条路线上走过的历程,以及未来的发展方向。随着 AI 时代推动云计算迎来第三次浪潮,借力"云+AI"趋势,阿里云携手龙蜥打造云上体验最佳的服务器操作系统 - Alibaba Cloud Linux/Anolis OS。经过 15 年的经验积累,阿里云明确了一个新兴方向和四大战略领域,形成 1+4 开源战略。开源是系统软件的源头活水,基于开源的丰饶土壤,阿里云把更多的先进技术传递到整个产业,也通过这样的生态拓展方式,让更多的行业从事者可以去拥抱这些技术和探索产业落地机会。而龙蜥得益于治理模式的成功和商业+开源的双轮驱动,已经成为国内活跃贡献机构最多、最多样化的社区,在云智融合浪潮下迈向高质量发展阶段。
基于内核剖析的故障分析和智能运维实践 | 龙蜥大讲堂75期
通过阿里云大量的运维经验, 云应用复杂的问题单纯从应用自身或者的内核的已有指标难以定位。都需要深入内核的深入分析,作为阿里巴巴操作系统部门系统服务团队,我们提供阿里巴巴全集团内核故障的诊断分析和修复服务,并对阿里云内核疑难问题提供兜底服务,我们基于历史处理过的所有内核故障做系统性梳理和总结,进行大量深入内核的运维探索并贡献到龙蜥社区。
Arks 快速部署推理服务&SIMM 高性能 kv 缓存
arks底层使用rbg作为workload部署管理框架,让开发者专注于推理本身而无需关注底层细节;simm是一个分布式kv存储,快如内存,大如云盘,开箱即用。
AI Agent 在 Anolis OS CVE 数据增强及智能化评估的实践
周彭晨表示,操作系统产品安全是一个不断演进的动态过程,及时发现和修复系统漏洞是操作系统安全合规治理的重要基础,围绕 CVE 的漏洞管理体系直接影响产品的安全响应效率与风险控制水平。同时,以开源组件为基础的操作系统产品存在漏洞数据庞大,漏洞信息不完整、格式不统一、更新滞后等问题,导致误报率高、关键漏洞易被忽略,严重影响处置效率。通过 AI Agent 实现多源信息采集、标准化处理与漏洞智能增强,并利用 AI Agent 辅助进行漏洞影响的评估和分析,可有效提升漏洞处理的效率和准确性。
如何测试硬件设备与龙蜥操作系统的兼容性?|龙蜥大讲堂12期
硬件生态是一个操作系统的重要基石。但是硬件种类众多,各种各样的服务器和板卡外设,这些硬件设备与龙蜥操作系统(Anolis OS)各个发行版的兼容性如何?如何评估?龙蜥操作系统的潜在用户如何查询自己的硬件设备与龙蜥操作系统的兼容性?这次就和大家聊一聊龙蜥社区硬件兼容性 SIG 的主要工作,包括龙蜥社区硬件兼容性列表、硬件兼容性申请流程以及硬件兼容性测试套件 ancert 用法等。
龙蜥社区 Intel ARCH SIG 阿里云实践之路
介绍了龙蜥社区发展现状,讲解了 Intel Arch SIG、Anolis 内核 ANCK 以及商业发行版 Alibaba Cloud Linux 内核之间的上下游关系,并分享了阿里云选择 Anolis OS 作为上游的原因。随后,介绍了 Intel Arch SIG 目前的工作进展,对 Intel 主流服务器平台支持的情况。最后,通过解决方案在阿里云应用场景的最佳实践对 Intel Arch SIG 合作成果进行的展示。
基于英特尔®DL Boost技术的 AI 性能优化
黄文欢介绍了基于英特尔®深度学习加速(Intel®DL Boost)技术的 AI 性能优化相关内容。首先介绍了英特尔®AVX-512 及深度学习加速技术在各代英特尔®至强®处理器上的演进,包括第一代深度学习加速技术 VNNI;第二代®深度学习加速技术 BFloat16;及下一代深度学习加速技术 AMX。接下来,和大家一起分享了这些深度学习加速技术在龙蜥社区 AI SIG 中的应用及带来的性能提升,包括对深度学习框架 TensorFlow 和 PyTorch 的优化,及用于模型压缩的优化工具 INC。最后介绍了下一代至强可扩展处理器 Sapphire Rapids 上 AMX 技术,并分享了其理论性能提升及相关应用场景。
基于 ContainerOS 应用的实践经验
统信软件研发主管、龙蜥容器优化 OS SIG Maintainer 王磊分享《基于ContainerOS应用的实践经验》主题演讲。ContainerOS 会加速云原生建设,提供更轻、更稳定、更便捷的云底座 OS。系统只保留了系统运行的软件包和容器运行依赖的软件包,使系统更轻更薄;系统关键目录采用只读权限,不再提供 yum 等软件包管理方式,所有应用都以容器镜像方式运行,使系统更稳定安全;在一个云原生的集群里以一个整体系统镜像为原子进行更新和升级,确保集群内每个节点的软件包版本都是一致固化的,使系统升级更简单。更多内容可以关注龙蜥云原生 LifseaOS 和统信云原生操作系统。
Cloud Hypervisor or Cloud Native Hypervisor
2020年11月5日,OpenAnolis社区(Anolis is not just Linux System)联合Open Infrastructure基金会举办了首场线下meetup,围绕「Cloud Native Infrastructures」主题,各路大牛相聚北京阿里中心。本次活动共计8大议题。来自阿里云、蚂蚁集团、Intel、中国移动、红帽等公司的技术专家围绕内核、容器及虚拟化等云原生基础设施技术展开探讨,解析相关开源技术内幕及社区进展,分享企业落地及实践经验。讲师及内容介绍Intel 系统软件部云原生基础设施软件研发经理朱江云介绍Cloud Hypervisor诞生的缘起,从其架构和特性的介绍,我们可以看到Cloud Hypervisor是一款为云原生打造的虚拟机管理器。Clou Hypervisor技术委员会成员刘奖分享了云原生基础设施对于Kata Containers和Cloud Hypervisor在理论和实践上的根本诉求,给了大家进一步的思考和启发。
AI 场景安全防护:基于 eBPF 的勒索病毒、挖矿病毒检测与防御机制|龙蜥MeetUp
分析了AI产业面临的数据、算力与系统安全威胁(如勒索病毒、挖矿病毒)。提出了解决方案:基于eBPF-LSM技术结合勒索病毒行为分析,实现基于诱饵的防御,保障数据完整性与保密性;基于eBPF+kprobe技术结合挖矿病毒动静态特征,实现检测与防御,防止算力滥用;旨在为AI场景构建坚实可靠的安全防线。
Co-Sight:基于多 Agent 动态规划与分层反思的下一代 AI 决策系统|龙蜥MeetUp
探讨了AI技术应用于复杂任务时,传统大语言模型(LLM)在动作决策和多步推理上的局限性。构建具备自主规划与动态纠偏能力的智能体系统成为关键挑战。中兴通讯介绍了其Co-Sight框架,该框架通过多Agent协同架构(Plan-Actor-Memory)实现任务降维,结合实时上下文精炼消除冗余,并依托分层反思系统生成奖惩信号以动态优化DAG执行路径。其核心创新在于关注点分离与闭环反思机制。在GAIA评测中,Co-Sight以72.73%综合得分超越Google DeepMind与OpenAI,在复杂多步任务(L2级)中稳定性显著领先。
基于 LLM Agent 的智能诊断机器人|龙蜥MeetUp
陈诗雁介绍了系统运维的现状和难点、智能对话机器人的发展、大模型在系统运维的应用、基于大模型智能体的诊断机器人设计,并演示了 SysOM 智能诊断机器人。智能机器人和运维平台是相辅相成的关系,运维平台的诊断能力成就了智能机器人解决实际问题的能力,智能机器人帮助运维平台更好地发挥和展示运维能力。
SysOM 健康度和 Livetrace 的评测方法探索|龙蜥MeetUp
Livetrace 作为一种先进的操作系统级性能分析方法,能够通过不断地监测操作系统、容器运行环境以及应用程序等多个层次的性能指标,深入揭示整体性能瓶颈。借助 Livetrace,软件的性能管理更加稳健,性能表现的可预测性得到显著提升。
龙蜥社区技术委员会副主席苏志远:浪潮信息与龙蜥实现共赢
浪潮信息系统软件产品部总经理、龙蜥社区技术委员会副主席苏志远讲述了浪潮信息如何在一年时间从理事单位晋升为副理事长单位,分享双方在AI、安全层面的最新合作成果。
龙蜥操作系统
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。