Gartner 2023 可观测性魔力象限解读和启示 | 龙蜥社区系统运维 MeetUp
围绕 Gartner 关于 APM 和可观测性魔力象限谈了谈他的一些想法。据 2023 年最新的可观测性魔力象限报告显示,目前,其已受到社会各界广泛关注,市场空间占比也很大,而入选魔力象限可分为“技术”和“非技术”两项指标。接着,他详细介绍了 Leader 象限供应商的特点、Visionaries 象限供应商的前瞻性、Niche Players 象限解决了用户哪些痛点等。最后总结了可观测性的发展趋势。
bclinux-sysmt 跨版本升级 OS 流程解析 | 龙蜥大讲堂第 56 期
bclinux-sysmt 基于开源 leapp 框架,适配多种操作系统升级场景,提供从 CentOS / BC Linux 7.x 等到 BC Linux 8.2 版本就地跨版本升级的功能。本次分享将介绍 bclinux-sysmt 的工作流程和实践经验。
解读集群镜像“开箱即用”神器——sealer!| 龙蜥大讲堂第 11 期
集群镜像把整个集群看成一台服务器,把 k8s 看成云操作系统,实现整个集群的镜像化打包和交付,为企业级软件提供一种“开箱即用”的应用封装技术。以行业 ISV为例,集群镜像帮助企业解决了分布式软件的部署一致性难题、降低了交付出错率,最终指数级降低分布式软件的交付成本。受 docker 等容器技术的启发,集群镜像将单机应用封装技术,上升到分布式集群维度,最终实现分布式软件的高效交付(build、share、run)。
英特尔®资源调配技术(英特尔®RDT)与业务混布
崔龙一开始介绍了多核心服务器上,由于资源共享带来的云上服务 QoS 波动,以及 Intel RDT特性对于内存带宽和 L3 cach e用量的监测和分配技术对于保证 QoS 的保障作用 ,intel RDT 特性在上游 Kernel 的支持情况。接着详细介绍了如何通过 pqos 和 Kernel resctrl 接口使用 Intel RDT。同时还以 speccpu 为例,说明了不同负载,对资源的敏感程度差异较大。最后介绍了一系列 Intel RDT 在实际业务混部中部署的实例。
一站式自动化测试平台的探索与实践
开源软件发展迅速,应用非常广泛,其质量保证在开源社区以及评测机构都面临巨大的挑战,传统的自动化测试平台在运行模式、测试场景上具有非常大的局限。龙蜥社区的开源项目 T-One 一站式质量协作平台,打通了从测试设计、测试计划、用例集成、测试部署、测试执行、结果分析、测试报告等整个测试流程闭环,源于阿里云操作系统团队经过多年的内部业务打磨,支撑了 30 多个团队产品质量保证的通用自动化测试平台,超过 930 万小时的运行时间,具有非常高的稳定性和运行效率。 T-One 在龙蜥社区开源后,通过 T-One SIG 兴趣组,构建了开源版、企业版、机构版三大下游版本,多家合作单位接入社区开源版或者内部独立部署,共同贡献,在社区获得了快速的发展。电子五所于 2021 年 12 月加入龙蜥社区作为合作伙伴,基于T-One SIG 在社区合作开发了 T-One 机构版,在 testlib 组件上进行了非常深入的合作,共同参与测试需求管理、用例管理、设备管理等模块的开发,积极推动评测平台标准化。后续会进一步加深合作,双方基于开源模式,持续完善 T-One 功能,提升评测效率,在 AI 技术引入、下一代质量技术标准的探索上,加深与龙蜥社区的合作,共同把 T-One 打造成为具有广泛影响力的标准化质量平台。
IAA 加速热迁移方案介绍
IAA 加速器是 Intel SPR 平台携带的用于压缩/解压缩的硬件加速器。刘源详细介绍了 IAA 加速器软件栈, IAA 加速热迁移方案以及 IAA 高效的处理任务、 IAA 压缩无需内存拷贝等技术。
基于内核剖析的故障分析和智能运维实践 | 龙蜥大讲堂75期
通过阿里云大量的运维经验, 云应用复杂的问题单纯从应用自身或者的内核的已有指标难以定位。都需要深入内核的深入分析,作为阿里巴巴操作系统部门系统服务团队,我们提供阿里巴巴全集团内核故障的诊断分析和修复服务,并对阿里云内核疑难问题提供兜底服务,我们基于历史处理过的所有内核故障做系统性梳理和总结,进行大量深入内核的运维探索并贡献到龙蜥社区。
sysAK(青囊)系统运维工具集:如何实现高效自动化运维?
云栖大会龙蜥专场论坛有9大主题、14位大咖亲临现场畅聊、分享,为龙蜥社区打 Call、上手龙蜥 OS 沉浸式体验.......来自开源社区领袖、高校专家学者、社区合作伙伴、开源技术专家等 14 位重磅嘉宾坐而论道,《OpenAnolis 龙蜥操作系统开源社区技术创新白皮书》正式发布!本场论坛特邀嘉宾 SegmentFault 思否 COO,开源社副执行长江波为整场论坛主持。云栖系列视频已经上线,欢迎观看:云栖大会龙蜥专场论坛 。讲师及内容介绍阿里云高级技术专家张毅分享《sysAK(青囊)系统运维工具集:如何实现高效自动化运维?》,从 What is sysAK、典型工具介绍、开源 3 方面介绍了 sysAK 系统,目前 sysAK 工具集已经在龙蜥社区开源,并且在系统运维 SIG、跟踪诊断 SIG 一起共建,希望大家后期加入 SIG 一起讨论共建。
Alibaba Dragonwell:如何基于Anolis的企业级Java应用规模化实践?
云栖大会龙蜥专场论坛有9大主题、14位大咖亲临现场畅聊、分享,为龙蜥社区打 Call、上手龙蜥 OS 沉浸式体验.......来自开源社区领袖、高校专家学者、社区合作伙伴、开源技术专家等 14 位重磅嘉宾坐而论道,《OpenAnolis 龙蜥操作系统开源社区技术创新白皮书》正式发布!本场论坛特邀嘉宾 SegmentFault 思否 COO,开源社副执行长江波为整场论坛主持。云栖系列视频已经上线,欢迎观看:云栖大会龙蜥专场论坛 。讲师及内容介绍阿里云高级技术专家郁磊分享《Alibaba Dragonwell:如何基于Anolis的企业级Jave应用规模化实践?》。郁磊表示,选择阿里巴巴 Dragonwell、Eclipse Temurin 两款发行版,有专业团队,超大规模的十年服务经验,帮助大家进行 Java 企业计算。有 7×24 小时的电话/钉钉支持应急支撑,还有定期的升级推送、迁移服务、根因定位和交付。
C 转 Rust 的 AI 自动化方法
C 语言是非内存安全开发语言,在主流 Linux 操作系统中 C 语言代码占比超 70%,其中内核中的 C 语言代码超 90%。谷歌报告显示,超过 70% 高危漏洞源于内存安全问题。OpenSSF 也提出通过替换非内存安全的语言来消除内存安全漏洞是根本方法。统信服务器产线架构师张海东分享了《C 转 Rust 的 AI 自动化方法》,结合 AI 大模型 ,提出了一种 C 语言项目转换为 Rust 语言的一种可行性方法,提高系统关键组件的安全性,消除内存安全问题。
AI 场景安全防护:基于 eBPF 的勒索病毒、挖矿病毒检测与防御机制|龙蜥MeetUp
分析了AI产业面临的数据、算力与系统安全威胁(如勒索病毒、挖矿病毒)。提出了解决方案:基于eBPF-LSM技术结合勒索病毒行为分析,实现基于诱饵的防御,保障数据完整性与保密性;基于eBPF+kprobe技术结合挖矿病毒动静态特征,实现检测与防御,防止算力滥用;旨在为AI场景构建坚实可靠的安全防线。
SysOM 健康度和 Livetrace 的评测方法探索|龙蜥MeetUp
Livetrace 作为一种先进的操作系统级性能分析方法,能够通过不断地监测操作系统、容器运行环境以及应用程序等多个层次的性能指标,深入揭示整体性能瓶颈。借助 Livetrace,软件的性能管理更加稳健,性能表现的可预测性得到显著提升。
PAS工具分享 - FrameScope与RTRadar
云计算服务的主营业务之一便是资源售卖,云厂商会采购不同平台、不同型号的服务器,通过池化技术整合机器资源,再将不同规格的资源弹性售卖给开发者。对开发者而言,是否能够在这众多的云服务器产品中选择出能运行目标程序最佳性能的产品,同时能够在此基础上进一步优化程序性能从而充分利用云资源的性能,是提升上云性价比的第一要务,而FrameScope可以协助用户快速应对上述场景。在应用性能评估中,事务执行延迟是重要指标之一,随着分布式架构的广泛应用,厂商可通过分布式链路跟踪技术(例如Dapper)将延迟瓶颈定位到单节点上(物理机、虚拟机、容器),然而深入分析单节点上复杂的事务延迟时,现有工具往往显得不足。针对以上问题,阿里云自研了一套工具,通过采集事务关键事件以及内核系统事件,重建事务执行过程、分析依赖关系、量化各影响因素对整体延迟的贡献占比,从而定位延迟瓶颈。
阿里云 Confidential AI 最佳实践
为缓解用户对 AI 模型上云产生的隐私与合规问题,阿里云Confidential AI(CAI)实现了一种覆盖模型数据生命周期的端到端通用框架,揭示了机密计算在AI系统安全方面的重要价值。未来,CAI 将利用远程证明体系提供基于软件供应链的可验证代码透明度,为用户提供独立验证 CAI 隐私和安全保证的能力。
进化、重构、赴未来,龙蜥加速推进产业面向AI时代变革 | 2024龙蜥大会主论坛
龙蜥社区理事长马涛:龙蜥操作系统现已服务用户超过 100 万,是国内规模最大、生态最全面的服务器操作系统之一。龙蜥社区将秉承“云+AI”的创新理念,协同千余伙伴投身三大计划,践行 AI 原生操作系统路线,力求重塑操作系统在 AI 时代的核心竞争力。
基于英特尔平台加速 AI 应用及 LLM 推理性能介绍|龙蜥大讲堂第115期
了解新一代英特尔®至强®可扩展处理器,对深度学习和经典机器学习方面的加速能力;大语言模型推理的常见优化技术;英特尔开源 LLM 高速推理框架 xFasterTransformer 的相关优化策略及效果。
阿里云倚天在时空智能服务上的规模化应用 --千寻位置核心业务迁移实录
介绍了千寻位置迁移倚天处理器 ECS 实例的背景,并对迁移过程中涉及的准备工作、迁移步骤以及迁移过程中的注意事项进行了详细的分析说明,同时就迁移后的成本降低给出了具体测算。通过千寻位置核心业务迁移实践的分享,希望能够帮助更多的用户享受倚天处理器带来的高性价比红利。
低延迟高密度的云原生系统|2023龙蜥操作系统大会
云原生是新一代云计算的主要形态,其中用户应用具有低延迟响应的核心需求,云平台具有高密度部署的核心需求。为满足上述需求,面临着复杂工作流调度、高密高并发启动、低冲突混合部署、动态瓶颈消除的技术难题。该报告介绍了微服务工作流高效调度、容器运行时及启动优化、共享资源隔离管控、QoS 快速恢复等方面所进行的系列研究,有效地解决了上述难题。
阿里云上操作系统迁移最佳实践-SMC|2023龙蜥操作系统大会
随着 CentOS 操作系统的即将停服,云服务器也面临着越来越大的操作系统 EOL 安全隐患挑战。为了应对这个问题,阿里云推出了高效便捷的云上操作系统迁移方案-SMC。本文将以操作系统 EOL 隐患为背景,分享阿里云 SMC 自动化迁移产品方案和云上操作系统迁移最佳实践干货,助力云上客户一键完成操作系统迁移升级。
基于龙蜥操作系统Arm架构下软件迁移和优化案例分享|龙蜥社区走进Arm MeetUp
介绍 Arm 架构下常用性能分析工具,结合龙蜥操作系统分享软件移植的注意事项和实际优化案例,从而帮助大家了解 Arm 架构下软件移植、优化过程中的常见问题和优化思路。
云原生转型之路的多系统运维|龙蜥社区系统运维MeetUp
企业面向几百个转型中间态的系统,通过建设统一对象模型,对异源同域的数据进行解析丰富处理,实现多维数据自主关联。算法和机器学习为复杂的体系提供了动态问题感知和预测的能力。在问题发生后基于根因推荐、同源分析等措施快速故障定界并开始应急处置,保障业务的连续性是首要之责,数智化观测为排障和系统调优提供有效的决策能力。
下一代数据中心互联协议CXL及在龙蜥的规划 | 龙蜥大讲堂第 58 期
CXL 作为下一代高带宽低延迟的互联协议,即将被广泛应用在数据中心之中。本次活动主要介绍了 CXL 的基础概念和规范,当前 Linux 内核和硬件厂商 Intel 对于 CXL 的支持,以及龙蜥社区对于 CXL 的规划。
千万级可观测采集器—iLogtail功能介绍与入门
作为阿里内部可观测数据采集的基础设施,iLogtail 承载了阿里巴巴集团、蚂蚁的日志、监控、Trace、事件等多种可观测数据的采集工作。iLogtail 运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据,目前已经有千万级的安装量,每天采集数十 PB 的可观测数据,广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景。
圆桌讨论:RISC-V 的发展现状和未来方向
在圆桌讨论中,笨叔的一番话语引起了在场嘉宾和观众的强烈共鸣,“我有一个感觉,我们都觉得 RISC-V 最近很火,特别是在国内外高校教学和科研方面,国内大部分的 985 高校,还有部分的 211 高校,他们计算机相关的专业的核心课程已经慢慢取代了原来的 mips 和 x86,转向 RISC-V 作为一个教学,所以高校对 RISC-V 的热情为产业界输出大量的人才,那么对国内自研芯片的发展起到一个推动的作用。另外一方面,我观察到国内做芯片的这些厂商,大部分都是采用 Arm 的 IP 来做,但是已经有不少的厂商,他们也在慢慢尝试采用 RISC-V。大家比较一致的观点,虽然 RISC-V 软硬件生态还不是很完善和完美,但是 RISC-V 是一个趋势,现在正处于趋势的起步阶段。” PLCT 实验室吴伟也表示,“RISC-V 不仅仅只是一个趋势,仅去年一年,全球 RISC-V 芯片的出货量就达到了 100 亿颗,在广大的嵌入式领域中,RISC-V 已经是完完全全地占有了自己的一席之地。而且 RISC-V 也正以惊人的速度向我们视线所及的所有领域开始扩张。”
关于硬件加速器 FPGA 的异构加速流程的介绍 | 龙蜥大讲堂87期
FPGA 作为一种灵活可配置的硬件加速器,在高性能计算中具有很大的潜力,然而如何实现应用层到 FPGA 的全栈集成,仍面临诸多挑战。本次直播将以数据库为例,分享针对数据库瓶颈点的 FPGA 逻辑设计与软件集成方法。
Alibaba Cloud Linux 资源隔离及混部技术
2020年11月5日,OpenAnolis社区(Anolis is not just Linux System)联合Open Infrastructure基金会举办了首场线下meetup,围绕「Cloud Native Infrastructures」主题,各路大牛相聚北京阿里中心。本次活动共计8大议题。来自阿里云、蚂蚁集团、Intel、中国移动、红帽等公司的技术专家围绕内核、容器及虚拟化等云原生基础设施技术展开探讨,解析相关开源技术内幕及社区进展,分享企业落地及实践经验。讲师及内容介绍阿里云高级技术专家庞训磊分享《Alibaba Cloud Linux 资源隔离及混部技术》。Alibaba Cloud Linux资源隔离技术是阿里巴巴经济体的规模化混合部署方案所强依赖的关键技术,是历经多年“双十一”大考的重要落地技术。庞训磊分享了围绕内核中的调度、内存和IO这三大子系统,系统性的讲述Alibaba Cloud Linux内核部分的核心特性实践,探讨了云场景下大规模应用混合部署。
英特尔平台上的功耗性能优化
功耗与性能在许多情况下存在竞争关系,但二者并非总是互斥的。通过合理分配各组件间的功耗,可以有效提升整体性能表现。英特尔高级工程师张锐分享了《英特尔平台上的功耗性能优化》,与现场嘉宾深入探讨了近期基于最新英特尔平台在龙蜥社区中开展的功耗相关工作,并阐述了这些工作的必要性,以及如何运用这些技术来优化功耗管理并提升系统性能。
基于 io_uring 和双 virtqueue 队列的 virtio-blk 数据通路加速方案
阿里云智能集团研发工程师孟繁瑞分享了《基于 io_uring 和双 virtqueue 队列的 virtio-blk 数据通路加速方案》。孟繁瑞提到,阿里云操作系统团队联合 CIPU、盘古等团队,基于 io_uring 的直通能力和 vring pair 的队列设计,改造了 virtio-blk 内核驱动,赋予了用户态程序直接构造 virtio-blk 命令的能力,不仅拓展了 virtio-blk 设备的功能边界,也为基于此技术的后端存储解决方案带来了更大的灵活性和扩展性,为公有云、分布式存储等场景提供了较好的弹性、可并发性和大吞吐能力。目前,这些特性已经合入了 ANCK-5.10 和 ANCK-6.6 中,即将随业务灰度上线。
如何打造开放领先的可观测性数据底座|龙蜥MeetUp
乘云数字提出了构建可观测性数据底座的理念,以实现数据融合和自由开发应用。通过统一数据模型和统一组织构建的思路进行设计指导,全面拥抱 OpenTelemetry,确保了与业界生态的紧密接轨。
为RTP-LLM提供Arm CPU后端,助力Arm AI软件生态持续发展
随着大语言模型(LLM)的普及与应用,AI计算需求快速增长。许多LLM模型运行在基于GPU的硬件上,而随着Arm架构不仅在边缘设备,而且在数据中心领域也愈发流行,如何让RTP-LLM(实时推理框架)有效支持Arm CPU平台变得尤为重要。通过优化LLM在Arm平台的推理性能,可以进一步提升功耗效率和模型部署的灵活性。
新手训练营——使用操作系统智能助手OS Copilot轻松运维与编程
云端问道-第 7 期邀请了阿里云操作系统架构师林演介绍《用操作系统智能助手 OS Copilot, 轻松运维与编程》,主要介绍 OS Copilot 的产品架构、优势、功能及使用方法。
阿里云操作系统迁移最佳实践|飞天技术沙龙-CentOS 迁移替换专场
Alibaba Cloud Linux /Anolis OS 兼容 CentOS 生态,因此能够很丝滑的进行迁移替换。无论是对企业的运维人员,还是对企业操作系统的使用者来说,相对简化了它的维护成本。王喆还通过 SMC 操作系统迁移实践带用户深入了解,不仅阐述了原地迁移方案的独特优势,还针对不同的迁移场景,逐步剖析了整个迁移流程,力求使复杂的操作变得直观易懂,实现了真正的“白屏化”体验。
场景化镜像平台技术解读|2023龙蜥操作系统大会
场景化镜像平台是龙蜥社区推出的统一镜像制作平台,提供容器镜像、虚拟机镜像的 CI、CD 全流程支持。平台分为 【镜像制品】、【制品中心】两个模块。镜像制品向用户开放社区已发布的镜像,用户在镜像制品中可查看镜像描述、镜像下载等;制品中心展示镜像 CI/CD 流程,在 Pipeline 流水线中可追溯构建、测试、安全扫描、发布等每一步流程。镜像平台地址:https://cr.openanolis.cn。
浪潮信息副总裁Donny Zhang致辞|2023龙蜥操作系统大会阿里云分论坛
云计算是改变整个产业生态的重要力量,随着新应用类型的不断出现,它的位置仍然举足轻重,特别是在人工智能这样的一个时代,大算力、大数据、高吞吐、低带宽的网络的需求越来越大。操作系统在整个云计算基础设施里面起到了非常核心的作用,阿里云作为国内云计算方面的领军企业,有雄厚的技术和经验积累,并把在基础软件操作系统方面的一些积累贡献给了龙蜥社区。经过三年发展,龙蜥社区已成为国内领先的操作系统开源根社区,它通过开源、开放的模式来发展下一代操作系统。浪潮信息作为国内最主要的算力基础设施供应商,联合阿里云及其他的合作伙伴,共同把社区建设成中国最好的操作系统社区,未来也将成为国际最重要的操作系统社区之一。
龙蜥操作系统
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。