技术内容小助手_个人页

个人头像照片 技术内容小助手
个人头像照片
2393
0
14

个人介绍

暂无个人介绍

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2025年01月

  • 01.03 17:57:16
    发表了文章 2025-01-03 17:57:16

    通过ROS低代码CADT无代码和可视化能力管理云上基础设施

    本次主题介绍通过ROS低代码CADT无代码和可视化能力管理云上基础设施。首先探讨了云上部署的挑战,如手动部署耗时、缺乏一致性等。接着介绍了阿里云资源编排(ROS)的核心能力,包括资源栈模板和Terraform托管,简化多地域、多账号的自动化部署。重点展示了ROS的可视化编译器,用户无需编写IaC模板,可通过拖拽资源、配置属性实现一键部署。最后讨论了如何利用生成式人工智能开发IaC模板,提升架构设计效率。通过这些工具,可以显著提高云上架构的构建和管理效率,降低学习成本,并确保一致性和标准化。
  • 01.03 17:56:15
    发表了文章 2025-01-03 17:56:15

    加速阿里云部署:Terraform在甄云科技的深度应用

    甄云科技是一家领先的数字化采购平台服务商,通过Terraform实现全球云基础设施的高效管理与快速部署。公司成立于2017年,已服务全球30多个行业的中大型企业,客户遍布20多个国家和地区。利用IaC(基础架构即代码)理念和Terraform工具,甄云科技显著提升了开发与运维效率,减少了人为错误,加快了迭代速度,并支持业务快速扩展,为全球化战略提供了稳固的云基础架构支持。未来,公司将持续优化技术框架,回馈社区,助力更多企业的数字化转型。
  • 01.03 17:55:48
    发表了文章 2025-01-03 17:55:48

    阿里云上的IaC和自动化

    本文介绍了阿里云上的自动化与基础设施即代码(IaC)的整体情况。阿里云提供了2万多个API,每日调用量达300亿次,同比增长40%。文中探讨了自动化集成的方式,包括通过API、SDK和IaC工具,并分析了不同场景下的选择策略。对于资源管理较少的企业,控制台界面更合适;而对于高频变更和复杂操作,API和IaC是更好的选择。此外,文章还提到了低代码/无代码解决方案及AI在IaC和自动化中的应用前景。
  • 01.03 17:54:57
    发表了文章 2025-01-03 17:54:57

    API First:模型驱动的阿里云API保障体系

    本文介绍了阿里云在API设计和管理方面的最佳实践。首先,通过API First和模型驱动的方式确保API的安全、稳定和效率。其次,分享了阿里云内部如何使用CloudSpec IDL语言及配套工具保障API质量,并实现自动化生成多语言SDK等工具。接着,描述了API从设计到上线的完整生命周期,包括规范校验、企业级能力接入、测试和发布等环节。最后,展望了未来,强调了持续提升API质量和开源CloudSpec IDL的重要性,以促进社区共建更好的API生态。
  • 01.03 17:54:12
    发表了文章 2025-01-03 17:54:12

    API稳定安全最佳实践:用阿里云SDK为业务保驾护航

    阿里云智能集团高级技术专家赵建强和曹佩杰介绍了API稳定安全最佳实践,涵盖业务上云真实案例、集成开发最佳实践、配额管理和共担模型四部分。通过分析企业在不同阶段遇到的问题,如签名报错、异常处理不严谨、扩容失败等,提出了解决方案和工具,确保API调用的安全性和稳定性。特别强调了SDK的使用、无AK方案、自动刷新机制以及配额中心的作用,帮助用户构建更稳定、安全的服务,提升运维效率。最终介绍了集成开发共担模型,旨在通过最佳实践和平台工具,保障业务的稳定与安全,推动行业创新与发展。
  • 01.03 17:53:39
    发表了文章 2025-01-03 17:53:39

    AI驱动的开发者工具:打造沉浸式API集成体验

    本文介绍了阿里云在过去十年中为开发者提供的API服务演变。内容分为两大部分:一是从零开始使用API的用户旅程,涵盖API的发现、调试与集成;二是回顾阿里云过去十年为开发者提供的服务及发展历程。文中详细描述了API从最初的手写SDK到自动化生成SDK的变化,以及通过API Explorer、IDE插件和AI助手等工具提升开发者体验的过程。这些工具和服务旨在帮助开发者更高效地使用API,减少配置和调试的复杂性,提供一站式的解决方案。
  • 01.03 17:52:26
    发表了文章 2025-01-03 17:52:26

    长桥科技:通过Terraform自动化为客户提供安全、高效的产品服务体验

    长桥科技通过采用Terraform加速业务上线,实现云资源的高效管理。作为一家金融科技公司,长桥为证券、资管等机构提供数字化解决方案。其SRE团队利用Terraform构建CICD流程,自动化配置云资源及应用配置,简化了基础设施管理,提升了开发效率。通过模块化和自动化部署,新租户的配置从一天缩短至20分钟,显著减少了人力成本和操作复杂度。此外,长桥还遵循编程规范,确保代码的可测试性和复用性,进一步优化了云上基础设施的构建与管理。
  • 01.03 17:51:23
    发表了文章 2025-01-03 17:51:23

    云卓越架构:稳定性支柱整体解决方案综述

    阿里云卓越架构聚焦于五大支柱,其中稳定性是关键。常见的云上稳定性风险包括架构单点、容灾设计不足和容量规划不合理等。为提升稳定性,需从架构设计时考虑容灾与容错、实施变更时遵循“三板斧”原则(灰度发布、可观测性和可回滚性),并确保快速响应和恢复能力。此外,通过客观度量、主观评估和巡检等方式识别风险,并进行专项治理。识货APP作为成功案例,通过优化容器化改造、统一发布体系、告警系统和扩缩容机制,实现了99.8%的高可用率,大幅提升了业务稳定性。
  • 01.03 17:50:45
    发表了文章 2025-01-03 17:50:45

    云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践

    本文介绍了云上网络稳定性体系建设的关键内容,包括面向失败的架构设计、可观测性与应急恢复、客户案例及阿里巴巴的核心电商架构演进。首先强调了网络稳定性的挑战及其应对策略,如责任共担模型和冗余设计。接着详细探讨了多可用区部署、弹性架构规划及跨地域容灾设计的最佳实践,特别是阿里云的产品和技术如何助力实现高可用性和快速故障恢复。最后通过具体案例展示了秒级故障转移的效果,以及同城多活架构下的实际应用。这些措施共同确保了业务在面对网络故障时的持续稳定运行。
  • 01.03 17:49:51
    发表了文章 2025-01-03 17:49:51

    云卓越架构:企业稳定性架构体系和AI业务场景探秘

    本次分享由阿里云智能集团公共云技术服务部上海零售技术服务高级经理路志华主讲,主题为“云卓越架构:企业稳定性架构体系和AI业务场景探秘”。内容涵盖四个部分:1) 稳定性架构设计,强调高可用、可扩展性、安全性和可维护性;2) 稳定性保障体系和应急体系的建立,确保快速响应和恢复;3) 重大活动时的稳定重宝策略,如大促或新业务上线;4) AI在企业中的应用场景,包括智能编码、知识库问答、创意广告生成等。通过这些内容,帮助企业在云计算环境中构建更加稳定和高效的架构,并探索AI技术带来的创新机会。
  • 01.03 17:34:00
    发表了文章 2025-01-03 17:34:00

    阿里云向量引擎快速搭建企业级RAG最佳实践

    本文介绍了基于阿里云搭建RAG(检索增强生成)应用的技术分享。首先回顾了RAG技术背景及其面临的挑战,如大模型幻觉、知识局限和数据安全问题。接着详细讲解了阿里云提供的RAG技术架构,涵盖数据处理、模型服务和高性能检索引擎等多方面能力。最后,通过自研引擎与开源组件的结合,展示了如何快速构建RAG应用,并提供端到端的最佳实践方案,确保系统在企业级应用中的高效性和成本优化。
  • 01.03 16:57:31
    发表了文章 2025-01-03 16:57:31

    企业级推荐开发平台 PAI-Rec

    本文介绍了企业推荐系统的关键技术和解决方案。主要内容分为四部分:1) 推荐系统面临的挑战,如数据治理和算法优化;2) 提高开发效率的解决方案,通过配置化和自动化减少重复工作;3) 高性能推荐算法和推理服务,包括GPU优化和特征组合;4) 高效特征管理平台PAI FeatureStore,支持离线和实时特征处理。文中还提到了EasyRecTorch框架,用于加速训练和推理,并分享了如何通过这些工具提升推荐系统的性能和降低成本。
  • 01.03 15:13:35
    发表了文章 2025-01-03 15:13:35

    阿里云磐久服务器稳定性实践之路

    阿里云服务器质量智能管理体系聚焦自研服务器硬件层面的极致优化,应对高并发交付、短稳定性周期、早问题发现和快修复四大挑战。通过“三个重构”(质量标准、开发流程、交付模式)、“六个归一”(架构、硬件、软件、测试、部件、制造)策略,实现芯片、整机和云同步发布,确保快速稳定上量。此外,全场景测试体系与智能预警、分析、修复系统协同工作,保障服务器在萌芽阶段发现问题并及时解决,提升整体质量水平。未来,阿里云将继续深化大数据驱动的质量管理,推动服务器行业硬件质量的持续进步。
  • 01.03 15:05:43
    发表了文章 2025-01-03 15:05:43

    阿里云算力服务的稳定性演进

    本文介绍了弹性计算稳定性技术的基础能力研究,涵盖稳定性底座、实例异常检测、变更异常检测、风险规避和故障处置等方面。重点讲解了阿里云在ECS稳定性方面的进展,包括高可用架构设计、故障演练验证、持续运行阶段的稳定性保障以及相关工具和功能。此外,还探讨了Confidential AI的最佳实践,解决了大模型场景下的系统级安全风险,并介绍了机密计算产品的能力规划。最后,文章阐述了ACK容器服务的稳定性演进,包括高可用架构、托管节点池、供应链安全、事件体系、全链路检测、版本升级和成本管理等功能,确保用户能够获得高效稳定的容器服务体验。
  • 01.03 14:54:59
    发表了文章 2025-01-03 14:54:59

    从外到内:阿里云弹性与资源交付效率的全景透视

    本文介绍了弹性服务的概念及其在云计算中的重要性。弹性服务通过动态调整云资源,帮助用户应对流量波动,降低成本并提高自动化水平。文中详细探讨了如何从“使用弹性”迈向“善用弹性”,包括定时任务、报警任务和目标追踪等伸缩模式的应用。同时,文章还介绍了阿里云在ECS弹性能力方面的建设成果,如每分钟交付万台实例的能力,并分享了汇量科技和Auto MQ两个客户案例的成功实践。最后,展望了未来在弹性计算领域的技术创新和发展方向,强调了持续优化和提升弹性能力的重要性。
  • 01.03 14:44:31
    发表了文章 2025-01-03 14:44:31

    PAI训练服务:云上大模型训练新篇章

    本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。
  • 01.03 14:13:41
    发表了文章 2025-01-03 14:13:41

    AI推理新纪元,PAI全球化模型推理服务的创新与实践

    本次分享主题为“AI推理新纪元,PAI全球化模型推理服务的创新与实践”,由阿里云高级产品经理李林杨主讲。内容涵盖生成式AI时代推理服务的变化与挑战、play IM核心引擎的优势及ES专属网关的应用。通过LM智能路由、多模态异步生成等技术,PAI平台实现了30%以上的成本降低和显著性能提升,确保全球客户的业务稳定运行并支持异地容灾,目前已覆盖16个地域,拥有10万张显卡的推理集群。
  • 01.03 13:50:17
    发表了文章 2025-01-03 13:50:17

    AI开发新范式,PAI模型构建平台升级发布

    本次分享由阿里云智能集团产品专家高慧玲主讲,聚焦AI开发新范式及PAI模型构建平台的升级。分享分为四个部分,围绕“人人可用”和“面向生产”两大核心理念展开。通过降低AI工程化门槛、提供一站式全链路服务,PAI平台致力于帮助企业和开发者更高效地实现AI应用。案例展示中,介绍了多模态模型微调在文旅场景的应用,展示了如何快速复现并利用AI解决实际问题。最终目标是让AI技术更普及,赋能各行业,推动社会进步。
  • 01.03 13:35:34
    发表了文章 2025-01-03 13:35:34

    PAI企业级能力升级:应用系统构建、高效资源管理、AI治理

    PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。
  • 01.03 13:34:07
    发表了文章 2025-01-03 13:34:07

    PAI年度发布:GenAI时代AI基础设施的演进

    本文介绍了AI平台在大语言模型时代的新能力和发展趋势。面对推理请求异构化、持续训练需求及安全可信挑战,平台推出了一系列优化措施,包括LLM智能路由、多模态内容生成服务、serverless部署模式等,以提高资源利用效率和降低使用门槛。同时,发布了训推一体调度引擎、竞价任务等功能,助力企业更灵活地进行训练与推理任务管理。此外,PAI开发平台提供了丰富的工具链和最佳实践,支持从数据处理到模型部署的全流程开发,确保企业和开发者能高效、安全地构建AI应用,享受AI带来的红利。
  • 01.03 11:40:23
    发表了文章 2025-01-03 11:40:23

    软硬结合助力倚天云原生算力再进化,加速大数据、视频转码上云步伐

    本文介绍了云原生算力的进化,重点讨论了倚天710 CPU在大数据和视频转码场景中的应用与优势。倚天710采用ARM架构,通过物理核设计和CIPU加速卡优化,显著提升了高负载下的性能稳定性,并在实际应用中帮助客户实现了20%-40%的性能提升和成本降低。此外,文章还探讨了操作系统、编译器等底层软件的优化,以及如何通过龙蜥社区和阿里云平台支持更多应用场景,助力企业实现高效迁移和性能优化。
  • 01.03 11:32:31
    发表了文章 2025-01-03 11:32:31

    千行百业,“义”不容辞:通义技术创新与商业实践

    千行百业,“义”不容辞:通义技术创新与商业实践。本次分享分为两部分,首先介绍大模型的快速迭代与普及,探讨通义千问在精度和复杂任务执行上的突破;其次聚焦企业级落地,解决安全性、部署路径及模型调优三大问题。通过多模态理解(视觉、语音)和更强的生成控制力,携手伙伴服务各行业,推动技术向生产力转化,并关注公益应用,助力社会进步。
  • 01.03 11:29:02
    发表了文章 2025-01-03 11:29:02

    通义智文:文档应用赋能千行百业

    通义智文是阿里巴巴推出的大规模文档处理技术体系,旨在提升生产力效率。最初作为阅读工具发布,现已发展为涵盖文档解析、理解、生成等多方面的技术平台。通义智文支持超长文档处理、多模态文本解析,并在法律、教育等领域提供专业服务。其创新算法如VGT版面分析和Layout-LM多模态模型,显著提升了文档处理精度。应用场景包括PPT创作、故事绘本生成及法律文书审查等,赋能千行百业。
  • 01.03 11:25:42
    发表了文章 2025-01-03 11:25:42

    通义万相:视觉生成大模型再进化

    通义万相是阿里云推出的视觉生成大模型,涵盖图像和视频生成。其2.0版本在文生图和文生视频方面进行了重大升级,采用Diffusion Transformer架构,提升了模型的灵活性和可控性。通过高质量美学标准和多语言支持,大幅增强了画面表现力。此外,视频生成方面引入高压缩比VAE、1080P长视频生成及多样化艺术风格支持,实现了更丰富的创意表达。未来,通义万相将继续探索视觉领域的规模化和泛化,打造更加通用的视觉生成大模型。
  • 01.02 15:59:34
    发表了文章 2025-01-02 15:59:34

    面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系

    本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。
  • 01.02 15:57:13
    发表了文章 2025-01-02 15:57:13

    阿里云百炼|析言GBI全新发布:联合云上数据库,助力企业轻松实现ChatBI

    析言GBI是阿里云推出的一款基于AI的智能数据分析产品,通过自然语言处理实现对话式数据分析。用户无需编写代码,即可轻松进行数据查询、分析和可视化。该产品支持多种数据库连接方式(如MySQL、PostgreSQL等),并提供多版本选择以适应不同业务需求。即将发布的动态规划BI分析功能将进一步提升复杂问题的拆解与综合分析能力。欢迎访问阿里云百炼应用广场体验析言GBI,并享受200次免费问题额度。
  • 01.02 15:39:43
    发表了文章 2025-01-02 15:39:43

    云上DevOps自动化的最佳实践

    本文介绍了云上DevOps自动化最佳实践,重点探讨了企业在上云过程中面临的成本管理、运维效率和弹性等问题。通过阿里云的产品和服务,企业可以实现自动化的资源管理、成本优化和高效运维。文章详细阐述了如何利用标签进行成本分析、选择合适的付费类型和实例规格、以及通过弹性伸缩降低成本。此外,还介绍了新功能发布,如统一的实例运维通道界面、AI辅助的运维工具等,帮助企业提升云上业务的管理和运营效率。
  • 01.02 15:31:29
    发表了文章 2025-01-02 15:31:29

    使用云存储构建云上推理平台

    本文介绍了大模型分布式推理的工作流、IO分析、存储需求及解决方案。通过分布式缓存和P2P能力,优化了大规模并发场景下的模型加载与分发效率,提升了推理性能。NAS文件存储和OSS加速器在高并发读取和小模型缓存中表现出色,支持秒级加载和高效数据处理。阿里云存储为开发者提供了稳定、高效的推理环境,助力AI应用快速落地。
  • 01.02 15:23:51
    发表了文章 2025-01-02 15:23:51

    构建AI数据管道:从数据到洞察的高效之旅最佳实践

    本文探讨了大模型从数据处理、模型训练到推理的全流程解决方案,特别强调数据、算法和算力三大要素。在数据处理方面,介绍了多模态数据的高效清洗与存储优化;模型训练中,重点解决了大规模数据集和CheckPoint的高效管理;推理部分则通过P2P分布式加载等技术提升效率。案例展示了如何在云平台上实现高性能、低成本的数据处理与模型训练,确保业务场景下的最优表现。
  • 01.02 15:11:11
    发表了文章 2025-01-02 15:11:11

    MaxCompute年度发布

    本次分享介绍了阿里云MaxCompute在过去一年中的企业级数仓新功能。MaxCompute自2009年诞生,现已服务阿里巴巴集团、蚂蚁集团及众多第三方客户,日处理千万级任务。新功能包括湖仓一体开放性、Data+AI结合、非结构化数据处理(如Object Table)、实时数据处理(如增量物化视图)、性能优化(如MCU2.0和智能调优)以及企业级安全合规能力(如同城容灾和数据脱敏)。这些改进提升了数据处理的效率、安全性和性价比。
  • 01.02 14:35:43
    发表了文章 2025-01-02 14:35:43

    阿里云Milvus产品发布:AI时代云原生专业向量检索引擎

    随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
  • 01.02 13:45:03
    发表了文章 2025-01-02 13:45:03

    深度解析CPFS 在 LLM 场景下的高性能存储技术

    本文深入探讨了CPFS在大语言模型(LLM)训练中的端到端性能优化策略,涵盖计算端缓存加速、智能网卡加速、数据并行访问及数据流优化等方面。重点分析了大模型对存储系统的挑战,包括计算规模扩大、算力多样性及数据集增长带来的压力。通过分布式P2P读缓存、IO加速、高性能存算通路技术以及智能数据管理等手段,显著提升了存储系统的吞吐量和响应速度,有效提高了GPU利用率,降低了延迟,从而加速了大模型的训练进程。总结了CPFS在AI训练场景中的创新与优化实践,为未来大模型发展提供了有力支持。
  • 01.02 11:35:17
    发表了文章 2025-01-02 11:35:17

    构建深度可观测、可集成的网络智能运维平台

    本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。
  • 01.02 11:27:59
    发表了文章 2025-01-02 11:27:59

    构建超大带宽、超高性能及稳定可观测的全球互联网络

    本次课程聚焦构建超大带宽、超高性能及稳定可观测的全球互联网络。首先介绍全球互联网络的功能与应用场景,涵盖云企业网、转发路由器等产品。接着探讨AI时代下全球互联网络面临的挑战,如大规模带宽需求、超低时延、极致稳定性和全面可观测性,并分享相应的解决方案,包括升级转发路由器、基于时延的流量调度和增强网络稳定性。最后宣布降价措施,降低数据与算力连接成本,助力企业全球化发展。
  • 01.02 11:23:34
    发表了文章 2025-01-02 11:23:34

    助力企业高效构建安全、可观测的云上数据中心

    本次课程聚焦于助力企业高效构建安全、可观测的云上数据中心,涵盖三大方面:1) 数据中心网络面临的挑战,包括VPC、NAT网关和私网连接等产品的功能与挑战;2) 数据中心网络产品重磅发布,涉及安全设计建议、容灾能力提升及深度可观测能力的增强;3) 用户体验升级,通过VPC IPAM实现高效的网络地址管理和简化的产品体验。整体旨在为企业提供更安全、稳定、高效的云上解决方案。
  • 01.02 11:20:16
    发表了文章 2025-01-02 11:20:16

    身份是安全的基石:深入理解阿里云身份体系

    企业云上身份管理面临诸多挑战,如账号泄露、权限未及时回收等,导致数据泄露和内部系统被篡改。阿里云提供了一套完善的身份管理体系,包括单账号和多账号场景下的解决方案。对于单账号,通过主账号保护、RAM用户和角色实现分权与审计;对于多账号,使用云SSO统一管理和配置跨账号权限,确保安全合规。该体系支持浏览器、API访问,并集成企业IDP,实现无密钥登录和自动化管理,有效降低风险并提高管理效率。
  • 01.02 11:05:14
    发表了文章 2025-01-02 11:05:14

    防止凭证泄露的十种方法:如何管理阿里云访问密钥

    本文介绍了防止凭证泄露的十种方法及阿里云访问密钥管理的最佳实践。首先,分析了凭证泄露的风险及其对企业造成的严重后果,强调凭证管理的重要性。接着,介绍了阿里云的凭证类型,包括主账号、子用户及程序凭证,并详细说明了如何通过使用临时凭证(STS Token)、多因素认证(MFA)、单点登录(SSO)等手段有效防止凭证泄露。此外,还提出了清理闲置用户和AccessKey、设置强密码策略、限制IP访问等具体措施。最后,展望了阿里云2024年即将推出的凭证安全升级策略,如默认启用MFA、清理闲置用户和AK等,帮助企业更好地提升凭证和资产的安全性。
  • 01.02 10:54:08
    发表了文章 2025-01-02 10:54:08

    众览全局,企业级云监控助力构建统一云产品可观测

    企业上云已成为共识,但在合理使用和管理云资源方面仍面临诸多挑战。富莱瑞调研显示79%的企业缺乏经验。阿里云2023年推出云监控2.0,通过统一接入、关联分析、数据探索等六大升级,帮助企业应对数据孤岛、关联分析困难、灵活性不足等问题。云监控2.0还引入了CloudLens和AI大模型技术,提供更深入的云产品可观测能力,提升运维效率。实际案例表明,通过建设统一可观测平台,企业的故障排查时间和运营成本显著降低。
  • 01.02 10:50:54
    发表了文章 2025-01-02 10:50:54

    基于LoongCollector构建全新可观测Pipeline

    LoongCollector是阿里云推出的下一代可观测数据管道,旨在融合多种采集技术,构建统一的可观测数据代理。它具备高性能、可靠性和灵活性,支持日志、指标和追踪等多类型数据采集。通过模块化设计和SPL处理引擎,LoongCollector实现了高效的数据处理与传输,并大幅简化了配置管理。此外,集成eBPF技术,提供无侵入、高性能的应用性能监控,适用于复杂异构环境。未来,LoongCollector将继续优化性能、探索AI赋能的智能化采集。
  • 01.02 10:47:47
    发表了文章 2025-01-02 10:47:47

    容器服务Kubernetes场景下可观测体系生产级最佳实践

    阿里云容器服务团队在2024年继续蝉联Gartner亚洲唯一全球领导者象限,其可观测体系是运维的核心能力之一。该体系涵盖重保运维、大规模集群稳定性、业务异常诊断等场景,特别是在AI和GPU场景下提供了全面的观测解决方案。通过Tracing、Metric和Log等技术,阿里云增强了对容器网络、存储及多集群架构的监控能力,帮助客户实现高效运维和成本优化。未来,结合AI助手,将进一步提升问题定位和解决效率,缩短MTTR,助力构建智能运维体系。
  • 01.02 10:43:34
    发表了文章 2025-01-02 10:43:34

    面向AI的服务器计算互连的创新探索

    面向AI的服务器计算互连创新探索主要涵盖三个方向:Scale UP互连、AI高性能网卡及CIPU技术。Scale UP互连通过ALink系统实现极致性能,支持大规模模型训练,满足智算集群需求。AI高性能网卡针对大规模GPU通信和存储挑战,自研EIC网卡提供400G带宽和RDMA卸载加速,优化网络传输。CIPU作为云基础设施核心,支持虚拟化、存储与网络资源池化,提升资源利用率和稳定性,未来将扩展至2*800G带宽,全面覆盖阿里云业务需求。这些技术共同推动了AI计算的高效互联与性能突破。
  • 01.02 10:18:17
    发表了文章 2025-01-02 10:18:17

    面向AI的服务器计算软硬件架构实践和创新

    阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
  • 01.02 09:50:03
    发表了文章 2025-01-02 09:50:03

    云上普惠高性能计算平台,助力HPC行业创新

    EHPC(弹性高性能计算)产品架构分为三个层次:资源层、服务层和使用界面层。资源层按HPC行业需求编排ECS实例、存储和调度管理资源,形成支持VPC和RDMA网络的集群。服务层提供集群资源管理、应用管理和作业调度等功能,并支持基于负载的弹性伸缩。使用界面层包括控制台、HPC PORTAL和Open API,方便不同用户操作。今年新发布的功能包括基于英特尔八代处理器的HPC实例、RDMA网络支持IB Verbs接口、拓扑感知的弹性伸缩能力以及Instant计算环境,优化了性能和成本。EHPC通过这些设计帮助客户快速上云并高效利用资源。
  • 01.02 09:46:48
    发表了文章 2025-01-02 09:46:48

    ECS控制台,AI助手与极简管控体验

    本文介绍了ECS控制台的演进及最新AI工具功能。控制台作为运维平台,需兼顾用户体验、可靠性和安全性。针对不同用户(个人开发者、企业级用户、资源管理员和架构师),控制台提供了定制化AI助手,涵盖售前选型、售中购买、售后运维等全链路支持。AI助手可智能分析用户需求,推荐合适规格,并提供实例诊断、命令解释等功能,简化操作流程。此外,还推出了简洁版控制台,优化了小资源量用户的使用体验,减少复杂度,提升效率。未来,控制台将朝着更智能、个性化的chat ops方向发展。
  • 01.02 09:43:40
    发表了文章 2025-01-02 09:43:40

    无影云电脑,畅享极速渲染新体验

    本文介绍了渲染行业面临的挑战及无影云电脑带来的革新。传统渲染依赖高性能本地设备,面临重投入、性能固定、灵活性差和数据安全问题。无影云电脑通过云端算力,实现了灵活扩展、任意终端接入及按需付费,大幅提升了渲染效率与体验,尤其在游戏设计、工业制造等领域表现突出。其核心技术确保了色彩还原、流畅操作及外设兼容性,满足专业设计师的需求。未来,无影将助力渲染行业实现更高效、安全的云端工作模式。

2024年12月

  • 12.31 17:38:10
    发表了文章 2024-12-31 17:38:10

    云基础设施处理器CIPU 2.0技术解读

    本文深入解读阿里云的CIPU(Cloud Infrastructure Processing Unit)技术,探讨其在云计算中的定位与价值。面对当前XPU命名泛滥的问题,阿里云为何选择CIPU这一名称?CIPU旨在解决云计算中的弹性、安全、稳定、性能和成本五大核心需求。通过对比DPU和IPU,CIPU更专注于云环境下的基础设施处理,确保数据的安全性、传输的可靠性和存储的稳定性。此外,文章还回顾了神龙计算的历史发展,强调CIPU2.0在提升性能、优化资源调度和满足大客户需求方面的进展。最终,CIPU作为手段,其核心目标是为客户提供更高性价比和更稳定的云服务。
  • 12.31 17:35:47
    发表了文章 2024-12-31 17:35:47

    端到端的ECS可观测性方案,助力云上业务安全稳定

    本文介绍了云原生时代保障业务系统可靠性的方法和挑战,重点探讨了阿里云ECS在提升业务稳定性、性能监控及自动化恢复方面的能力。文章分为以下几个部分:首先,阐述了业务可靠性的三个阶段(事前预防、事中处理、事后跟进);其次,分析了云上业务系统面临的困难与挑战,并提出了通过更实时的监测和自动化工具有效规避风险;接着,详细描述了ECS实例稳定性和性能问题的解决方案;然后,介绍了即将发布的ECS Lens产品,它将全面提升云上业务的洞察能力和异常感知能力;最后,通过具体案例展示了如何利用OS自动重启和公网带宽自适应调节等功能确保业务连续性。总结部分强调了ECS致力于增强性能和稳定性的目标。
  • 12.31 17:33:34
    发表了文章 2024-12-31 17:33:34

    弹性计算第九代企业级ECS实例新品发布

    阿里云第九代企业级实例基于全新CIPU 2.0架构,搭载最新英特尔和AMD处理器,大幅提升性能、安全性和稳定性。G9i实例采用英特尔新一代处理器,内存带宽和L3缓存显著提升,标配AMX加速器;G9A实例则搭载AMD先进处理器,提供更高的性价比和端到端加密能力。九代产品在算力、IO能力和安全性上全面升级,尤其适用于搜推、大数据处理等场景,助力客户实现更高业务价值。
  • 12.31 17:31:18
    发表了文章 2024-12-31 17:31:18

    从集群到计算服务,如何基于云重塑“超级计算机”

    本文探讨了云计算概念的演变及其标准化进程。随着技术发展,云计算已从单纯的资源池演变为与AI、大数据等融合的服务模式,内涵和外延不断扩展。文章还介绍了云超算的发展及其国家标准制定的重要性,强调了其在工业制造、生命科学等领域的应用前景,并宣布了首批云超算测评能力的启动。
  • 12.31 17:30:01
    发表了文章 2024-12-31 17:30:01

    容器服务:智算时代云原生操作系统及月之暗面Kimi、深势科技实践分享

    容器技术已经发展成为云计算操作系统的关键组成部分,向下高效调度多样化异构算力,向上提供统一编程接口,支持多样化工作负载。阿里云容器服务在2024年巴黎奥运会中提供了稳定高效的云上支持,实现了子弹时间特效等创新应用。此外,容器技术还带来了弹性、普惠的计算能力升级,如每分钟创建1万Pod和秒级CPU资源热变配,以及针对大数据与AI应用的弹性临时盘和跨可用区云盘等高性能存储解决方案。智能运维方面,推出了即时弹性节点池、智能应用弹性策略和可信赖集群托管运维等功能,进一步简化了集群管理和优化了资源利用率。
  • 发表了文章 2025-01-03

    通过ROS低代码CADT无代码和可视化能力管理云上基础设施

  • 发表了文章 2025-01-03

    阿里云上的IaC和自动化

  • 发表了文章 2025-01-03

    加速阿里云部署:Terraform在甄云科技的深度应用

  • 发表了文章 2025-01-03

    AI驱动的开发者工具:打造沉浸式API集成体验

  • 发表了文章 2025-01-03

    API First:模型驱动的阿里云API保障体系

  • 发表了文章 2025-01-03

    API稳定安全最佳实践:用阿里云SDK为业务保驾护航

  • 发表了文章 2025-01-03

    长桥科技:通过Terraform自动化为客户提供安全、高效的产品服务体验

  • 发表了文章 2025-01-03

    云卓越架构:稳定性支柱整体解决方案综述

  • 发表了文章 2025-01-03

    云卓越架构:云上网络稳定性建设和应用稳定性治理最佳实践

  • 发表了文章 2025-01-03

    云卓越架构:企业稳定性架构体系和AI业务场景探秘

  • 发表了文章 2025-01-03

    阿里云向量引擎快速搭建企业级RAG最佳实践

  • 发表了文章 2025-01-03

    企业级推荐开发平台 PAI-Rec

  • 发表了文章 2025-01-03

    阿里云磐久服务器稳定性实践之路

  • 发表了文章 2025-01-03

    阿里云算力服务的稳定性演进

  • 发表了文章 2025-01-03

    从外到内:阿里云弹性与资源交付效率的全景透视

  • 发表了文章 2025-01-03

    PAI训练服务:云上大模型训练新篇章

  • 发表了文章 2025-01-03

    AI推理新纪元,PAI全球化模型推理服务的创新与实践

  • 发表了文章 2025-01-03

    AI开发新范式,PAI模型构建平台升级发布

  • 发表了文章 2025-01-03

    PAI企业级能力升级:应用系统构建、高效资源管理、AI治理

  • 发表了文章 2025-01-03

    PAI年度发布:GenAI时代AI基础设施的演进

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息
正在加载, 请稍后...
滑动查看更多