官方博客-第12页-阿里云开发者社区

悦达

2025-03-21

1437

监控vLLM等大模型推理性能

本文将深入探讨 AI 推理应用的可观测方案，并基于 Prometheus 规范提供一套完整的指标观测方案，帮助开发者构建稳定、高效的推理应用。

悦达

1,437

德灵

2024-05-15

118245

阿里云PAI大模型RAG对话系统最佳实践

本文为大模型RAG对话系统最佳实践，旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术，从而显著提升对话系统的性能，使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践，您可以掌握构建一个大模型RAG对话系统的完整开发链路。

德灵

118,245

探索云世界

2025-08-05

1081

Qwen-MT：翻得快，译得巧

今天，机器翻译模型Qwen-MT正式上线，支持92种语言互译，具备高度可控性与低延迟、低成本特点，适用于多种场景。开发者可通过Qwen API体验其强大翻译能力。

探索云世界

1,081

米基

2024-05-15

4070

大模型推理优化实践：KV cache复用与投机采样

在本文中，我们将详细介绍两种在业务中实践的优化策略：多轮对话间的 KV cache 复用技术和投机采样方法。我们会细致探讨这些策略的应用场景、框架实现，并分享一些实现时的关键技巧。

米基

4,070

砚染

2024-09-03

1836

速成RAG+Agent框架大模型应用搭建

本文侧重于能力总结和实操搭建部分，从大模型应用的多个原子能力实现出发，到最终串联搭建一个RAG+Agent架构的大模型应用。

砚染

1,836

扬流

2024-05-15

119349

Paimon 与 Spark 的集成（二）：查询优化

通过一系列优化，我们将 Paimon x Spark 在 TpcDS 上的性能提高了37+%，已基本和 Parquet x Spark 持平，本文对其中的关键优化点进行了详细介绍。

扬流

119,349

阿里云云原生

2025-02-25

1353

解锁 DeepSeek 安全接入、稳定运行新路径

聚焦于企业部署 DeepSeek 的应用需求，本文介绍了模型权重下载及多种部署方案，还阐述了大模型应用落地的常见需求，帮助用户逐步提升模型应用效果。

阿里云云原生

1,353

阿里云消息队列

2024-05-15

957

云消息队列 Confluent 版正式上线

云消息队列 Confluent 版正式上线！

阿里云消息队列

957

ModelScope

2024-05-15

3797

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦

通义千问团队推出Qwen系列的首个MoE模型，Qwen1.5-MoE-A2.7B。

ModelScope

3,797

官方博客-第12页-阿里云开发者社区

类目筛选

内容类型

监控vLLM等大模型推理性能

阿里云PAI大模型RAG对话系统最佳实践

Qwen-MT：翻得快，译得巧

大模型推理优化实践：KV cache复用与投机采样

速成RAG+Agent框架大模型应用搭建

Paimon 与 Spark 的集成（二）：查询优化

解锁 DeepSeek 安全接入、稳定运行新路径

云消息队列 Confluent 版正式上线

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦

官方博客-第12页-阿里云开发者社区

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

类目筛选

内容类型

监控vLLM等大模型推理性能

阿里云PAI大模型RAG对话系统最佳实践

Qwen-MT：翻得快，译得巧

大模型推理优化实践：KV cache复用与投机采样

速成RAG+Agent框架大模型应用搭建

Paimon 与 Spark 的集成（二）：查询优化

解锁 DeepSeek 安全接入、稳定运行新路径

云消息队列 Confluent 版正式上线

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦