史上首次!万卡AI集群支撑双11,通义千问大规模落地
2025年双11,阿里云提供超千万核ECS算力及万卡灵骏智算集群,支撑淘宝推荐等核心业务性能提升超30%。通义千问大模型大规模落地,Qwen-MT单日调用超14亿次,助力商品出海、客服与经营分析,全面赋能双11智能化升级。
《C++在量化、KV缓存与推理引擎的深耕》
本文聚焦C++在LLM底层优化中的核心实践与技术突破,围绕量化部署、异构计算、高并发处理、KV缓存管理、推理引擎构建、大规模服务部署六大关键场景展开。文章结合实际优化案例,揭示C++如何通过极致的底层控制权,破解LLM落地中的核心瓶颈:自定义混合精度量化策略平衡精度与性能,构建异构硬件协同逻辑突破传输壁垒,以连续批处理技术提升高并发吞吐量,重构KV缓存架构降低内存占用并扩展上下文长度,定制轻量化推理引擎剔除冗余开销,搭建鲁棒架构保障大规模服务稳定运行。
任务的权限隔离与多租户(SaaS)平台设计要点
本文介绍了一个多租户平台的构建,旨在解决权限隔离和数据独立性问题。平台采用FastAPI、Celery+Redis、PostgreSQL多schema、Requests+代理IP和JWT+RBAC技术,实现了任务隔离、代理独立和数据分区。项目强调了多租户系统在任务独立、代理隔离、数据分区和权限控制方面的复杂性,并提出了进一步扩展
数字人数字分身技术分析
数字人技术正打破虚实边界,融合AI、图形学与自然语言处理,打造可交互、可进化的“数字生命体”。从虚拟偶像到智能客服、智慧教育、医疗助手,其全链条技术突破推动人机共生新生态。