大数据& AI 产品月刊【2024年12月】

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 大数据& AI 产品技术月刊【2024年12月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

大数据& AI 产品技术月刊【2024年12月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

【人工智能平台 PAI】功能优化 - DLC 任务状态升级 v2.0

DLC 任务“排队中” 和 “预分配” 状态合并为“排队中”,提供更加清晰和简单的任务状态信息,方便使用和理解。

【人工智能平台 PAI】新地域/新可用区 - PAI 训练服务德国(法兰克福)正式开服

分布式训练服务 DLC、AI 资源配额(Quota)开通德国(法兰克福)地域,可以支持客户使用资源配额(Quota)提交训练任务。

【人工智能平台 PAI】新功能/规格 - DLC 按量任务账单支持区分任务类型

DLC 按量任务账单通过系统标签,区分后付费任务和竞价任务,方便客户查询和筛选。

【人工智能平台 PAI】新功能/规格 - DLC 支持运行通用计算资源的竞价任务

PAI 训练服务 DLC 支持基于通用计算资源的竞价任务, 客户可以更低成本获取较高稳定的 AI 算力。

【人工智能平台 PAI】新功能/规格 - Designer 支持大模型数据预处理链路聚合执行

Designer 支持大模型数据预处理链路聚合执行,提升任务执行性能,优化用户体验。

【人工智能平台 PAI】功能优化 - 灵骏智算资源配额(Quota)支持多个 VSW

灵骏智算 Quota,支持 VPC 选定多个 VSW,满足客户扩展 IP 的需求。

【人工智能平台 PAI】功能优化 - Model Gallery 在中国香港等多地正式开服

PAI-Model Gallery 集成了 LLM、CV、NLP、语音等领域的预训练模型,提供一站式零代码的模型训练、模型压缩、模型评测、模型部署功能。新增开通中国香港、日本(东京)、印度尼西亚(雅加达)、德国(法兰克福)、美国(弗吉尼亚)地域。

【实时计算 Flink 版】新功能/规格 - 物化表

实时计算 Flink 版产品正式推出物化表功能,旨在简化批处理和流处理数据管道,提供一致的开发体验。

【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 发布新版本

EMR on ECS 发布 EMR-5.18.1版本和 EMR-3.52.1版本。

【开源大数据平台 E-MapReduce】新功能/规格 - 通过 Gateway 向全托管 spark 提交任务

可以通过两种类型的 Gateway 向 Serverless Spark 提交任务。

【开源大数据平台 E-MapReduce】新功能/规格 - StarRocks 支持缓存分析报告

EMR Serverless StarRocks 提供的健康报告,并通过示例阐明其潜在的应用场景。

【数据湖构建 DLF】新功能/规格 - DLF 2.0发布 HiveCatalog,兼容开源 HMS

DLF 2.0发布 HiveCatalog,支持纳管用户存储,支持元数据管理和权限管理功能。

【数据湖构建 DLF】新功能/规格 - DLF2.0 Paimon Catalog 推出文件目录

DLF2.0 Paimon Catalog 推出文件目录(Volume),支持通过 Paimon ObjectTable 进行文件元数据管理。

【数据湖构建 DLF】新功能/规格 - DLF2.0 Paimon Catalog 视图管理功能

DLF2.0 Paimon Catalog 推出视图管理功能,降低查询的复杂度。

【数据湖构建 DLF】新功能/规格 - DLF2.0 Paimon Catalog 外表管理功能

DLF2.0 Paimon Catalog 推出外表管理功能,支持读取外部数据源。

【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版新增 QGraph 向量算法

OpenSearch 向量检索版推出 QGraph 算法,最高可以将索引降为原来的1/8,并有数倍性能提升。

【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版推出 CAGRA 算法支持 GPU 加速

客户可直接购买 GPU 规格数据节点并创建实例,适用于 QPS、时效性高、更新频繁的业务场景。

【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版与召回引擎版对接 DataWorks 数据集成

通过接入 DW 数据集成,支持更多类型数据源将数据便捷同步至 OpenSearch。

【向量检索服务 Milvus 版】新功能/规格 - 支持单可用区高可用

新增和存量集群可一键开启单可用区高可用,提升集群可用性。

【向量检索服务 Milvus 版】新功能/规格 - 内核更新至2.4.17,支持白屏化升级内核小版本

支持用户在管控台实例详情中,进行内核小版本升级,可以完善老版本的功能,同时也提供更多的新功能。

【向量检索服务 Milvus 版】新功能/规格 - 新增节点规格

Proxy、Data、Query 节点新增规格,满足不同用户对集群配置的需求,可在购买页按需购买使用。

二、最新活动

阿里云MaxCompute 重磅推出5折计算资源抵扣包

MaxCompute 为了更多回馈客户,现在推出5折计算资源抵扣包,包含2000度计算资源,单用户限购1次。通用包每1度计算包可以抵扣 SQL、MaxFrame、MapReduce、Spark、Mars、OSS 外部表 SQL、OTS 外部表 SQL 不同的用量。

阿里云 DataWorks 重磅推出7折 Serverless 资源组抵扣包!

DataWorks 现推出7折资源组抵扣包仅售105元,包含300CU·H,单用户限享1次!可抵扣使用数据计算、数据集成、数据服务、个人开发环境服务所产生的按量资源组费用。

超值选择:阿里云 Elasticsearch Serverless 在企业数据检索与分析中的高性能与灵活性

Elasticsearch Serverless 服务是基于云原生 Serverless 技术架构构建的 Elasticsearch 服务化产品,完美兼容 Elasticsearch 原生 API 及其生态系统。为用户提供简单易用、灵活弹性的 Elasticsearch 体验,无需管理集群资源和配置,便可实现负载与资源的动态匹配。现Elasticsearch推出最小配额 2CU 特惠活动和提供灵活的按需付费模式,显著提升用户的性价比,为企业在竞争激烈的市场中提供强劲支持。

三、产品快讯

【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享

12月10日,人工智能领域全球顶级学术会议 NeurIPS 正式召开。阿里云 PAI 团队的论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收录,并入选 Spotlight。论文通过对大语言模型真实知识能力的评估,揭示现有静态评测集指标的可信性问题以及大语言模型知识掌握中的各种弱点,并指导改进的发展。

加速 AI 应用落地!DataWorks 数据治理中心全新升级为数据资产治理

DataWorks 全新升级为数据资产治理平台,强调从业务视角进行数据资产管理,引入标签体系组织数据资产,简化数据管理与分析。新增 Data+AI 全链路数据血缘追踪功能,覆盖数据从采集到 AI 模型训练全过程,促进跨部门协作。首次购买或升级可享受企业版数据资产治理功能免费体验1个月,新购或低版本即将到期升级至企业版首月299元优惠。

Fluss:面向实时分析设计的下一代流存储

Fluss 项目是由阿里云智能 Flink 团队研发的一款面向流分析的下一代流存储,旨在解决现有流存储(如 Kafka)在实时分析场景中的不足。Fluss 提供了更高效的实时数据分析能力,通过实时读写、列式裁剪、流式更新、CDC订阅、实时点查、湖流一体等特性,帮助用户构建高吞吐量、低延迟、低成本的流式数仓,并与 Flink 紧密结合,优化了双流 Join 等关键功能。

基于 EMR StarRocks 实现游戏玩家画像和行为分析

阿里云 EMR-StarRocks 联合镜舟科技,基于 EMR-StarRocks 实现游戏实时湖仓分析,免费试用物化视图、Paimon 写入查询等新能力,用户可赢取 StarRocks 定制 T 恤等活动礼品。

公开课 | 基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot

12月27日由 Elastic 和阿里云搜索技术专家将深入解读阿里云 Elasticsearch Enterprise 版的 AI 功能及其在实际应用。通过公开课可以了解构建 AI 搜索和 AI Assistant 的技术原理,并轻松掌握从0到1搭建企业级 RAG 应用,和基于大模型搭建可观测 Chatbot,获取运维洞察。

OpenSearch 推出向量检索 GPU 图算法方案并支持 GPU 规格售卖

阿里云 OpenSearch 向量检索版推出 GPU 图算法方案(CAGRA算法),支持 GPU 加速,并支持直接购买 GPU 规格节点。作为国内云上首家支持 GPU 规格的向量检索产品,OpenSearch 提供了近10倍的向量搜索性能提升,适合高 QPS 业务场景。

四、最佳实践

EasyAnimateV5 视频生成大模型原理详解与模型使用

EasyAnimate 是阿里云推出的一款基于 DiT 的视频生成框架,能够生成高质量的长视频。它具备视频数据预处理、VAE 训练、DiT 训练、Lora训练、模型推理和模型评估等功能。此外,EasyAnimate 在预训练模型的基础上,通过少量图片进行 LoRA 微调,可实现视频风格的转变,大大增强了系统的扩展性和完整性,使其在众多方案中更具竞争优势。EasyAnimate 在人工智能平台 PAI 上进行集成,供用户一键训练和部署。

面向金融场景的大模型 RAG 检索增强解决方案

检索增强生成模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例,介绍在云上构建面向金融场景的大模型 RAG 检索增强解决方案。

面向医疗场景的大模型 RAG 检索增强解决方案

检索增强生成模型结合了信息检索与生成式人工智能的优点,从而在特定场景下提供更为精准和相关的答案。以人工智能平台 PAI 为例,介绍在云上构建面向医疗场景的大模型 RAG 检索增强解决方案。

OpenSearch & AI 开放平台,实现0代码图片搜索!

介绍如何使用阿里云 OpenSearch 向量检索版 结合 AI 搜索开放平台 的模型能力,帮助客户自动完成图片的识别与向量化处理,一站式搭建图片搜索服务。本方案适用于客户在没有向量数据、仅有原始图片数据的情况下,快速搭建以图搜图、以文搜图服务。

通过阿里云 Milvus 和 LangChain 快速构建 LLM 问答系统

本文将介绍如何通过整合阿里云向量检索服务 Milvus 版、阿里云百炼 DashScope Embedding 模型以及阿里云 PAI(EAS)模型服务,构建一个基于大型语言模型(LLM)的问题解答应用,并详细演示如何搭建基于这些技术的 RAG 对话系统。

(Elasticsearch)使用阿里云 infererence API 及 semantic text 进行向量搜索

本文介绍了如何使用 Elasticsearch 的推理 API 与阿里云 AI 搜索服务结合,通过具体的命令和示例,详细说明了如何进行高效的向量搜索,实现稀疏向量、密集向量、completion、rerank 等功能。

MaxCompute Bloomfilter index 在蚂蚁安全溯源场景大规模点查询的最佳实践

蚂蚁安全溯源的大规模点查场景,基于传统聚簇方式与二级索引方式,均无法很好的解决业务查询效率与成本问题,通过 MaxCompute 全新引入的轻量级 Bloomfilter index 能力,提供了更高的空间效率和查询效率,不仅降低了业务的查询耗时,也避免了构建二级索引带来的大量存储消耗,为业务限制降低了成本。

数据分析经典案例重现:使用 DataWorks Notebook 实现 Kaggle 竞赛之房价预测

Kaggle 作为一个全球知名的数据科学竞赛平台,其举办的房价预测竞赛更是成为了数据分析领域的经典案例之一。DataWorks 作为一站式智能数据开发与治理平台,基于 DataWorks Notebook 可完成完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,实现 Kaggle 竞赛中的房价预测。

通过阿里云 Milvus 与 PAI 搭建高效的检索增强对话系统

阿里云 Milvus 提供了一个云上全托管服务,与开源 Milvus 完全兼容,支持大规模 AI 向量数据的相似性检索。通过与 PAI 平台集成,用户可以快速搭建 RAG 对话系统,实现高性能的多模态搜索、检索增强生成等功能。文章详细描述了从创建 Milvus 实例、配置 PAI 服务到使用 RAG WebUI 上传知识库和进行对话测试的操作流程,以及如何使用 Attu 工具查看向量数据库中的知识库切块。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年3月】
大数据&AI产品技术月刊【2024年3月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
人工智能 自然语言处理 监控
大数据&AI产品月刊【2023年10月】
大数据&AI产品技术月刊【2023年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
大数据&AI产品月刊【2023年10月】
|
1月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
7月前
|
人工智能 运维 自然语言处理
大数据&AI产品月刊【2024年5月】
大数据&AI产品技术月刊【2024年5月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
5月前
|
人工智能 分布式计算 大数据
大数据AI产品月刊-2024年7月
大数据& AI 产品技术月刊【2024年7月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
8月前
|
人工智能 分布式计算 Cloud Native
大数据&AI产品月刊【2024年4月】
大数据&AI产品技术月刊【2024年4月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
8月前
|
人工智能 大数据 流计算
大数据&AI产品月刊【2024年2月】
大数据&AI产品技术月刊【2024年2月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
机器学习/深度学习 人工智能 分布式计算
大数据&AI产品月刊【2023年7月】
大数据&AI产品技术月刊(2023年7月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
机器学习/深度学习 存储 SQL
大数据&AI产品月刊【2023年3月】
大数据&AI产品技术月刊(2023年3月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
大数据&AI产品月刊【2023年3月】