大数据&AI产品月刊【2022年7月】

简介: 大数据&AI产品技术月刊(2022年7月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布

【云原生大数据计算服务 MaxCompute 】新功能 - 支持在 DataWorks 公共表中查看外部数据源的元数据信息

支持在 DataWorks 公共表中查看外部数据源的元数据信息,使基于湖仓的数据开发人员方便查看外部数据源的表、字段和分区信息。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增6个聚合函数

MaxCompute新增6个Bit和Map相关的聚合函数,更加便捷的进行数据分析统计。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增3个窗口函数以及性能优化

MaxCompute新增三个新的窗口函数,以及对现有所有窗口函数做了性能调优。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增支持在表级别设置split size参数

MaxCompute在表级别设置split size来控制并发度,提高计算性能。


【云原生大数据计算服务 MaxCompute 】新功能 - 支持Unload函数导出数据时自定义导出文件名的前后缀

MaxCompute支持用户使用Unload函数从MaxCompute导出数据到OSS时,自定义导出数据文件名的前缀和后缀。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增一个正则函数

MaxCompute新增一个正则函数regexp_extract_all,提高数据处理效率。


【大数据开发治理平台 DataWorks 】新功能 - 智能数据建模支持查找视图及创建视图

支持用户在模型设计过程中直接引用已存在的视图字段及分区信息作为当前模型的字段,也支持在模型设计完成后将模型物化为视图。


【大数据开发治理平台 DataWorks 】新功能 - 智能数据建模支持表名关键词逆向生成模型

支持用户在逆向建模过程中,根据表名关键词模糊匹配,逆向生成逻辑模型,解决了企业希望将存量表进行建模线上化冷启动难的问题。


【大数据开发治理平台 DataWorks 】新功能 - 审批中心支持管控数据集成

审批中心支持用户基于“源端-目的端”的组合定义在“保存“或“运行“数据集成任务时必须触发审批,针对数据同步过程进行更加灵活的管控。


【大数据开发治理平台 DataWorks 】新功能 - 数据保护伞新增敏感数据血缘可视化图谱

数据保护伞基于数据的生产信息解析出敏感字段之间的血缘关系,自动绘制成敏感数据血缘可视化图谱。本功能仅限DataWorks企业版使用。


【大数据开发治理平台 DataWorks 】新功能 - 数据保护伞新增异常血缘关系分析功能

数据保护伞根据敏感字段的血缘关系、识别结果,自动分析异常血缘关系和异常识别结果,以防通过其他方式躲过敏感数据的识别审计。


【大数据开发治理平台 DataWorks 】新功能 - 数据治理中心支持任务360功能

提供任务的360全景功能,将任务关联的治理项问题、变更事件记录、影响基线、任务执行信息等关键信息进行集中展示,方便用户进行调度治理。


【大数据开发治理平台 DataWorks 】新功能  - 数据治理中心全面开放使用

数据治理中心在2022年7月5日全面开放使用,提供为期1个月的体验,2022年8月5日后,所有能力将在DataWorks企业版提供。


【实时数仓 Hologres 】体验优化 - 通过海光CPU生态兼容性认证

经过联合测试,实时数仓Hologres软件与海光3000、5000、7000系列CPU兼容性良好,可稳定、可靠、高性能地运行。


【实时数仓 Hologres 】新功能 - Worker级别监控指标透出,提升自诊断能力

Hologres Worker级别监控指标透出,帮助客户精准地定位问题,提高自诊断和自运维能力。


【检索分析服务 Elasticsearch版 】新功能 - 7.16版本发布增强功能TimeStream|基于云上全托管实现高性能低成本Metric管理和使用

支持TimeStream时序类型索引模型的操作,自动配置时序场景最佳实践;无缝对接Prometheus+Grafana。


【开源大数据平台 E-MapReduce 】新功能 - Doctor上线

及时掌握集群健康状况,降低集群运维的成本;了解集群资源的使用和分配状况,合理进行作业资源配置,提高集群硬件资源的利用率。


【开源大数据平台 E-MapReduce 】新功能 - DataWorks支持EMR DataLake集群

DataWorks支持基于EMR创建Hive、MR、Presto和Spark SQL等节点,实现EMR任务工作流的配置、调度等功能。


【实时计算 Flink版】新功能 - MySQL CDC 相关升级

同步Flink CDC社区2.2版本,支持社区2.2版本提供的全部功能和Bugfix等。


【实时计算 Flink版】新功能 - Session集群增强停止能力

请勿将生产作业提交到Session集群运行。Session集群异常导致作业无法操作的问题,我们通过强制停止能力来停止Session。


【实时计算 Flink版】新功能 - 内置阿里云文档

我们将阿里云帮助中心的文档内置在Flink全托管的开发页面内,您可以直接在Flink全托管开发控制台唤起帮助文档,避免来回跳转。


【实时计算 Flink版】新功能  - JM异常智能分析

异常日志可以被存储更长时间,同时对异常日志进行了分类,协助您更好的定位到作业的异常原因。


【图计算服务 Graph Compute 】新版本/新规格 - 增加多种小规模的集群

成本优化:支持调整最小规模,入门款2616元/月,折合3.6元/时;图计算商业化活动为期一年,产品活动价进行六折促销。


【机器学习 PAI 】新地域/可用区 - DLC 专有资源组在华东1(杭州)正式开服

开放区域:华北2(北京),华东1(杭州),华东2(上海)。


【机器学习 PAI 】新地域/可用区 - Designer在印度(孟买)、美国(弗吉尼亚)正式开服

PAI-Designer在印度(孟买)、美国(弗吉尼亚)正式开服,用户可以在PAI控制台上选择对应region创建工作空间后使用。


【机器学习 PAI 】新功能 - Designer新增多种可视化分析能力

PAI-Designer本次发布提供Tensorboard可视化分析能力,且在可视化大屏新增特征重要性评估、相关性分析、散点图功能。


【机器学习 PAI 】新功能 - EAS-benchmark服务自动压测功能发布

EAS-benchmark是一个分布式通用压测工具,支持用户对EAS部署的预测服务创建压测任务进行一键压测。


【智能推荐 AIRec 】新版本/新规格 - 运营版开放售卖-支持完整的推荐算法链路并搭配易用的运营工具

智能推荐推出运营版服务类型,方便开发者开箱即用行业算法模板,并搭配丰富的运营工具快速完成推荐场景定制。


【智能开放搜索 OpenSearch 】新功能 - 英文查询分析功能上线

智能开放搜索推出英文查询分析功能,支持同义词、拼写纠错、实体识别、停用词等功能,智能理解用户搜索意图,提升英文搜索效果。


【智能开放搜索 OpenSearch 】新功能 - 电商行业模板新增英文通用垂类

智能开放搜索电商行业模板新增英文通用垂类,支持丰富的英文分词、用户语义理解、智能排序等功能,方便英文搜索场景快速接入使用。


【企业数据云平台】- CDP控制台上线

阿里云CDP 企业数据云平台正式上线控制台,支持一键部署CDP集群,开箱即用并提供正版License。支持包年包月按需购买,更有ECS全系列大数据机型灵活选择。CDH、HDP 用户可快速迁移,阿里云和Cloudera 共同提供升级方案及迁移手册,助力平滑迁移。


二、产品快讯

瓜分30万奖金!DeepRec CTR模型性能优化天池挑战赛来啦

DeepRec CTR模型性能优化天池挑战赛已在阿里云天池平台正式上线!此次DeepRec CTR模型性能优化挑战赛诚邀广大开发者参赛!借助本次大赛,在DeepRec中沉淀CTR模型新的优化思路和优化方向,共享经验成果,指导和推动实际工业实际场景中点击率预估模型的训练效率的提升!


Beyond Stream Processing !第四届实时计算 Flink 挑战赛启动,49 万奖金等你来拿!

今年,Beyond Stream Processing——第四届实时计算 Flink 挑战赛正式启动!阿里云将携手英特尔启用全新的 Hackathon 模式举办此次比赛,采用开放式命题形式,旨在探索 Flink 在应用实践中的更多可能性。实时计算Flink挑战赛,49万奖金等你来拿,快来报名吧。


国内唯一!阿里云机器学习平台PAI同时入选Gartner两项权威报告

日前,国际权威研究机构 Gartner 连续发布两份 AI 领域研究报告,阿里云机器学习平台 PAI 蝉联上榜。在2022年数据科学与机器学习平台市场指南(2022 Gartner Market Guide for Data Science & Machine Learning Platforms)报告中,阿里云凭借机器学习平台 PAI 入选工程平台和多角色平台两个方向的代表厂商,成为国内唯一连续入选该报告的厂商。


首个先进级!阿里云大数据+AI平台通过信通院数据平台整体解决方案最高等级评测

近日,在中国信通院组织的第十四批“可信大数据”产品能力评测中,阿里云计算有限公司顺利完成了首个数据平台整体解决方案评测,达到最高等级先进级(3级)。该评测依据 《集成化大数据平台能力分级要求》进行,共涉及10个能力域,44个能力项和577项技术要求。全方位覆盖大数据平台的数据存储、数据集成、数据管理与治理、数据开发、数据处理及分析、数据服务、高可用、平台管理、系统运维、数据安全等能力。


EasyNLP中文文图生成模型带你秒变艺术家

本次,EasyNLP开源框架再次迎来大升级,集成了先进的文图生成架构Transformer+VQGAN,同时,向开源社区免费开放不同参数量的中文文图生成模型的Checkpoint,以及相应Fine-tune和推理接口。用户可以在我们开放的Checkpoint基础上进行少量领域相关的微调,在不消耗大量计算资源的情况下,就能一键进行各种艺术创作。

image.png


阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIX ATC'22

近日,阿里云机器学习平台PAI主导的论文《Whale: Efficient Giant Model Training over Heterogeneous GPUs》,高效大模型训练框架Whale入选USENIX ATC'22。Whale通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练框架。此次入选意味着阿里云机器学习平台PAI自研的深度学习分布式模型训练系统达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。


阿里云PAI与华东师范大学论文入选SIGIR 2022,提出面向长代码序列的Transformer模型优化方法

近日,阿里云机器学习平台PAI与华东师范大学高明教授团队合作的论文《结构感知的稀疏注意力Transformer模型SASA》被顶会 SIGIR 2022录取。论文主导通过引入稀疏自注意力的方式来提高Transformer模型处理长序列的效率和性能,并提出了结合代码语言和结构特性的面向长代码序列的Transformer模型性能优化方法。此次入选意味着阿里云机器学习平台PAI自研的稀疏注意力Transformer模型达到了业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。


三、产品学习指南

基于ELK+Flink日志全观测最佳实践

本文主要通过对日志全观测场景及技术痛点剖析、基于ELK+Flink的场景化方案能力解读、以及日志全观测解决方案客户案例解析来进行分享。


StarRocks X Flink CDC,打造端到端实时链路

本文主要介绍通过 StarRocks 结合 Flink 构建开源实时数仓的方案,可以同时提供秒级数据同步和极速分析查询的能力。同时,通过 StarRocks 主键模型,也可以更好地支持实时和频繁更新等场景。


阿里云云原生一体化数仓 — 湖仓一体新能力解读

本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。


免费下载!《Databricks数据洞察:从入门到实践》

本书从技术基础介绍到场景应用实践,帮助读者入门数据湖Lakehouse以及部分spark相关应用。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
2月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
2月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
576 39
|
2月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
466 30
|
3月前
|
人工智能 安全 中间件
阿里云 AI 中间件重磅发布,打通 AI 应用落地“最后一公里”
9 月 26 日,2025 云栖大会 AI 中间件:AI 时代的中间件技术演进与创新实践论坛上,阿里云智能集团资深技术专家林清山发表主题演讲《未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式》,重磅发布阿里云 AI 中间件,提供面向分布式多 Agent 架构的基座,包括:AgentScope-Java(兼容 Spring AI Alibaba 生态),AI MQ(基于Apache RocketMQ 的 AI 能力升级),AI 网关 Higress,AI 注册与配置中心 Nacos,以及覆盖模型与算力的 AI 可观测体系。
938 49
|
2月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
409 1
|
2月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
292 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
2月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。

热门文章

最新文章