大数据&AI产品月刊【2023年7月】

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 大数据&AI产品技术月刊(2023年7月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布

【云原生大数据计算服务 MaxCompute】新功能 -新增7个内建复杂类型函数

MaxCompute新增7个内建复杂类型函数,简化用户对数组的操作,提高开发效率。

【云原生大数据计算服务 MaxCompute】新功能 -新增Transaction Table2.0表类型

MaxCompute新增Transaction Table2.0表类型,做到分钟级别的数据同步入仓,支持增量查询与历史版本数据查询。

【云原生大数据计算服务 MaxCompute】新功能 -新增列数据清空功能

MaxCompute支持用户清空指定表或者分区的列数据,节省存储空间。

【云原生大数据计算服务 MaxCompute】新功能 -增强数据写入时Zorder功能

MaxCompute增强Zorder功能,支持数据写入时全局进行统一排序,减少数据扫描量,提高计算性能。

【云原生大数据计算服务 MaxCompute】新功能 -新增Json数据类型

新增Json数据类型,MaxCompute支持写入Json数据类型时,自动优化存储,提高Json数据计算分析性能。

【大数据开发治理平台 DataWorks】新地域/可用区 -数据治理中心发布华北2、德国、印度尼西亚三个新地域

DataWorks数据治理中心新开通支持3个地域:华北2(北京政务云)、德国(法兰克福)、印度尼西亚(雅加达),数据治理中心提供了主动式、自动化、可持续数据治理能力,需开通DataWorks企业版使用。

【大数据开发治理平台 DataWorks】新功能 -运维中心发布新版运维大屏

DataWorks运维中心的运维大屏改版,增加运维稳定性评估、重点运维指标,帮助用户从宏观角度快速了解任务的运行情况,及时发现运维问题、并提供异常问题处理方案。

【大数据开发治理平台 DataWorks】新功能 -新增支持EMR on ACK的Spark集群

DataWorks新增支持EMR on ACK类型的Spark集群,从而可以在DataStudio中创建并提交EMR Spark SQL、EMR Spark、EMR Spark Streaming任务,实现任务在集群中的全面生产调度及数据产出。

【大数据开发治理平台 DataWorks】新功能 -新增函数计算任务类型

DataStuido集成阿里云函数计算,支持函数计算任务与数据处理任务的编排调度,实现DataWorks调度系统与外部系统更好的互通互联。

【大数据开发治理平台 DataWorks】新功能 -数据集成新增从Kafka实时入湖OSS(Hudi格式)

DataWorks数据集成新增支持kafka实时同步入湖能力,支持同步到OSS数据源,存储为HUDI格式。

【大数据开发治理平台 DataWorks】新功能 -智能数据建模新增支持复合指标

DataWorks智能数据建模新增支持复合指标,能够通过编辑计算表达式或同环比来定义和设计更加复杂的业务指标,满足高阶业务场景及需求。

【大数据开发治理平台 DataWorks】新功能 -数据地图支持用户自助上报数据血缘

通过调用DataWorks OpenAPI,用户能够将自有数据应用层(例如报表系统)的血缘关系注册至数据地图,构建全链路数据血缘。

【实时数仓 Hologres】新版本/新规格 - Hologres发布弹性计算组,OLAP分析细粒度资源隔离

发布计算组实例,支持单实例内部多种负载隔离,支持弹性热扩缩,支持流量灵活切换。

【实时数仓 Hologres】新功能 -支持实例负载均衡,提供实例故障自动转移能力

支持实例负载均衡,提供实例故障自动转移能力。

【实时数仓 Hologres】新功能 -支持Kafka实时同步Hologres并进行ETL

支持将Kafka数据实时同步至Hologres,同时支持实现同步过程中对于Kafka的json消息自定义解析。

【实时数仓 Hologres】新功能 -支持单实例Shard级多副本,提升实例吞吐,并提升可用性

支持单实例Shard级多副本,提升实例吞吐,并提升可用性。

【实时数仓 Hologres】新功能 -支持hg_stat_activity,丰富SQL运行时诊断信息

可通过hg_stat_activity查看sql运行时的执行阶段,执行引擎类别,资源使用,运行时锁等信息,提升客户的问题诊断能力。

【实时数仓 Hologres】新功能 -支持Runtime Filter,提升多表关联的性能

支持Runtime Filter,优化join过程中的过滤行为,减少数据扫描量,降低IO开销,提升多表关联(join)的性能。

【实时数仓 Hologres】新功能 -丰富Explain和Explain Analyze,简化SQL优化手段

全面优化执行计划展示格式(Explain和Explain Analyze),改善可阅读性,简化SQL性能优化手段。

【检索分析服务 Elasticsearch版】新地域/可用区 - 8.5版本支持地域德国(法兰克福)

阿里云Elasticsearch 8.5版本新增开通德国(法兰克福)地域,可以在控制台上按需开通集群。 8.5版本 100%兼容开源新特性,包括基于HNSW算法实现向量相似度搜索、时序场景Time Series检索、支持上传PyTorch模型、系统索引保护和集群安全等功能。

【检索分析服务 Elasticsearch版】新功能 - 8.5版本机器学习功能默认开启

为帮助用户更好地体验ES高版本机器学习新特性,快速体验业务数据的智能搜索,默认为新购8.5版本的实例启用机器学习功能。

【开源大数据平台 E-MapReduce】新功能 - EMR Workflow公测

EMR Workflow于2023年6月29日开始,面向所有用户开放公测。

【开源大数据平台 E-MapReduce】新功能 -支持无状态集群

提供默认的数据湖架构,无需依赖HDFS,在不使用必须依赖Core节点的服务时,您可以去掉Core节点组,构建完全无状态的集群。

【开源大数据平台 E-MapReduce】新功能 - EMR on ACK形态支持Data Science类型集群

EMR on ACK形态支持Data Science类型集群,可以利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,从而更专注于大数据和AI任务本身,并降低成本。 Data Science集群还提供了包括PyTorch、DeepSpeed等在内的多种模型训练框架,以及CPU+GPU异构计算框架,以满足高性能计算的需求。

【机器学习平台 PAI】新功能 -支持用户自定义算法组件的创建和管理

PAI提供自定义组件功能,支持用户自定义算法组件的创建和管理。

【智能开放搜索 OpenSearch】新功能 - LLM智能问答版计算资源包发布

智能开放搜索 OpenSearch LLM智能问答版推出计算资源抵扣包,方便开发者通过更低价格预先购买计算资源。

【智能开放搜索 OpenSearch】新功能 - LLM智能问答版支持非结构化数据

智能开放搜索OpenSearch LLM智能问答版支持doc、pdf、html等非结构化数据导入,方便开发者快速构建对话式搜索系统。

二、产品活动

阿里云大数据计算&机器学习产品免费试用持续火爆中

阿里云大数据计算&机器学习推出免费试用活动,其中包含Maxcompute、Hologres、实时计算Flink版、机器学习PAI等多款热门产品,点击了解详细试用规则,一键参与试用。

云服务器免费领用,体验PAI-EAS 5分钟部署Stable Diffusion webUI

本文以阿里云机器学习平台PAI的模型在线服务平台PAI-EAS和大家分享【如何5分钟一键部署 Stable Diffusion 文生图模型和启动 WebUI 进行推理服务】。快速入门 Stable Diffusion,一起领取福利免费体验。

Github实时数据分析与可视化训练营火热开启!免费领取5000元云上资源

此次训练营内容基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项目、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项目、编程语言等多个维度了解GitHub实时数据变化情况。快来领取免费云资源,一起参与吧!

图片 1.png

基于EMR Serverless StarRocks,极速全面多维分析21届世界杯

EMR Serverless StarRocks 5000CUH 计算资源,48000GBH存储资源免费试用进行中,提供极致的性能和丰富的 OLAP 场景模型,包括 OLAP 多维分析、数据湖分析、高并发查询以及实时数据分析,快来体验吧!

三、产品快讯

Forrester云数仓报告:阿里云,国内唯一卓越表现者

近日,国际权威咨询机构Forrester 发布最新云数据仓库研究报告 《The Forrester Wave™: Cloud Data Warehouses, Q2 2023》,报告显示,阿里云云数仓产品丰富,涵盖MaxCompute、AnalyticDB、Hologres和E-MapReduce等,以支持各种大规模数据仓库客户案例,可支持各种大规模数据仓库客户,并在数据湖集成、机器学习平台优化、产品性能和规模方面表现强劲。凭借产品性能和市场规模等方面的表现,阿里云连续第二次进入卓越表现者象限,是国内唯一挺进该象限的科技公司。

快速玩转Llama2!阿里云机器学习PAI推出最佳实践

近期,Meta宣布大语言模型Llama2 开源,包含7B、13B、70B不同尺寸,分别对应70亿、130亿、700亿参数量,并在每个规格下都有专门适配对话场景的优化模型Llama-2-Chat。阿里云机器学习平台PAI针对 Llama2 系列模型进行适配,推出全量微调、Lora微调、推理服务等场景最佳实践,助力AI开发者快速开箱。

NLP领域再创佳绩!阿里云机器学习平台PAI多篇论文入选ACL 2023

近期,阿里云机器学习平台PAI主导的多篇论文在ACL 2023 Industry Track上入选。ACL是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选意味着阿里云机器学习平台PAI自研的自然语言处理和多模态算法,以及算法框架能力达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。

基于Hologres向量计算与大模型免费定制专属聊天机器人

大模型广泛应用于各行各业。使用大模型定制聊天机器人,除了训练大模型的方式外,还可以使用提示词微调(Prompt-tuning)的方法,在提问时提供特定行业的相关语料,结合大模型的阅读理解和信息整合能力,对该垂直行业的问题提供更贴切的回答。Hologres是一站式实时数仓引擎,与达摩院自研高性能向量计算软件库Proxima深度整合,支持高效、易用的向量计算能力,可以将Hologres作为向量实时存储和检索引擎,把定制语料作为向量存储并输出给大模型,最终实现定制聊天机器人的快速搭建。

四、产品学习指南

【最佳实践】金蝶管易云 X Hologres:新一代全渠道电商ERP最佳实践

金蝶管易云成立于2008年,是国内最早的电商ERP服务商之一,目前已与300+主流电商平台建有合作关系。针对海量的数据分析和极速探索需求,金蝶管易云将底层的数据库升级成了实时数仓技术DataWorks+Hologres+Flink,助力企业数据查询秒级响应,业务需求变得更加敏捷,月IaaS费用节省了50%,促进业务的高效增长。

【产品运维】Elasticsearch基础检索(全文检索/多语言检索/地理位置查询)

Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎,设计用于云计算中能够达到实时搜索,稳定,可靠,快速,并支持RESTFUL风格的url访问。全文检索、多语言检索以及基于地理位置信息检索在Elasticsearch上应用广泛,本场实验将分别介绍如何使用Elasticsearch8.5版本进行全文检索、多语言检索和地理位置查询三个Elasticsearch基础检索子场景的实现。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
zdl
|
24天前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
142 56
|
8天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
17天前
|
人工智能 自然语言处理 算法
【AI问爱答-双十一返场周直播】AI产品专家直播解读重点AI应用场景怎么用?
阿里云【AI问爱答】栏目强势回归,11月25日至28日每晚19:00,连续四天直播,涵盖AI营销、企业办公、社交娱乐及大模型推理调优四大主题,助您深入了解AI应用,解决实际问题。欢迎预约观看!
|
1月前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
6天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
8天前
|
人工智能 Kubernetes Cloud Native
荣获2024年AI Cloud Native典型案例,阿里云容器产品技术能力获认可
2024全球数字经济大会云·AI·计算创新发展大会,阿里云容器服务团队携手客户,荣获“2024年AI Cloud Native典型案例”。
|
2月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
25天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
198 7
|
25天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
39 2
|
1月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
79 1