参加阿里云开发者大会对于大数据与AI 的未来思考

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 应阿里云MVP团队邀请有幸通过线上渠道参加本次开发者大会,应个人发展方向的关系对于大数据和AI部分的内容介绍特别感兴趣,以下简单介绍下个人对这两方面未来的思考

应阿里云MVP团队邀请有幸通过线上渠道参加本次开发者大会,应个人发展方向的关系对于大数据和AI部分的内容介绍特别感兴趣,以下简单介绍下个人对这两方面未来的思考。

低代码的未来

低代码是目前即热门又有些争议的话题,典型的争论的点就是对于算法开发的替代性究竟会到哪个程度,是否随着低代码的推进,算法开发会逐步退出历史舞台。由于个人同时在阿里云PAI平台上进行过实验,平时主要还是采用Python和R语言研究自己的算法,因此对于这个问题觉得不要过于极端的偏向任何一种看法较好,写代码进行算法开发和低代码是完全可以融合的,不但可以面向不同的对象,哪怕同一个算法工程师或者数据科学家也可以同时采用两种方式,并不存在哪个较为有优势的问题。
算法的设计除了技术更是一门艺术,成品是算法模型和通过模型预测出的结果。我们的世界不管是商业还是工业,场景众多,数据种类也众多,面对这些千变万化的情况,绝对不敢说算法都已经开发完毕了或者说不会再产生新的算法了。这样低代码在应对这些复杂场景的时候因为它产生的原因就是高度封装所以缺乏灵活性是个不可避免的问题,核心就是低代码模式下封装的颗粒度,颗粒度太粗则虽然易于使用但是灵活性不佳的特点愈发明显,颗粒度太细则模块的数量太多最终又和写代码的方式越来越接近,最后使用者觉得还不如自己写代码比较方便。
个人觉得,对于低代码的定位需要清楚,它的优势就是高度封装,因此面向的是业务人员而不是开发人员或研究人员。当算法开发完毕已经能够被广泛的用于生产场景的时候,低代码其实优势就很明显,能够作为业务人员和开发人员之间的桥梁,也能让业务人员更多的参与到算法的设计和改进过程中来。特别是在工业互联网中,很多技术专家对于自己所从事的本专业极其精通,但是具体到大数据和AI怎么落地的时候,写代码成为了一道壁垒,而开发人员虽然有很熟练的开发技术,但是又无法说各类场景的原理和生产过程都十分了解。这使双方因为自身的短板无法很好的将个人擅长的东西糅合到一起从而让大数据算法和AI产生叠加的生产力,低代码的推广使这个壁垒有了打破的工具,业务人员通过模块形式搭建自己需要的算法逻辑,运行之后可以直接看到自己所设计的算法的结果,如果是因为模块的问题而造成的结果不理想,则开发和研究人员因为有了业务层面的第一手反馈而大幅度的提高了改进的效率和速度。最终,业务人员对于生产过程的宝贵技术经验真正的通过低代码工具能够沉淀下来,开发人员因为有了业务上的反馈避免了很多无意义的劳动。从这个角度上分析,低代码最大的意义不是取代开发工作和研究工作,而是一个让不同专业能够相互沟通的手段和桥梁,具有非常大的发展价值,甚至推进了大数据和AI在各领域落地的速度。

开发与算法的融合性

仔细学习了这次开发者大会上各位老师的演讲和资料,大部分集中于数据架构的改良和新的基于云上服务的形成。个人理解就是开发对于算法的支撑力越来越强,虽然严格从专业上看开发和算法是区别较明显的两个领域,但是从目标都是对于数据进行处理这个角度两者又必须进行融合才能让数据的价值体现出来。
一般在回答别人提问什么是大数据的时候其实这个问题因为范围过大,很难真正完全讲透,大部分情况下都是用大数据的4V特征来介绍,符合4V特征的就是大数据。那开发和算法就是分别从不同的角度来体现和解决4V特征,首先是数据的多样性,粗略的进行分类一般就是结构化、半结构化和非结构化,开发通过形成各个工具和面向不同种类数据的数据库确保这些异构数据能够被顺利接入,算法通过设计分析算法、挖掘算法从这些接入的数据中提取和挖掘价值,使数据成为信息,并且尽最大的努力让同样的一份数据能够产生更多的信息;其次是数据的体量大,这个方面开发的作用更大一些,事实上云计算的产生就是因为需要有海量数据的处理技术,计算力能够保证后才又推动了物联网的发展。随着机器学习和深度学习的大规模落地,巨大的计算量在缺少底层支持的情况下各类算法都无法快速的工作,这对于搜索、个性推荐、实时控制这些对于时间有严格要求的场景来说直接关系到存在的基础。充分体现了开发与算法发展有区别但又必须融合的思想,开发的意义本质上在于提高数据的处理能力和安全性,是对算法的底层支撑,而算法有了底层强大的基础后才有可能进一步推进算法的研究、开发和落地。毕竟机器学习和人工智能的很多算法和思想其实并不是这两年才有,过去虽然有这个想法甚至理论,但是计算力基础没有造成了很长一段时间研究工作陷于停顿,只能有限的范围内进行使用而无法大规模落地。

大数据和AI数据处理的未来发展

大数据和AI数据处理的未来上,其实很关注于对于数据清洗能力提升的方面。目前很多场景的问题不是缺乏数据,而是数据过多并且过杂,这从4V特征讲就是价值高但是价值密度低。从事过算法设计工作的都有直观理解,数据清洗的工作量占整个算法设计和开发工作量的70%并且只会更多而不会少,是个工作量很大,很繁琐但是又不得不做的工作。这个方面如果能不断的有更自动化和实用的工具出现自然是很受各方面欢迎的。对于AI来说,因为数据基本是非结构化的语音、图像、视频,因此数据清洗工具能力的提升直接关系到数据预处理和特征工程,进而影响整个算法的结果,这些问题随着数据量的变大只会越来越突出。中台一直各方都认为很强大,它的本质其实就是增加数据的处理能力,也是很大程度的关注于数据的清洗能力和预处理能力,这比计算力更难解决,而一旦解决,数据真正的成为数据资产的效率也就更高。这次开发者大会上,看到了平台不断的在增加这方面的处理能力也是非常的开心,期待这方面今后能有更多的发展,在有了数据、有了计算力后,不因清洗能力的落后而遗漏了可能会挖掘出的价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3天前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
15 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
6天前
|
人工智能 运维 Kubernetes
阿里云容器服务AI助手2.0 - 新一代容器智能运维能力
2024年11月,阿里云容器服务团队进一步深度融合现有运维可观测体系,在场景上覆盖了K8s用户的全生命周期,正式推出升级版AI助手2.0,旨在更好地为用户使用和运维K8S保驾护航。
|
8天前
|
机器学习/深度学习 人工智能 安全
阿里云先知安全沙龙(武汉站) ——AI赋能软件漏洞检测,机遇, 挑战与展望
本文介绍了漏洞检测的发展历程、现状及未来展望。2023年全球披露的漏洞数量达26447个,同比增长5.2%,其中超过7000个具有利用代码,115个已被广泛利用,涉及多个知名软件和系统。文章探讨了从人工审计到AI技术的应用,强调了数据集质量对模型性能的重要性,并展示了不同检测模型的工作原理与实现方法。此外,还讨论了对抗攻击对模型的影响及提高模型可解释性的多种方法,展望了未来通过任务大模型实现自动化漏洞检测与修复的趋势。
|
6天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
3天前
|
人工智能 运维 监控
阿里云Milvus产品发布:AI时代云原生专业向量检索引擎
随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
|
3天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
9天前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
35 4
|
5天前
|
人工智能 Cloud Native 数据管理
数据+AI融合趋势洞察暨阿里云OpenLake解决方案发布
Forrester是全球领先的市场研究与咨询机构,专注于新兴技术在各领域的应用。本文探讨如何加速现代数据管理,推动人工智能与客户业务的融合创新。面对数据标准缺乏、多云环境复杂性、新兴业务场景及过多数据平台等挑战,Forrester提出构建AI就绪的数据管理基石,通过互联智能框架、全局数据管理和DataOps、端到端数据管理能力、AI赋能的数据管理以及用例驱动的策略,帮助企业实现数据和AI的深度融合,提升业务价值并降低管理成本。
|
9天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
140 97
|
13天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营