对2024年以AI为中心的公司增长的11项数据预测

简介: 对2024年以AI为中心的公司增长的11项数据预测

本文来自 企业网D1net公众号

2023年是关于采用GenAI和基础模型的一年,然而,随着公司竞相将GenAI置于其工作流程的前沿和中心,他们意识到有序处理数据事务是多么重要。


公司一直明白高质量数据在商业成功中的作用,GenAI的崛起更加强化了它的价值,确保它成为每个人的关注点。现在,随着我们迈向2024年,这将带来更大的GenAI故事,领先的行业专家和供应商分享了他们对未来几个月数据生态系统的不同方面的预测。


1.关系型将脱离SQL

无论是利用现代边缘计算、物联网还是GenAI应用来发展业务,2024年都不乏公司的大胆计划,所有这些计划都依赖于对公司数据的安全访问。对于许多公司来说,支撑这些应用程序的数据基础设施仍然停滞不前,许多公司继续依赖过时的运营数据库,这些数据库是为满足数十年前的技术需求而构建的。

SQL是一种数据库语言,它缺乏过程逻辑的标准化方法,对于大多数应用程序来说,过程逻辑嵌入到使用有状态的持久会话连接到SQL数据库的应用程序服务器中,这种针对SQL的设计方法在50年前是有意义的,但对于现代的无连接云服务来说,这是一个痛苦的遗产,它通常要求应用程序代码和数据库共同驻留在同一数据中心区域,这严重阻碍了当今对公司至关重要的无服务器或地理分布的应用程序,如物联网和边缘应用程序等。

展望未来,我们将看到公司采用更加灵活的数据库基础设施,以支持物联网、边缘计算和AI中现代应用程序的分布性、一致性、可扩展性和灵活性。遗留数据库的挑战只会变得更加昂贵,因为它们的限制对公司开发人员来说变得更加沉重,并成为业务创新步伐的更大瓶颈。


2.矢量数据库将成为最受欢迎的技术

2024年,矢量数据库将成为最抢手的收购技术。在一个数据驱动的洞察力推动创新的时代,矢量数据库因其在处理高维数据和促进复杂相似性搜索方面的能力而迅速声名鹊起。无论是对于推荐系统、图像识别、自然语言处理、金融预测还是其他AI驱动的公司,了解顶级矢量数据库对于跨行业的软件开发都将是至关重要的。

就像过去的应用程序数据库一样,矢量数据库将在技术堆栈中发挥越来越重要的作用。团队将需要可扩展、易于使用和操作简单的矢量数据存储,因为他们寻求创建具有新的LLM驱动能力的AI产品。


3.在公司数据湖中捞取LLM黄金

关于公司平均存储了多少信息的统计数据并不缺乏——对于大公司来说,它可以在任何地方高达数百PB,然而,许多公司报告说,他们挖掘的信息(主要是结构化数据)不到一半,以获得可操作的见解。2024年,公司将开始使用GenAI来利用这些未被驯服的数据,将其用于构建和定制LLM。有了AI支持的超级计算,公司将开始挖掘他们的非结构化数据-包括聊天、视频和代码-以将他们的GenAI开发扩展到训练多模式模型,这种超越了挖掘表格和其他结构化数据的能力的飞跃,将使公司能够为问题提供更具体的答案,并找到新的机会,这包括帮助发现健康扫描中的异常情况,发现零售业的新兴趋势,以及使商业运营更加安全。


4.没有足够复杂的自动化来支持AI的公司将失去竞争优势

随着公司实施AI以保持竞争优势,许多公司将更敏锐地感受到他们杂乱无章的数据基础设施的影响。当风险从简单地在仪表板上提供错误信息到可能基于该数据自动做出错误决策和行为时,错误数据(或数据不足)的影响将变得更加严重。没有强大的数据基础设施和治理的人将GenAI置于关键任务的背景下,并遭受准确性损失,这只是个时间问题。


5.云FinOps团队将优化数据管道

面对今年云中支出失控的现实,2024年,将需要真正的跨公司合作伙伴关系来确定不必要的支出,财务和工程团队都将发挥关键作用。在Ascend的年度研究中,48%的受访者提到了优化其数据管道以降低云计算成本的计划,89%的受访者预计未来12个月管道的数量将会增长。2024年必须利用平台,查明数据管道中的额外支出发生在哪里,并通过快速演示成本优化来反击,以避免来自上级的误导性授权。


6.意向数据将成为营销团队的必备资料

随着公司努力协调销售和营销工作,通过意向数据的行为数据分析来预测客户需求的能力将变得越来越重要。随着AI每年都变得越来越复杂,我们预计将继续从被动的客户参与转向主动的客户参与,促进转换并培养长期的客户忠诚度。


7.数据和业务团队将在AI产品入驻问题上争执不下

虽然商业用户对ChatGPT等AI产品的需求已经起飞,但数据团队在允许访问公司数据之前仍将实施一份庞大的清单,这种摇尾巴的情况可能是一种强制平衡的功能,随着AI证明自己是可靠和安全的,采用可能会更早而不是更晚。

此外,公司将优先考虑清洁数据集,以加入AI驱动的分析大潮。干净的数据集将作为成功实施AI的基础,使公司能够获得有价值的见解并保持竞争力。


8.公司将受到实时和AI的双重打击

AI支持的实时数据分析将通过自动化的方式为公司带来比以前更大的成本节约和竞争情报,并使软件工程师能够在公司内更快地行动,例如,保险公司在其数据库中存储了数以太字节计的数据。有了AI,在2024年,我们将能够实时处理这些文档,并从这个数据集中获得良好的智能,而不必编写自定义模型。

到目前为止,软件工程师需要编写代码来解析这些文档,然后编写更多代码来提取关键字或值,然后将其放入数据库和查询中,以生成可操作的见解。对公司来说,节省的成本将是巨大的,因为有了实时AI,公司将不必雇佣大量员工来从数据中获得有竞争力的价值。


9.知识图谱将帮助用户消除数据孤岛

随着公司不断将更多数据转移到数据云中,他们在云中收集了数百、数千、有时甚至数万个数据孤岛。通过利用各种数据源之间的关系,知识图将很容易地驱动语言模型来导航存在的所有数据竖井。带着这一点,在新的一年里,我们将看到各种老牌的、新颖的基于知识图的AI技术涌现出来,这些技术支持智能应用的发展。


10.AI将改变目前的数据管理方式

公司正在认识到AI对其整体价值主张和竞争优势做出贡献的潜力。为了实现这一点,AI需要对不同类型的数据进行训练和处理。一些数据是公开的,但其中许多是特定于公司的个人消费者信息或知识产权。公司将发现,他们需要取得平衡,以保护AI模型正在使用的数据,同时仍使用这些数据来支持有价值的决策。这些创新的数据管理解决方案将继续随着监管合规和新兴立法的发展而发展。


11.首席数据官(CDO)的角色将成为CIO候选人的先决条件

2024年,将为CIO候选人开辟一条新的、肯定会成功的职业道路——成为一名出色的首席数据官。在过去的几年里,CDO已经从一个低预算的咨询角色演变为一项关键资产,帮助公司最大限度地利用数据。随着越来越多的公司投资于AI和云以实现数据民主化和刺激创新,CDO处于主导地位——比以往任何时候都更接近CIO和业务的成功。寻找伟大的CIO的公司将选择那些真正了解数据如何移动、流动和影响公司的人,这意味着CDO在追求这条职业道路方面将具有天然优势,并继续在公司中发挥巨大影响。

相关文章
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
21天前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
1月前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
56 6
|
3天前
|
存储 机器学习/深度学习 人工智能
【AI系统】完全分片数据并行 FSDP
本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现,特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念,重点讨论了同步与异步数据并行的差异。接着,文章详细介绍了如何在PyTorch中实现弹性数据并行,特别是完全分片数据并行(FSDP)的机制,包括其如何通过分片模型状态和剩余状态来减少内存消耗,提高训练效率。此外,文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术,为理解和实施高效的分布式训练提供了全面的指导。
21 9
【AI系统】完全分片数据并行 FSDP
|
4天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
41 7
【AI系统】数据并行
|
13天前
|
存储 人工智能 编译器
【AI系统】昇腾数据布局转换
华为昇腾NPU采用独特的NC1HWC0五维数据格式,旨在优化AI处理器的矩阵乘法运算和访存效率。此格式通过将C维度分割为C1份C0,适应达芬奇架构的高效计算需求,支持FP16和INT8数据类型。此外,昇腾还引入了NZ分形格式,进一步提升数据搬运和矩阵计算效率。AI编译器通过智能布局转换,确保在不同硬件上达到最优性能。
38 3
|
1月前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
27天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
1月前
|
存储 人工智能 大数据
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
1月前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。