四说大数据时代“神话”:从大数据到深数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 在机器学习方面始终有个基础性的误会,即更大的数据会形成更快的学习效果。殊不知,更大的数据并非意味着能发现更深刻的信息。事实上,与数据的规模相较,数据的质量、价值和多样性更最该关注,即数据的“深度”胜于“广度”。

在机器学习方面始终有个基础性的误会,即更大的数据会形成更快的学习效果。殊不知,更大的数据并非意味着能发现更深刻的信息。事实上,与数据的规模相较,数据的质量、价值和多样性更最该关注,即数据的“深度”胜于“广度”。文中从三个角度思索了大数据时代的问题并提出了一些建议的做法以改进这些问题。

现今,人们看待数据理应更为深思熟虑,而不是不加刷选地搜集全部可获取的数据来实现“大数据”。我们如今需要让某些数据落实到位,并搜寻数量和质量的多样性。这一措施将产生很多长久的利益。

四种大数据神话:

任何数据都能够而且理应被捕捉和储存。

大量的数据总是有利于创建更精确的分折模型。

存储大量数据的成本基本上为零。

计算大量数据的成本基本上为零。

殊不知:

来自物联网和网络流量的数据明显超出了人们的捕捉能力。许多数据都需要在抓取时进行预处理便于存储和监管。人们需要按照其价值对数据做好归类与筛选。

重复使用一千次同样的数据开展训练并不会提升预测模型的精确性。

储存更多数据的成本不仅是亚马逊网络服务向您收取的以 TB 计费的美金。同时也包含系统在查寻和监管好几个数据源的超额复杂性,及其员工移动和运用该数据的“模拟重量”。这些成本一般高过储存和计算费用。

人工智能算法对计算资源的需求会迅速超过弹性云基础设施能够提供的算力。在沒有专业的管理模式的情形下,计算资源会呈线性增长,而计算需求则会出现超线性增长,乃至指数级增长。

假如轻信了这些神话,你所构筑的信息系统将会看上去会好似纸上谈兵,或从长久角度看上去非常好,但在即时性的架构中实现起来则是繁杂且低效的。

四种大数据问题:

重复的数据对模型无益。在为 AI 构建机器学习模型时,训练样本的多样性尤为重要。缘故是模型试图明确概念界限。比如,假如您的模型试图通过年纪和职业来界定“退休人员”的概念,那么像“32 岁的注册会计师”这样的重复样本对该模型并没什么价值,因为这些人大也没有退休。在 65 岁的概念边界中获得样本并掌握退休怎样随职业而转变则更具备价值。

低质量数据会对模型有害。在 AI 试图学习两个概念之间边界的过程中,如果新数据是不精确的,或存在错误,那么它会混淆这个边界。在这种情况下,更多数据无济于事,并且还有可能会降低现有模型的准确性。

大数据增加了时间成本。针对不一样学习算法,在 TB 级的数据上构建模型将会会比在数 GB 的数据上构建模型多花费约千倍、乃至万倍的时间。数据科学本就是迅速实验,虽不完美却轻量的模型更具备未来趋势。数据科学一旦失去了速度,则失去了未来。

大数据环境下便于实现的模型。任何预测模型的最后目的都是构建一个可用于商业部署的高度精确的模型。有时使用来自数据库深处阴暗面的模糊数据将会会产生更高的精确性,但所使用的数据针对实际部署可能是有风险的。应用一个不太准确却能够快速部署和运行的模型往往更好。

四种更好的措施

学会在准确性和执行性之前权衡。数据科学家大都喜爱将目标定为更精确的模型。事实上,你理应依据准确性和部署速度,测算合理的 ROI 期待,随后再开始你的项目。

应用随机样本搭建每一模型。如果你已经获取了大数据,那么没理由不采用它。假如能使用好的随机抽样方法,那么你可以先使用小样本建立模型,随后在全部数据库上开展训练和调节以获取更精确的预测模型。

丢弃一些数据。倘若你对来源于物联网设施和其它来源的流数据觉得手足无措,请抛下一些数据,不必有太大的负担。如果你没法购买足够的磁盘来储存多余的数据,它会损毁你在计算机科学生产线末期的全部工作。

找寻更多数据源。人工智能近期的很多突破并非归因于更大的数据集,而是能够将机器学习算法成功的应用于这些数据,这在以前是没法实现的。比如,现今普遍存在的大中型文本,图像,视频和声频数据集在20年前并非存在。你理应持续探寻新的数据以找出更好的机会。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
26天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
5天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
28 1
|
27天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
46 3
|
2天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
21 1
|
4天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
21 2
|
6天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
10天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
27 2
|
26天前
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
41 1
|
26天前
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
63 1
|
27天前
|
分布式计算 监控 大数据
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
51 1