机器学习将非结构化二级存储数据变为可全局访问的数据

简介: 实现转型和变革的关键是数据,因为糟糕的数据会带来糟糕的洞察力,而良好的数据会带来良好的洞察力。对大多数组织来说,问题是他们可能有一个很好的主存储数据管理策略,但他们从二级存储中找到洞察的能力则通常是不存在的。

Cohesity的Helios可以将大量的二级存储从被浪费的资产转换成能够创造竞争优势的数据资产。

image.png

查尔斯•达尔文曾说:“能够活下来的物种,通常既非最强的物种,亦非最聪明的物种,而往往是最能适应改变的物种。”把这个公理用来形容当下的商业世界是再贴切不过的了。能否适应市场趋势一直是决定企业最终能成为市场领导者还是成为无关紧要者并最终被市场淘汰的决定因素。然而,在当今的数字时代,这些市场变化发生得要比以前更快,这给首席信息官带来了巨大压力,要求他们必须不断想办法在市场竞争中保持领先地位。


||  数据是揭示变革过程的关键


实现转型和变革的关键是数据,因为糟糕的数据会带来糟糕的洞察力,而良好的数据会带来良好的洞察力。对大多数组织来说,问题是他们可能有一个很好的主存储数据管理策略,但他们从二级存储中找到洞察的能力则通常是不存在的。从分支机构到本地服务器,二级存储的管理通常是一团乱麻。通常有多份数据的拷贝,但没有人知道哪一份才是真实的文件。所有的这些都会造成大量的存储碎片问题。


更大的挑战是,备用存储器往往占公司总存储器的90%。这意味着企业能够处理并获取洞察力的数据其实只占其整体数据的一小部分。二级存储大规模的碎片化一直是大多数组织无法解决的一个问题。


||  Cohesity使二级存储器具有全局可访问性


这就是Cohesity试图解决的问题。Cohesity是蓬勃发展的超融合(HCI)二级存储市场的先驱之一。Cohesity的DataPlatform是一种HCI解决方案,它将组织的所有二级存储合并到一个平台上,然后添加一些数据管理特性,以使工作流与DevOps保持一致,这正是当今许多组织内部正在不断发展的一项计划。我的研究表明,现在69%的企业对DevOps感兴趣,尽管并非所有的企业都将其应用在生产当中。而阻碍业务发展的挑战之一是DevOps经常与IT脱节。因而首席信息官需要在公司内部推动更好的一致性,数据方面的问题,特别是二级存储方面的问题是需要优先解决的问题之一。


||  Cohesity宣布推出Helios


本周,Cohesity发布了它的第一款软件即服务(SaaS)产品,名为Helios,它可以让客户更轻松地从一个仪表盘上管理和处理二级存储。更重要的是,客户可以使用Costopy提供的机器学习(ML)和分析工具来发现以往无法使用的数据洞察力。我相信ML将从根本上改变IT的基础设施管理,我也相信Cohesity是第一个将它应用到二级存储的厂商。


||  机器学习提高数据的可用性


Helios将来自全球部署的Cohesity集群的元数据聚合到其云中,并应用机器学习来让客户对存储做更多的事情。需要特别注意的是,对于具有安全意识的组织来说,这种一致性的获得并不是通过聚合数据本身,而是对象的元数据,后者将指向数据的位置。现在,存储管理员只需单击一下鼠标,就可以在多节点环境中全面的推出新策略或进行升级。其他功能包括:


•多集群管理,它为可见性、报告、可操作搜索、根源分析和故障排除提供了一个全局仪表板。


•一个“智能助理”,用来确保所需资源被正确引导到集群中以确保服务级别的协议得到满足。IT负责设置SLA,而智能助手负责合规性。


•利用Cohesity的ML能力的预构建托管应用程序。其中包括用于搜索数据字符串的模式查找器,例如社会安全号码或电话号码,以及用于查找不符合公司标准密码的密码检测,以及用于减少文件大小的视频压缩。


SaaS最大的且未被重视的好处之一是能够跨多个客户聚合并比较数据。在一个人的消费生活中,可以想想亚马逊提供的推荐,比如“买了X也买了Y的顾客”。Cohesity可以通过比较数据,了解其利用率、备份频率或其他的数据管理能力,然后做出适当的改变。


数字首席信息官们需要摒弃传统的存储思维,而更多地考虑数据的全球可访问性和优化。在ML时代,这一点将变得尤为重要,因为在这个时代,数据的质量可以决定你是市场领导者还是落后者。特别的,二级存储可能是当下公司中被浪费的最大的资源,如果能够利用在其中所获取的知识和见解,则可以帮助组织更快的实施他们的数字化转型工作。

相关文章
|
3月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
311 8
|
8月前
|
机器学习/深度学习 算法 数据挖掘
PyTabKit:比sklearn更强大的表格数据机器学习框架
PyTabKit是一个专为表格数据设计的新兴机器学习框架,集成了RealMLP等先进深度学习技术与优化的GBDT超参数配置。相比传统Scikit-Learn,PyTabKit通过元级调优的默认参数设置,在无需复杂超参调整的情况下,显著提升中大型数据集的性能表现。其简化API设计、高效训练速度和多模型集成能力,使其成为企业决策与竞赛建模的理想工具。
292 12
PyTabKit:比sklearn更强大的表格数据机器学习框架
|
11月前
|
机器学习/深度学习 数据采集 JSON
Pandas数据应用:机器学习预处理
本文介绍如何使用Pandas进行机器学习数据预处理,涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤,并提供解决方案,确保数据质量,提升模型性能。
455 88
|
11月前
|
机器学习/深度学习 数据采集 算法
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
881 36
|
11月前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
313 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
9月前
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
933 0
|
11月前
|
人工智能 Kubernetes Cloud Native
跨越鸿沟:PAI-DSW 支持动态数据挂载新体验
本文讲述了如何在 PAI-DSW 中集成和利用 Fluid 框架,以及通过动态挂载技术实现 OSS 等存储介质上数据集的快速接入和管理。通过案例演示,进一步展示了动态挂载功能的实际应用效果和优势。
|
机器学习/深度学习 人工智能 自然语言处理
模型训练数据-MinerU一款Pdf转Markdown软件
MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。
1815 4
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
244 2
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
358 3

热门文章

最新文章