人机协作是如何自动化分类数据

简介:

.

导 读


人工智能的倡导者与以人为中心的方法的支持者之间的争论其实是一个错误的二分法。机器当然可以帮助人们解决面对的问题,但是它们很少能单独完成任务。为了更有效,机器必须向人类学习与人相关的知识。创建和实现准确的人工智能系统要求人的知识的输入。


这并不意味着我们不能从自动化和人工智能上得到应有的效率优势。人类的输入并不需要很多的时间及精力的投入就可以收集到。换句话说,让机器不通过直接询问人类问题,但进而回答与人类有关的问题是可能的。


比如,谷歌通过观察人们点击哪些页面来学习哪些网页是人们喜欢的。当将这些作为PageRank算法的输入的链接推荐时,这些在线信息的产生者不是有意与谷歌电脑交互,他们是与人类观众交流。谷歌只是简单地进行“偷听”,就像宝宝通过反复的听到许多成年进行的对话来学习她的语言。学习人们的自然模式和被动信号是计算机获取有用的知识的最有效的途径之一。



 ◆ 

智能“窃听”计算机的角色



在一个组织中,有大量的消息来源,可以让一个智能窃听计算机能够学习数据分析师如何与他们的数据库进行交互,以及它们应该怎么做:


查询日志

许多查询“对话”都会被存储在查询日志中。一个查询日志中的一条记录可能展示了用户Jdoe写了一个查询用来从一个客户表与一个事务表的连接中选取一些列,并通过时间进行过滤。这一事件暗示了Jdoe可能知道并且对那两个表感兴趣,以及那些表可以以此种方式进行连接。如果许多不同的用户针对这些表中的一个进行查询时,那表示那个表在组织中十分重要。这类信息对于一个需要加紧熟悉数据环境的新员工以及需要优先排序数据文档的处理是有用的。如果Jdoe针对事务表写了格外多的查询,那么这意味着她可能是这方面的专家。并且如果许多在事务表上执行的查询包含数据过滤器(并且如果所有不需要几百小时来运行的查询会经常被取消),这就是一个明显的信号,说明未来的查询应该包含这个过滤器。日志包含了丰富的知识,说明重要的是什么,对谁重要,谁是专家,以及数据应该怎样优化地被过滤、连接和使用。但前提是你知道如何阅读这些信号。


商业智能工具

另外一种人们与他们的数据进行对话的记录可以在商业智能工具中发现。如果我在Tableau的工作簿中制作了一个图表,其中y轴叫做“收入”,并且我使用事务表中的数量列的总和来计算该值,我就有效地提供了我对收入的定义。一个计算机能够将这个定义与其他标记为“收入”的轴进行对比,并且应用各种技术来评估这些定义在逻辑上是否等价。


数据血缘继承

在没有许多人类输入的情况下,计算机可以绘制出一个组织中所有数据资产的来源和出处图,从基本表到产生的报告,以及之间的ETL脚本和SQL创建语句。那个图可以用来放大人类的效用。例如,由于腐败变质是顺流而下的,一个重要的来源表报告的数据质量问题能够成为一个数据质量告警向下传播到上千个表和报告指标上。


自然语言语料库

难以理解的字段名能够代表数据分析部门面临的一个主要挑战。例如Cmply_bin中的bin代表的是什么?inis_bin 或者 bin_nbr里又是什么意思?通过在内部维基或者商业智能工具中扫描已完成的文档,计算机可以构建一个语言模型,包含可能的候选项:“bin”在A/B测试中是桶的同义词,或者也可以是单词“binary”的缩写,也可以是“Buy it Now”的首字母缩写。在学习“成人”(与婴儿的比喻对应)的语法之后,计算机可以生成一个消歧引擎,基于词的排列搭配和上下文线索。拼写规则和自然语言处理技术都可以对已有的组织文档中存在的语料库进行处理。


数据的值

数据的值本身也可以提供丰富的信号。某些文档中的九位字符串看上去可能是社保号码,特别是那些名字为soc_sec_num, ssn或者scl_scrty_nbr的字段。通过上面所述的数据的传承和连接,这些值可以追溯到其他有不太明显的标签的字段。因此,放置在其中一个包含敏感信息的字段上的标志可以传播到其余部分,提高了整个数据集的安全性。



 ◆ 

有知识的人类训练师的角色


对于所有的文档来说,从一个可能敏感的信息的分类到一个字段名的英语翻译,再到一个计算(如求和)或一个度量指标(如收入)的映射,计算机可以提供具有相当置信度的猜测,之后具有相关知识的人可以进行确认。这种确认不仅仅是另一个人对其进行标注从而增加可信度,更是在教计算机,使得它对自己未来的猜测更为自信。


许多现代的数据驱动的组织都在积极地生成数据目录,这是一种综合性的存储,包括一个组织中的所有的数据资产,它们的质量和来源,以及它们应该如何使用。只通过人力来试图建立这种工件在有限的资源下是很难完成的。而完全自动化的项目(例如让计算机自行抓取数据,不需要人为输入)通常会带来不准确和可信度不高的结果。



 ◆ 

结  论


人类在查询日志、BI工具、维基、谱系、数据值这些场景里,以及它们之间的各种连接时留下了大量的隐藏信号。通过从中提炼出知识,计算机可以学习一个数据环境,它是如何工作的,以及它过去是如何工作和应该如何工作等等重要信息,并由此自动化地填充一个数据目录分类。通过具有相关知识的人的显式反馈,计算机可以提高数据目录分类的广度和精度。



计算机猜测,专家确认,而后计算机再学习,更好的猜测,人类受益。当人与计算机进行协作,我们人类的需要花费的力气可以被最小化,而我们得到的收益被最大化。这在人和计算机的世界都是最好不过的结果。


原文发布时间为:2016-08-29

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
5月前
|
数据采集 数据可视化 JavaScript
用 通义灵码和 PyQt5 爬虫智能体轻松爬取掘金,自动化采集技术文章和数据
本文介绍了如何利用智能开发工具通义灵码和Python的PyQt5框架,构建一个自动化爬取掘金网站技术文章和数据的智能爬虫系统。通过通义灵码提高代码编写效率,使用PyQt5创建可视化界面,实现对爬虫任务的动态控制与管理。同时,还讲解了应对反爬机制、动态内容加载及数据清洗等关键技术点,帮助开发者高效获取并处理网络信息。
|
4月前
|
数据采集 运维 监控
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
2138 10
|
8月前
|
数据采集 JSON 前端开发
GraphQL接口采集:自动化发现和提取隐藏数据字段
本文围绕GraphQL接口采集展开,详解如何通过`requests`+`Session`自动化提取隐藏数据字段,结合爬虫代理、Cookie与User-Agent设置实现精准抓取。内容涵盖错误示例(传统HTML解析弊端)、正确姿势(GraphQL请求构造)、原因解释(效率优势)、陷阱提示(反爬机制)及模板推荐(可复用代码)。掌握全文技巧,助你高效采集Yelp商家信息,避免常见误区,快速上手中高级爬虫开发。
161 3
GraphQL接口采集:自动化发现和提取隐藏数据字段
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
743 4
|
Python
Python办公自动化:xlwings对Excel进行分类汇总
Python办公自动化:xlwings对Excel进行分类汇总
289 1
|
9月前
|
存储 人工智能 API
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
OWL 是基于 CAMEL-AI 框架开发的多智能体协作系统,通过智能体之间的动态交互实现高效的任务自动化,支持角色分配、任务分解和记忆功能,适用于代码生成、文档撰写、数据分析等多种场景。
1843 13
OWL:告别繁琐任务!开源多智能体系统实现自动化协作,效率提升10倍
|
9月前
|
缓存 监控 API
微店商品详情API接口实战指南:从零实现商品数据自动化获取
本文介绍了微店商品详情API接口的应用,涵盖申请与鉴权、签名加密、数据解析等内容。通过Python实战演示了5步获取商品数据的流程,并提供了多平台同步、价格监控等典型应用场景。开发者可利用此接口实现自动化操作,提升电商运营效率,降低人工成本。文中还总结了频率限制、数据缓存等避坑指南,助力开发者高效使用API。
|
11月前
|
人工智能 自然语言处理 语音技术
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
FilmAgent 是由哈工大与清华联合推出的AI电影自动化制作工具,通过多智能体协作实现从剧本生成到虚拟拍摄的全流程自动化。
2898 13
FilmAgent:多智能体共同协作制作电影,哈工大联合清华推出 AI 驱动的自动化电影制作工具
|
9月前
|
数据采集 消息中间件 API
微店API开发全攻略:解锁电商数据与业务自动化的核心能力
微店开放平台提供覆盖商品、订单、用户、营销、物流五大核心模块的API接口,支持企业快速构建电商中台系统。其API体系具备模块化设计、双重认证机制、高并发支持和数据隔离等特性。文档详细解析了商品管理、订单处理、营销工具等核心接口功能,并提供实战代码示例。同时,介绍了企业级整合方案设计,如订单全链路自动化和商品数据中台架构,以及性能优化与稳定性保障措施。最后,针对高频问题提供了排查指南,帮助开发者高效利用API实现电商数智化转型。适合中高级开发者阅读。