「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data

简介: 由于标注人员的社会背景不同,所标注的数据也可能存在着固有偏见,从而导致训练的模型继承了这种偏见。Google 对于这个问题发布了一个数据分析平台Know Your Data,能做三件事,让数据变得公平、公平、还是公平!

数据是机器学习研究和开发的基础,划分数据能够帮助构建机器学习模型,以及评估和基准化模型。 然而实际上,数据收集任务是很复杂的。无意识的偏见、数据访问的限制和隐私问题,都可能使数据收集和标注变得不可预测,并失去部分真实性。 但反过来说,机器学习数据集可以反映种族、性别、年龄等方面的不公平社会偏见。

1.jpg

测验数据集(examing datasets)可以展现出不同社会群体在数据中的不同表现方式,这也是确保机器学习模型和数据集的发展与人工智能原则(AI principles)保持一致的关键。它可以告知用户如何有效使用机器学习数据集,并缓解数据集中包含潜在不公平结果的可能。 先前的研究已经表明这种偏见普遍存在于数据集中,例如一些物体识别数据集由于收集者来自欧美世界,所以他们收集到的物体或者人物图像也更偏向于来自北美和西欧,这也促使谷歌的众包服务应当更努力地去平衡、添加世界上其他地区的图像表示。 

2.jpg

Google 的方案名叫了解你的数据(Know Your Data, KYD),这个平台能够有助于机器学习研究、创造相关产品和协同团队理解数据集。 KYD的目标是提高数据质量,从而缓解公平性和偏见问题。KYD 还提供了一系列特性,包括允许用户探索和检查数据集,用户可以基于给定数据集中已经存在的注释进行过滤、分组和相关性研究。 KYD 还提供了来自谷歌云视觉 API 的自动计算标签,为用户提供了一种简单的方法预分类,可以基于数据集中原本没有的信号来探索他们的数据。 

3.jpg


目前KYD还处于beta测试版本,新增的功能包括数据可视化等。 COCO Captions是一个图像数据集,包含超过30万张图像,并且每一张图像都包含人工生成的标题,这种非结构化文本实际上是对图片的一种注释,可以用来帮助分析数据集中包含的公正性和偏见。4.jpg先前的研究已经证明了计算机视觉数据集中存在不良的性别偏见,一些固有成见可能导致中性词和性别相关,如护士与女性、工人与男性。5.jpg使用KYD很容易发现标题中包含的性别相关性,如标注人员在描述数据集中不同活动、不能性别的人时存在的偏见。 研究人员们研究了描述不同活动的文字标题图片,并分析了它们与性别标题词的关系,如“男人”或“女人”。 KYD 关系标签通过可视化两个信号(男/女)同时出现的概率相比偶然出现的概率更高或更低,用蓝色表示正相关,红色表示负相关,颜色的深浅表示相关程度。 KYD 还允许用户基于子字符串匹配过滤关系表的行。使用这个功能,可以探测例如“-ing”的标题词,作为一种按动词过滤的简单方法。根据动作立即看到了强烈的性别相关性。6.gif通过进一步研究这些相关性,可以发现一些与女性有关的定型活动,如配有 woman 或 women 标题的图片比配有 man 或 men 标题的图片在购物 shopping 和 做饭 cooking 出现的频率更高。 例如下面的图片的标题为Two women cooking in a beige and white kitchen., 其中 women 和 cooking 同时出现。 7.jpg相比之下,描述诸如滑板 skateboarding、冲浪 surfing 和滑雪 snowboarding 等体力活动的说明文字与标有man 或 men 的标题有更高概率同时出现,也就是说与男性更相关。 尽管每个图片标题不应该使用特定的或贬损性语言描述,但如果某些性别群体在整个数据集的特定活动中代表过多或过少,那么根据这个数据集训练的模型就有可能学习到这种特殊关联,尽管他是错误的。 通过上面的KYD可视化,可以很容易地显示、量化和制定计划来减轻这种风险。 除了研究不同活动所描绘的社会群体的偏见,研究人员还探讨了标注人员如何描述他们认为是男性或女性的人的外貌的偏见。 受到那些嵌入在其他形式的视觉媒体中的男性凝视(male gaze)的媒体学者的启发,Google 还研究了 COCO captions 中,标注人员如何用男性或女性来描述图片中的人。 KYD 能够很容易地检查与二元性别相关的单词(例如 female/girl/woman 或 male/man/boy)和与评价吸引力(physical attractiveness)相关的单词之间的共现现象。 最重要的是,这些都是人类标注人员写的说明文字,他们对图片中人物的性别做出主观评价,并选择一个描述吸引力的描述符。 最后可以发现,有吸引力的attractive 、美丽 beautiful、漂亮 pretty 和性感 sexy 这些词更容易出现在描述女性时使用,这也证实了之前的研究所说的视觉媒体如何考虑性别。8.jpg至于年龄的偏见,通常65岁以上的成年人在数据集中的数量相比其他年龄段是不足的。 通过观察描述不同活动的标题词并分析它们与描述年龄的标题词之间的关系,KYD 可以帮助找到哪些词可以用于描述老年人。根据环境和活动判断成年人的年龄对于各种任务来说是很重要的,例如图像字幕或行人检测。9.jpg可以看出,标注人员很少在详细描述不同活动的标题中将一个人描述为老年人。关系标签还显示出一种趋势,即 elderly, old 和 older 倾向于描述各种不需要体力活动的动词,而这些体力活动可能对系统检测来说很重要。 需要注意的是,相对于young 来说,old 更多地用来描述人以外的东西,比如财产或衣服,因此这些关系也捕捉到了一些不能用来描述人的用法。 10.jpg

但这项研究的包含老年人参考的标题表达不足的根源可能是缺乏描述老年人的图像,以标注人员在描述图像中的人时倾向于省略与老年人相关的术语。 通过使用 KYD, 能够定量和定性地检查哪些关系来识别数据集中哪些类别的数据不足,需要补充。 了解机器学习数据集的内容是制定合适的策略以减轻数据集偏见的关键,并且不公正的数据也会影响到下游任务的表现。 社会的刻板印象体现在标注人员身上,但KYD给出了缓解措施,通过平衡数据集,增加代表性不足的类别数据的数量。 然而,仅仅关注数据集平衡是不够的,因为标注人员对图像中人物的主观判断反映在最终的数据集中,这表明需要更深入地研究图像标注的方法。 对于正在开发图像标题数据集的数据从业者来说,一个解决方案是考虑整合已经开发的用于编写对种族、性别和其他身份类别敏感的图像描述的指南。

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
如何构建企业级数据智能体:Data Agent 开发实践
本篇将介绍DMS的一款数据分析智能体(Data Agent for Analytics )产品的技术思考和实践。Data Agent for Analytics 定位为一款企业级数据分析智能体, 基于Agentic AI 技术,帮助用户查数据、做分析、生成报告、深入洞察。
|
7月前
|
SQL 分布式计算 数据挖掘
从Excel到高级工具:数据分析进阶指南
从Excel到高级工具:数据分析进阶指南
347 54
|
5月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
机器学习/深度学习 人工智能 自然语言处理
构建企业级数据分析助手:Data Agent 开发实践
本篇将介绍DMS的一款数据分析智能体(Data Agent for Analytics )产品的技术思考和实践。Data Agent for Analytics 定位为一款企业级数据分析智能体, 基于Agentic AI 技术,帮助用户查数据、做分析、生成报告、深入洞察。由于不同产品的演进路径,背景都不一样,所以只介绍最核心的部分,来深入剖析如何构建企业级数据分析助手:能力边界定义,技术内核,企业级能力。希望既能作为Data Agent for Analytics产品的技术核心介绍,也能作为读者的开发实践的参考。
723 1
构建企业级数据分析助手:Data Agent 开发实践
|
4月前
|
SQL 数据挖掘 BI
数据分析的尽头,是跳出数据看数据!
当前许多企业在数据分析上投入大量资源,却常陷入“数据越看越细,业务越看越虚”的困境。报表繁杂、指标众多,但决策难、行动少,分析流于形式。真正有价值的数据分析,不在于图表多漂亮,而在于能否带来洞察、推动决策、指导行动。本文探讨如何跳出数据、回归业务场景,实现数据驱动的有效落地。
|
10月前
|
SQL 人工智能 数据可视化
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
612 142
|
6月前
|
存储 人工智能 前端开发
Google揭秘Agent架构三大核心:工具、模型与编排层实战指南
本文为Google发布的Agent白皮书全文翻译。本文揭示了智能体如何突破传统AI边界,通过模型、工具与编排层的三位一体架构,实现自主推理与现实交互。它不仅详解了ReAct、思维树等认知框架的运作逻辑,更通过航班预订、旅行规划等案例,展示了智能体如何调用Extensions、Functions和Data Stores,将抽象指令转化为真实世界操作。文中提出的“智能体链式组合”概念,预示了未来多智能体协作解决复杂问题的革命性潜力——这不仅是技术升级,更是AI赋能产业的范式颠覆。
1928 1
|
11月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
605 92
|
8月前
|
SQL 自然语言处理 数据可视化
📊 Quick BI 真实体验评测:小白也能快速上手的数据分析工具!
作为一名软件开发工程师,我体验了阿里云的Quick BI工具。从申请试用账号到上传数据、创建数据集,再到搭建仪表板和使用智能小Q功能,整个过程流畅且简单易用。尤其对非专业数据分析人士来说,拖拽式设计和自然语言问数功能极大降低了操作门槛。虽然在试用入口明显度和复杂语义理解上还有提升空间,但整体体验令人满意。Quick BI让我改变了对数据分析的认知,值得推荐给需要快速制作报表的团队成员。
|
11月前
|
人工智能 前端开发 API
Gemini Coder:基于 Google Gemini API 的开源 Web 应用生成工具,支持实时编辑和预览
Gemini Coder 是一款基于 Google Gemini API 的 AI 应用生成工具,支持通过文本描述快速生成代码,并提供实时代码编辑和预览功能,简化开发流程。
825 38
Gemini Coder:基于 Google Gemini API 的开源 Web 应用生成工具,支持实时编辑和预览

热门文章

最新文章

推荐镜像

更多