Nature封面:乘着AI的翅膀,数据「带飞」计算社会科学!

简介: Data Is Not All You Need! 如今有海量数据可供研究,确保数据质量和隐私变得更加紧迫。本期的「Nature封面」介绍了新兴研究领域「计算社会科学」,讨论了如何用大数据集解决社会问题。

早在苏美尔王国时期,这个智慧王国的子民就开始记录数据,进行人口普查、分配粮食

1.jpg

全世界最早产生的文明之一苏美尔的人口普查记录

 

苏美尔人贡献了书面数据分析的最早记录。

 随着计算机的出现,人们开始用机器分析大型数据集,这一阶段最早可以追溯到大型计算机时代。 


2.jpg

计算机大大加快了数据分析的速度,被广泛应用在审计和人口普查上。 而这种将大量数据分析与社会问题相结合的工作,即计算社会科学(Computational social science)近年来得到了巨大的发展。 巨大的发展伴随的是没有限制、不受监管的数据收集。

3.jpg

这其中存在很大风险:缺乏监控以及从匿名数据中重新识别身份的风险。 还有人担心,收集数据却没有征得当事人的同意怎么办? 大部分数据都被少数大型科技公司垄断怎么办? 不仅大型科技公司掌握数据、数据使用权在向发达国家、富裕人群倾斜,这样做出的决策难免会有偏差。 所以,目前需要我们将社会科学和不同学科以及收集分析大型数据集所需的技能结合起来,这就需要跨学科的合作。 但是,目前跨学科合作面临诸多挑战。 今天,Nature就以特刊形式讨论了目前计算社会科学面临的挑战和机遇。


4.jpg

克服跨学科的语言障碍


计算社会科学集社会、自然、计算科学等学科于一身。

同一个词,在不同学科之间可能有不同的含义,在这种情况下就很容易「鸡同鸭讲」。 例如,在社会科学领域,「预测」(prediction)通常含有「相关」的意思;而在物理科学领域,这个词更多指的是「预测」。

5.jpg

「token」在不同领域里也有不同含义 因此,不同学科之间需要克服同一术语表达不同意思的语言障碍。开展跨学科研究时,科学家们首先需要学会彼此的语言,然后得出一种能够相互理解的术语。 但比起语言障碍,更难的是如何展示、分析和解释数据,最终解释某种现象。 比方说,要想了解交通拥堵的原因,研究人员会收集并预测交通流量数据,还会从司机口中了解到他们选择特定路线的原因。计算社会科学的学科互补特性,能更高效地回答研究问题。

处理数据的「大忌」


所有研究结果取决于分析策略,还取决于数据的质量,在处理社会数据的时候更是如此。 要想完成计算社会科学的研究,就先得要有大量的数据,如手机的定位信息。但是这些信息通常不是出于研究目的才收集的,因此很容易被人误解。 仅从数字中观察到趋势或模式中就得出结论,这是研究人员处理大数据集的「大忌」。研究人员应该考虑可能会影响结果的因素。 为了提取数据的真正意义,研究人员需要确保他们根据理论,仔细地定义测量对象,并适当地进行验证和解释。


image.gif

算法的广泛影响是另一个潜在错误。算法遍及整个社会,以不同的方式影响着个人和群体行为,这意味着,所有的观察不仅在描述人类行为,还在描述算法对人们行为方式的影响。 社会科学理论需要更新,承认算法带来的影响;要是没有这些理论,没有清晰理解算法对可用数据的影响,研究人员就无法得出有意义的结论。 

共享数据的难处


大型数据集通常是商企的私有财产,这是计算社会科学的另一个复杂问题。搞学术的科学家需要跟企业联系才能获得访问权限,这有可能会产生更多偏见。


image.jpeg

对于公司而言,数据是有价值的,因此共享数据会冒犯到公司的「底线」。这也是公司倾向于限制共享内容的原因之一。 但考虑到这些数据能提供社会效益,公司——连同学术研究人员和公共机构——需要共同解决这些问题,并为数据的质量、数据访问和数据所有权制定标准。

未来获取数据的方式


一篇关于「人类社会感知」的文章对于如何获得有用、可靠的数据列举了一些方法。这是对个人如何在其社交网络中收集他人信息的研究。 例如,研究人员可以通过采访对象并询问他们的朋友在谈论什么,从而预测出政治观点的变化。 收集他人的数据有助于避免自我报告数据中出现的一些偏见,生成匿名数据也有额外好处:研究人员永远不需要知道他们获得的数据中,任何有关个人或敏感细节的信息。


image.jpeg

获取数据的方式变得更加成熟,这一点体现在传染病建模和行为科学的交叉领域。 要建立准确的传染和感染模型,研究人员需要了解患病人群的文化和行为。如果不考虑传播的这些和其他社会方面的传播因素,就难以预测疾病的传播路径。跨学科的结构和广泛合作十分关键。

而新冠肺炎疫情已经表明,大规模数据集应用于科学能够挽救生命。随着具有计算机科学或应用数学背景的研究人员与社会科学家的合作,而这种潜力才刚刚开始显现。 

相关文章
|
3天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
20天前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
20 1
|
2天前
|
机器学习/深度学习 人工智能 算法
整合海量公共数据,谷歌开源AI统计学专家DataGemma
【10月更文挑战第28天】谷歌近期开源了DataGemma,一款AI统计学专家工具,旨在帮助用户轻松整合和利用海量公共数据。DataGemma不仅提供便捷的数据访问和处理功能,还具备强大的数据分析能力,支持描述性统计、回归分析和聚类分析等。其开源性质和广泛的数据来源使其成为AI研究和应用的重要工具,有助于加速研究进展和推动数据共享。
20 6
|
2天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
3天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
9天前
|
人工智能 边缘计算 监控
边缘AI计算技术应用-实训解决方案
《边缘AI计算技术应用-实训解决方案》提供完整的实训体系,面向高校和科研机构的AI人才培养需求。方案包括云原生AI平台、百度AIBOX边缘计算硬件,以及8门计算机视觉实训课程与2门大模型课程。AI平台支持大规模分布式训练、超参数搜索、标注及自动化数据管理等功能,显著提升AI训练与推理效率。硬件涵盖多规格AIBOX服务器,支持多种推理算法及灵活部署。课程涵盖从计算机视觉基础到大模型微调的完整路径,通过真实商业项目实操,帮助学员掌握前沿AI技术和产业应用。
28 2
|
10天前
|
人工智能 开发者
通义灵码一周年数据报:你的 AI 编码助手身份标签是什么?
通义灵码一周年数据报,等你来开AI编码身份标签。
36 3
|
17天前
|
机器学习/深度学习 人工智能 算法
"拥抱AI规模化浪潮:从数据到算法,解锁未来无限可能,你准备好迎接这场技术革命了吗?"
【10月更文挑战第14天】本文探讨了AI规模化的重要性和挑战,涵盖数据、算法、算力和应用场景等方面。通过使用Python和TensorFlow的示例代码,展示了如何训练并应用一个基本的AI模型进行图像分类,强调了AI规模化在各行业的广泛应用前景。
25 5
|
19天前
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
32 3
|
19天前
|
存储 人工智能 安全
AI时代的惊天危机!揭秘如何守护你的数据宝藏免受黑客魔爪侵袭!
【10月更文挑战第12天】在数字化时代,AI产品已深入生活的方方面面,但数据安全问题日益凸显。本文探讨了如何妥善处理AI产品的数据安全,包括建立数据保护机制、加强监管与审计、提升公众意识及关注新技术发展,确保数据的完整性、机密性和可用性。
42 1

热门文章

最新文章