CRA简报:计算研究与数据科学的新兴领域

简介:



我们收集、处理、分析和使用大量数据的能力对社会的各个方面都产生了深远的影响。这种转变导致了新兴学科数据科学的出现。诸多领域对数据科学的兴趣呈现爆炸式的增长,包括社会科学、自然科学和物理学等领域,涉及空前的规模和多样性的数据,通过集聚大量的操作和行为的信息来产生新的服务或收入来源的产业以及需要利用数据更好地造福社会的政府、社会服务和非营利机构。


这一新兴学科依赖于数学和统计建模,计算思维和方法,数据表示和管理和被研究领域专业知识的新的融合。虽然计算领域已经提供了许多支持数据科学的应用原则、工具和技术和诸多案例,计算机科学界也有机会作出新的研究进一步推动该领域的发展。此外,学界也有义务制定数据科学应用的发展指导方针。 

包括统计,数学,社会科学,自然科学和计算机科学等在内的多个领域为数据科学的诞生奠定了一套强大的基础。事实上,传统的计算机科学研究的各个方面都在数据科学的发展中起到了作用。放眼未来,数据科学也将引领全新的计算研究。


  • 从数据管理的角度来看,数据科学需要在如何获取,存储和访问数据方面有更深的理解和表现,对数据世系、数据质量、质量保证、数据集成、存储、隐私和安全都需要有更深入的思考。传统获取和存储数据的方式在处理告诉或敏感的数据时可能不能奏效。


  • 从计算的角度来看,非常大的数据量,非常高的数据速率,和非常大的用户数都需要的新的系统和新的算法。新的系统架构可以适应数据异质性和不规则的结构,这些在数据访问和通信中也必要的。从算法的角度,我们需要有线性算法,在线算法,支持实时数据流,和概率和随机的方法来应对数据的规模和数据中的噪声。


  • 此外,许多经典的统计假设和机器学习技术不适合目前的数据科学的需求。数据越是自然来源的越有可能是有偏见的、不完整和高度异质性。时间跨度长且来源广泛的数据的拼接会导致自动采集的数据和不一致从而带来系统错误给建模方面带来了深远的挑战,也给新的统计方法和机器学习算法带来机遇。即使对于“小数据”,新的应对数据异质性和数据采集偏倚的方法也是需要的。虽然预测建模至关重要,但是许多数据科学也涉及决策以及根据行动的变化做出推理的能力。此外,理解维度灾难,过拟合和复杂设置下的因果关系也是关键的。


  • 数据规模和异质性的挑战也从根本上改变用户如何与数据和模型相互作用:如何将数据可视化,支持数据科学模型结果的理解和解释需要什么算法,如何做出决策,以及如何获得和整合用户反馈。人机交互和可视化分析将需要更紧密的整合数据科学模型和算法。自然语言处理,语音,计算机视觉和其他人机通信模式的新案例也将随之出现。


  • 由于数据科学系统往往被嵌入在需求和分布不断变化的操作系统中,支持整个数据科学的生命周期是很重要的。确保管道的各个方面的鲁棒性是重要的。我们需要开发新的软件工程和计算机编程的最优化方法。此外,古董数据储存的时间往往比最初计划使用更长,所以数据长期的维护和管理也必须得到解决。


以上的研究课题,以及许多其他的研究课题,都需要对系统、计算和机器智能方面的基础研究。


此外,像在许多其他领域的同行那样,计算研究人员日益成为科学数据的用户,正如许多计算机科学的分支那样(包括计算机体系结构、网络、软件工程、视觉、机器人、教育和用户建模),日益数据驱动化。保障价值和重复性方面我们需要借鉴之前的经验方法,包括适当的数据管理、严格的系统建模、测量和分析,以及对结果的呈现和解读的完整方法。训练所有的计算研究人员掌握基本数据科学技能已经正变得越来越重要。


让我们把眼光放得更远,数据科学为工业界、学术界和政府之间的理论和应用研究的创造性合作提供了新的机会。除了赞助研究,行业合作伙伴还可以提供有价值的见解,诸如在实际问题、数据获取,验证理论在规模数据或自然数据应用的能力以及以互补的方式寻求解决方案方面。学术界,反过来,可以提供创新的解决方案和软件,新的算法和替代方法的原则性分析。学术界也可以培养训练有素的数据科学骨干,满足行业的需求,并帮助合作伙伴探索尖端研究。这些合作伙伴关系也将有助于揭示数据科学的政策问题,相关的偏见,数据隐私,知识产权,使用适当性和监管问题。开放数据的提议和开源软件运动特别适合于数据科学,并将帮助使得其实现商业化和发挥影响。总之,工业,学术和政府数据科学的合作将有助于推动相互协作的新的模型。


最后,虽然数据科学提供了通过提高数据利用率以提高科学研究和决策许多新的机会,这些使用也带来了新的挑战。产生的数据语境及其使用的应用程序对数据科学的准确、公平和伦理要求也十分重要。这些数据科学的相关工作需要在计算机科学的亚领域间以及和计算机科学的多学科之间的合作。无论是学科内的和跨学科的技能都需要互相学习和支持。数据的产生和收集变得无处不在,数据所有权的概念也在发展,许多法律和政策问题将需要在此境况下被重新的考量。


为了了解如何符合伦理和负责任的使用和共享数据,计算机科学家需要协同领域的科学家、政策制定者和伦理学家以理解相关的风险和假设。例如,当回答有关个人和社会的问题(例如,在教育,经济政策和治安)时了解数据科学背后的社会科学是很重要的。这些重要的问题包括隐私,公平和透明度。为了更好地参与和服务于数据科学相关的新兴政策的探讨,数据科学计算研究人员需要开发能够兼顾道德、公平和责任的新的方法。


总之,计算研究界迎来了一个在定义和塑造新兴的数据科学领域的独特机遇。与统计人员,数学家,社会科学家,数据分析师和结构科学家和学科专家一道,计算机科学家可以发展新的基础理论,算法原则以及建立数据科学基石的系统。计算研究协也将致力于支持计算专业人员和其他人员为数据科学研究道德和责任的发展作出贡献。

原文发布时间为:2017-01-23


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
关系型数据库 MySQL Unix
CentOS安装MySQL5.5
CentOS安装MySQL5.5
536 1
|
9月前
|
人工智能 自然语言处理 物联网
豆蔻妇科大模型宣布在妇产科正高考试中成绩超越GPT-5,同时正式开放试用
在钉钉10周年发布会上,壹生检康CEO王强宇宣布其自主研发的豆蔻妇科大模型(doukou.ai)在国家妇产科卫生高级职称笔试考试中以64.94分超越GPT-5的52.59分,并开放网页版试用。这一成绩展现了国产医疗AI在专业化赛道的快速进步和垂直行业大模型的高应用价值,为AI赋能医疗临床提供了新样本。
436 155
|
6月前
|
存储 人工智能 自然语言处理
构建AI智能体:十八、解密LangChain中的RAG架构:让AI模型突破局限学会“翻书”答题
本文深入探讨了如何利用LangChain框架实现RAG(检索增强生成)架构,构建智能问答系统。文章首先介绍了RAG技术解决大模型知识更新和准确性问题的原理,以及LangChain作为开发框架提供的模块化组件。详细解析了LangChain的核心模块(模型、提示、索引、链等)和四种ChainType(stuff、map_reduce、refine、map_rerank)的特点与适用场景。通过一个完整的代码示例,展示了如何结合DeepSeek模型和FAISS向量数据库处理PDF文档,实现本地知识库问答功能
1112 9
|
11月前
|
atlas AI芯片 Python
昇腾NPU上基于MindIE服务的AIME和MATH500测评方案
本文介绍了基于MindIE服务和lighteval工具对DeepSeek-R1类模型进行能力测评的方法。针对AIME 2024、AIME 2025、MATH-500和GPQA等数据集,通过在Atlas 800I A2硬件上部署MindIE服务,结合开源项目Open R1的评测方法完成测评。主要内容包括模型权重下载、MindIE服务化部署、lighteval安装与配置,以及使用openai模式进行测评的具体步骤。最终展示了AIME 2024和MATH-500的测评结果,并对比了DeepSeek官方数据。该方案适合需要准确评估带推理思维链模型性能的场景。
978 0
|
算法 计算机视觉
YOLOv11改进策略【卷积层】| AKConv: 具有任意采样形状和任意参数数量的卷积核
YOLOv11改进策略【卷积层】| AKConv: 具有任意采样形状和任意参数数量的卷积核
781 0
YOLOv11改进策略【卷积层】| AKConv: 具有任意采样形状和任意参数数量的卷积核
|
Cloud Native Java Nacos
Consul 留给你的时间不多了
Consul 留给你的时间不多了
726 95
|
数据采集 JSON 数据格式
深入解析:使用Python爬取Bilibili视频
本文介绍了如何使用Python编写脚本自动化下载Bilibili视频。通过requests等库获取视频和音频URL,使用ffmpeg合并音视频文件,最终实现高效下载。注意遵守网站爬虫政策和法律法规。
2263 4
|
Java Maven 开发者
入职必会-开发环境搭建14-IDEA配置Maven
在 IDEA 中配置 Maven 可以帮助开发者更方便地管理项目依赖、构建项目和部署应用程序。要在 IDEA 中配置 Maven,可以按照以下步骤进行。
635 1
入职必会-开发环境搭建14-IDEA配置Maven
|
机器学习/深度学习 数据可视化 算法框架/工具
使用Python实现深度学习模型:视频处理与动作识别
【7月更文挑战第16天】 使用Python实现深度学习模型:视频处理与动作识别
983 17

热门文章

最新文章