CRA简报：计算研究与数据科学的新兴领域-阿里云开发者社区

CRA简报：计算研究与数据科学的新兴领域

2017-05-25 1518

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

我们收集、处理、分析和使用大量数据的能力对社会的各个方面都产生了深远的影响。这种转变导致了新兴学科数据科学的出现。诸多领域对数据科学的兴趣呈现爆炸式的增长，包括社会科学、自然科学和物理学等领域，涉及空前的规模和多样性的数据，通过集聚大量的操作和行为的信息来产生新的服务或收入来源的产业以及需要利用数据更好地造福社会的政府、社会服务和非营利机构。

这一新兴学科依赖于数学和统计建模，计算思维和方法，数据表示和管理和被研究领域专业知识的新的融合。虽然计算领域已经提供了许多支持数据科学的应用原则、工具和技术和诸多案例，计算机科学界也有机会作出新的研究进一步推动该领域的发展。此外，学界也有义务制定数据科学应用的发展指导方针。

包括统计，数学，社会科学，自然科学和计算机科学等在内的多个领域为数据科学的诞生奠定了一套强大的基础。事实上，传统的计算机科学研究的各个方面都在数据科学的发展中起到了作用。放眼未来，数据科学也将引领全新的计算研究。

从数据管理的角度来看，数据科学需要在如何获取，存储和访问数据方面有更深的理解和表现，对数据世系、数据质量、质量保证、数据集成、存储、隐私和安全都需要有更深入的思考。传统获取和存储数据的方式在处理告诉或敏感的数据时可能不能奏效。

从计算的角度来看，非常大的数据量，非常高的数据速率，和非常大的用户数都需要的新的系统和新的算法。新的系统架构可以适应数据异质性和不规则的结构，这些在数据访问和通信中也必要的。从算法的角度，我们需要有线性算法，在线算法，支持实时数据流，和概率和随机的方法来应对数据的规模和数据中的噪声。

此外，许多经典的统计假设和机器学习技术不适合目前的数据科学的需求。数据越是自然来源的越有可能是有偏见的、不完整和高度异质性。时间跨度长且来源广泛的数据的拼接会导致自动采集的数据和不一致从而带来系统错误给建模方面带来了深远的挑战，也给新的统计方法和机器学习算法带来机遇。即使对于“小数据”，新的应对数据异质性和数据采集偏倚的方法也是需要的。虽然预测建模至关重要，但是许多数据科学也涉及决策以及根据行动的变化做出推理的能力。此外，理解维度灾难，过拟合和复杂设置下的因果关系也是关键的。

数据规模和异质性的挑战也从根本上改变用户如何与数据和模型相互作用：如何将数据可视化，支持数据科学模型结果的理解和解释需要什么算法，如何做出决策，以及如何获得和整合用户反馈。人机交互和可视化分析将需要更紧密的整合数据科学模型和算法。自然语言处理，语音，计算机视觉和其他人机通信模式的新案例也将随之出现。

由于数据科学系统往往被嵌入在需求和分布不断变化的操作系统中，支持整个数据科学的生命周期是很重要的。确保管道的各个方面的鲁棒性是重要的。我们需要开发新的软件工程和计算机编程的最优化方法。此外，古董数据储存的时间往往比最初计划使用更长，所以数据长期的维护和管理也必须得到解决。

以上的研究课题，以及许多其他的研究课题，都需要对系统、计算和机器智能方面的基础研究。

此外，像在许多其他领域的同行那样，计算研究人员日益成为科学数据的用户，正如许多计算机科学的分支那样（包括计算机体系结构、网络、软件工程、视觉、机器人、教育和用户建模），日益数据驱动化。保障价值和重复性方面我们需要借鉴之前的经验方法，包括适当的数据管理、严格的系统建模、测量和分析，以及对结果的呈现和解读的完整方法。训练所有的计算研究人员掌握基本数据科学技能已经正变得越来越重要。

让我们把眼光放得更远，数据科学为工业界、学术界和政府之间的理论和应用研究的创造性合作提供了新的机会。除了赞助研究，行业合作伙伴还可以提供有价值的见解，诸如在实际问题、数据获取，验证理论在规模数据或自然数据应用的能力以及以互补的方式寻求解决方案方面。学术界，反过来，可以提供创新的解决方案和软件，新的算法和替代方法的原则性分析。学术界也可以培养训练有素的数据科学骨干，满足行业的需求，并帮助合作伙伴探索尖端研究。这些合作伙伴关系也将有助于揭示数据科学的政策问题，相关的偏见，数据隐私，知识产权，使用适当性和监管问题。开放数据的提议和开源软件运动特别适合于数据科学，并将帮助使得其实现商业化和发挥影响。总之，工业，学术和政府数据科学的合作将有助于推动相互协作的新的模型。

最后，虽然数据科学提供了通过提高数据利用率以提高科学研究和决策许多新的机会，这些使用也带来了新的挑战。产生的数据语境及其使用的应用程序对数据科学的准确、公平和伦理要求也十分重要。这些数据科学的相关工作需要在计算机科学的亚领域间以及和计算机科学的多学科之间的合作。无论是学科内的和跨学科的技能都需要互相学习和支持。数据的产生和收集变得无处不在，数据所有权的概念也在发展，许多法律和政策问题将需要在此境况下被重新的考量。

为了了解如何符合伦理和负责任的使用和共享数据，计算机科学家需要协同领域的科学家、政策制定者和伦理学家以理解相关的风险和假设。例如，当回答有关个人和社会的问题（例如，在教育，经济政策和治安）时了解数据科学背后的社会科学是很重要的。这些重要的问题包括隐私，公平和透明度。为了更好地参与和服务于数据科学相关的新兴政策的探讨，数据科学计算研究人员需要开发能够兼顾道德、公平和责任的新的方法。

总之，计算研究界迎来了一个在定义和塑造新兴的数据科学领域的独特机遇。与统计人员，数学家，社会科学家，数据分析师和结构科学家和学科专家一道，计算机科学家可以发展新的基础理论，算法原则以及建立数据科学基石的系统。计算研究协也将致力于支持计算专业人员和其他人员为数据科学研究道德和责任的发展作出贡献。

原文发布时间为：2017-01-23

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

文章标签：

算法

存储

CRA简报：计算研究与数据科学的新兴领域

大数据文摘

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

CRA简报：计算研究与数据科学的新兴领域

大数据文摘

热门文章

最新文章

相关电子书