Nature:中国的科学进步仰赖于数据公开

简介:

大数据时代,生物信息学数据库的发展、数据共享,以及技术资源的易于访问等特点已经显现。直至最近,这股开放性科学研究的趋势正在帮助中国的科学家们走上国际竞争舞台。然而在整个中国社会,对于公共数据获取和分享的限制正愈演愈烈。如果这个问题不被解决,将会拖慢科学研究与创新。


中国科学家要想获取高质量国内数据正变得越来越困难。大部分的公共数据由政府部门掌握,增强了其垄断地位,使得研究者们获取信息变得更为困难。这对人文社科领域的研究者影响尤甚,同时由于一些数据涉及政治敏感性,也对环境科学、公共健康等领域的研究造成了影响。在会议上,我听到许多同事的抱怨,例如从权威部门获取空气污染数据是如何如何的困难。


即使数据被发布出来,一些数据也很可能因为采集方式上的问题而质量底下。最显著的例子莫过于在国内生产总值(GDP)上的争议。官方的全国性的GDP估值,与将31个省级区域的地方值相加的总和相比,存在极大的差异。北京的国家统计局承认,不同省采用不同的数据采集方式导致了这一结果,而他们正在试图协调这个问题。但至今,进展不容乐观。


公共数据分享已经变成了一种盈利模式。例如,如果采集分析道路车辆对于污染的影响的数据,将会是非常有价值的。然而要完成这一工作,必须能够得到每种型号车辆的牌照数量、道路拥挤情况、发动机参数、燃油标准等详细的数据记录。对于研究机构来说,想要从官方获取最基本的车辆持有辆的信息都十分困难,所以只能退而求其次地使用来自汽车制造商的销售数据,而这样的数据经常是被夸大的、带有误导性的。讽刺的是,财大气粗的汽车制造商们却可以以一定的价格,通过政府相关渠道购买到他们竞争对手的客观可靠的销售数据,这对于科研机构和科学家们来说是负担不起的。


在这样的环境下,中国的一些研究团队不愿意公开他们自己的研究数据也就不奇怪了。掌握数据意味着在学术领域拥有了无形的资本和竞争优势。我自己的研究团队就收到过许多索取海事数据的请求,例如我们所编集的口岸统计数据和船队信息,但我们并不情愿分享这些信息。寻找并将信息分类整理成可用的数据是一个耗费巨大的过程。如果我们独享这些数据,就可以用它开发出自己的研究成果。但要是从其他渠道能获得高质量的数据,我们也会乐意分享我们自己的数据。


开放公共数据,提高数据质量可以促进政府透明。尽管进展缓慢,还是存在公开透明化裨益中国社会的正面例子的。其中最瞩目莫过于2014年环保局迫于公众压力而全面公开披露空气污染数据的例子。在此之前,这类数据只是粗略地每天公布一次。而现在,数据每小时都更新一次并且在国内政府机构之间广泛分享。这些数据使卫生局能够对公众发布警告信息;使教育局可以决定是否因雾霾天停课;使交通运输局能够调整汽车限行政策。或许,全面公开污染信息最大的影响是提高了公众对于日益恶化的污染的危机意识。不幸的是,对于其他科学家所渴求的数据,公众并不一定都能像对空气污染数据那样感兴趣。实现公共数据的全面透明公开还是有很长的路要走。


这样的限制不仅仅存在于中国国内的数据。国外学术资源有时也难以获取。一些信息管理部门为了过滤疑似有害信息,人为设置了数字屏障。


我作为一名中国科学家的生活已经受到了影响。可靠的学术文献搜索几乎不可能。没有了谷歌学术搜索引擎(相对于别的学术搜索引擎我更喜欢谷歌,因为可以同时搜索书籍、论文、专利和技术报告),我只好一个个地去搜索出版商运营的数据库,至少目前它们还是可以访问的。


网络安全对国家安全是很重要的,但好的数据是科学进步和经济发展的支柱。资源共享信息的开放可以巩固经济和社会幸福。在中国,解决这些矛盾需要全面性的研究,以便我们建立起一套能够利于多方的高效合理的数据管理机制。更迫切的是,研究者们应当被给予更大的权限,特别是对于公共数据和学术搜索引擎。



原文发布时间为:2015-05-01


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
10天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3251 9
|
3天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
13天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3300 23
|
7天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
2312 4
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
26天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23597 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
12天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2795 3
|
4天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全+三种模式+记忆体系+实战工作流完整手册
Claude Code 是当前最流行的终端级 AI 编程助手,能够直接在命令行中完成代码生成、项目理解、文件修改、命令执行、错误修复等全流程开发工作。它不依赖图形界面、不占用额外资源,却能深度理解项目结构,自动生成规范代码,大幅提升研发效率。
870 2
|
11天前
|
存储 Linux iOS开发
【2026最新】MarkText中文版Markdown编辑器使用图解(附安装包)
MarkText是一款免费开源、跨平台的Markdown编辑器,主打所见即所得实时预览,支持Windows/macOS/Linux。内置数学公式、流程图、代码高亮、多主题及PDF/HTML导出,是Typora的轻量免费替代首选。(239字)

热门文章

最新文章