国外数据服务建设情况

1. 国际和国家级数据服务

1.1. 澳大利亚国家数据服务(Australian National Data Service)

澳大利亚国家数据服务始建于2009年,其目标在于:通过管理、连接、发现、复用数据,将澳大利亚的研究数据环境转变为一种国家的战略资源。于是,在澳大利亚政府的支持下,由莫纳什大学领导建设了相关的系统和服务。资助来源:
  • 澳大利亚国家合作研究基础设施项目(National Collaborative Research Infrastructure Strategy program)资助了2450万美元
  • 超级科学计划(Super Science Initiative)资助了4800万美元
  • 合作研究基础设施计划(Collaborative Research Infrastructure Scheme)资助了300万
  • 2013年澳大利亚国家合作研究基础设施项目(National Collaborative Research Infrastructure Strategy program)又资助了2450万美元
澳大利亚国家数据服务的成员包括了澳大利亚40所高校和研究机构、相关政府机构、公共事业机构以及高性能计算机构等。相关的服务包括:
  • 澳大利亚研究数据(Research Data Australia),用于查找、获取、使用研究数据
  • 澳大利亚研究术语(Research Vocabularies Australia),用于查找、访问和重用词汇研究
  • 引用我的数据(Cite My Data),用于分配DOI标识符
  • 识别我的数据(Identify My Data),用于分配Handle标识符
  • RIF-CS Schema,数据交换格式
  • ……
澳大利亚研究数据(Research Data Australia)收集了澳大利亚100多个研究机构、政府机构、公共文化机构提供的数据集的元数据,提供统一发现功能,数据本身仍存放在各个机构,Research Data Australia通过链接将用户引导到数据下载位置。
当前,ANDS, Nectar和RDS正计划集成现有服务,面向未来构建“Australian Research Data Cloud”:一个集成化数据密集型的基础设施系统,包括物理基础设施、政策、数据、软件、工具和对研究者的支持服务。

1.2. 欧盟开放科学云(European Open Science Cloud, EOSC)

2016 年 4 月,欧盟委员会公布了促进云服务和建设世界一流数据基础设施的蓝图,提出了”欧洲云倡议(European Cloud Initiative )“,以确保欧洲的科学、商业和公共服务能够受益于大数据革命。欧盟委员会计划,通过增强现有的科研基础设施、促进互联互通,建立新的欧洲开放科学云,为欧洲 170 万研究人员和 7000 万科技从业人员提供一个方便数据存储、共享和再利用的虚拟科研环境。
欧盟委员会将通过一系列行动积极落实欧洲云计划:(1)2016 年,整合现有的数字化基础设施平台,联合现有的科学云和科研基础设施,支持开发云服务,从而为欧洲研究人员及其全球的科研
合作者建立欧洲开放科学云。(2)2017 年,对于总投资 770 亿欧元的“地平线 2020”科研创新计划
中的所有未来科研项目,默认开放所有科研数据,确保科学界能够对海量科研数据进行再利用。(3)2018 年,针对方兴未艾的量子技术启动量子技术旗舰计划,加速量子技术发展,为下一代超级计算机奠定基础。至 2020 年,通过建立欧洲大数据中心,对科研创新骨干网 The GéANT 进行升级
并购入两台计算能力位列世界前三的下一代超级计算机样机,开发并部署数据存储设施和网络基础设施。
当前,EOSC-Hub包括如下服务:
参考资料:
欧盟出台云计划发展数据驱动型经济 光明日报/2016 年/12 月/4 日/第 008 版

2. 资助机构支持建设的数据服务

2.1. 英国数据服务(UK Data Service)

英国数据服务(UK Data Service)(https://www.ukdataservice.ac.uk/about-us)由英国经济与社会研究理事会(Economic and Social Research Council, ESRC)资助建设,数据主要包括:英国政府资助的调查、跨国调查、纵向研究、英国人口普查数据、国际聚合数据(international aggregate)、商业数据、定性数据。可用于数据的存储、管理和检索。现有数据集7000余个。英国经济与社会研究理事会的数据管理政策要求:由ESRC资助的项目必须在项目结束后三个月内在英国数据服务中提交数据。
参考资料:

2.2. 美国国家卫生研究院(National Institutes of Health)

NIH采用“要求数据公开共享”的方式,详细界定了数据共享的范围,并提出了关于数据共享可选方式、数据共享及时性、数据共享时长等方面的具体要求。项目组申请NIH项目时,必须按要求提交《数据共享计。NIH要求大额资助项目开展“数据公开共享”,其原因在于NIH认为“年度预算(直接成本)超过50万美元”的资助强度已经可以吸引项目组在要求“数据共享”的前提下申请此类项目。
NIH有一个支持的数据共享仓储列表,共有73个仓储,受NIH资助的项目大多数都能在其中提交数据,某些仓储只能由特定的研究网络可提交。例如,著名的Genbank数据仓储,由美国国家卫生研究院下的国家医学图书馆的国家生物技术信息中心研制,可供研究者提交基因序列数据。
参考资料:
NIH(National Institutes of Health) Data Sharing Repositories
汪俊. 美国科学数据共享的经验借鉴及其对我国科学基金启示:以NSF和NIH为例[J]. 中国科学基金, 2016(1):69-75.

2.3. 美国自然科学基金(National Institutes of Health)

NSF采用“鼓励数据公开共享”的数据政策,但是NSF也支持了大量数据仓储的建设。
2007年,美国国家自然科学基金信息技术基础设施办公室发布了”DataNet“研究计划(或者“Sustainable Digital Data Preservation and Access Network Partner”),预计在5年内投入1亿美元支持研究数据管理工作。该研究计划指出:
科学和工程研究与教育日益数字化,数据密集度日益增加。数字数据不仅是研究的成果,而且为新的假设提供输入,从而启发新的科学见解并推动创新。这就是这一代科学家面临的主要挑战之一:如何开发新方法,管理结构和技术来管理当前和未来数据集和数据流的多样性,规模和复杂性。本次征集通过创建一组示范性的国家和全球数据研究基础设施组织(称为DataNet Partners)来解决这一挑战,为研究人员社区提供独特的机会来促进科学和/或工程研究与学习。
首批获资助的项目为:新墨西哥大学William Michener领导的DataONE、约翰霍普金斯大学Sayeed Choudhury领导Data Conservancy。Data Conservancy项目涉及多个科学领域,包括天文、地球、生物和人文社会科学等学科数据, 并针对这些科学数据进行一系列的数据监管活动,进而提升数据的价值,保证数据的可用性和可共享性,满足跨学科和跨机构科学研究的数据监管需求。DataONE项目针对地球科学领域,旨在构建能提供准确清晰的地球观测数据的分布式数据监护网络体系和可持续性的信息基础架构,以满足整个社会和科学界对开放、持续、稳定和安全的地球观测数据的需求。
第二期获资助的项目有:北卡罗来纳大学教堂山分校的”数据网络联邦联盟“项目(DataNet Federation Consortium, DFC ) ,密歇根大学的”可持续环境–可操作数据”项目(Sustainable Environment – Actionable Data, SEAD ),明尼苏达大学的”全球人口/环境数据网络“ (Terra Populus:A global population/environment data network)。

3. 影响较大的一些通用数据管理平台

3.1. Dryad

Dryad是专门存储支撑科学文献研究数据的仓储平台(即在期刊发表论文时,编辑部要求作者将支持论文结论的科学数据存放在Dryad仓储平台中),它由非营利性Dryad组织维护,平台基于DSpace,在其基础上二次开发而成,源代码在Github中开放。目前,与Dryad合作的期刊有119个,存放的数据包有18000多个,其中仅2016年便增加了4307个。

3.2. Figshare

figshare是一个商业性的数据仓储平台,由Digital Science公司出品,于2012年正式发布,面向学术机构、出版社、研究者提供强大的数据管理服务。目前,figshare中包含约5000个项目、50万合集、2百万文章,用户上传数据80万个、7.5百万下载量、2.6千万页面浏览量。目前一些高校和出版社通过购买figshare服务建立起了自己的数据管理系统,例如澳大利亚莫纳什大学(Monash University)、英国谢菲尔德大学(The University of Sheffield)、威利出版集团(Wiley)、斯普林格自然集团(Springer Nature)等。

3.3. Open Science Framework

Center for Open Science是一家非营利性的科技公司,受劳拉和约翰阿诺德基金会(2013~2017年,共资助约1900多美元)、美国国防部高级研究计划局、美国国家自然科学基金、 美国国家卫生研究院等机构的资助。其产品”Open Science Framework”提供研究数据的管理服务,具有很大影响力。Open Science Framework(简称OSF)期望通过整合其他相关服务,实现在OSF一个平台中管理科学研究的整个生命周期。目前,OSF已经集成服务平台包括:文献管理软件Mendeley和Zotero,云存储平台Amazon S3、Box、Dropbox、Google Drive、ownCloud,数据仓储平台Dataverse和figshare,软件代码管理平台GitHub和Bitbucket。OSF与其他平台的集成都通过系统间互操作实现。

3.3. Dataverse

Dataverse 是哈佛大学定量社会科学研究所( Harvard Institute for Quantitative Social Science,IQSS) 数据科学团队研发的研究数据管理系统。该系统的开发始于 2006 年,最初主要聚焦于社会科学数据管理,后引入了天文学、天体物理、生物医学等学科数据,目前已经支持人文与社会科学、地理空间、天文与天体物理、生命科学、政治学等多种元数据方案。2012 年,IQSS将 Dataverse 开源,随后被许多机构采用,如北京大学、复旦大学、约翰·霍普金斯大学、挪威大学、海德堡大学等[38]。目前全球至少有25所机构使用Dataverse。其中仅哈佛大学存储的数据集便有7万多个、下载次数260多万;北京大学开放研究数据平台也使用了Dataverse,现存放有数据集130多个、下载次数2万多。在哈佛大学Dataverse平台中,用户可以免费存放自己的研究数据,数据集的大小没有限制,但是单个数据文件的大小有限制(最大2GB)。目前,哈佛Dataverse迁移到亚马逊云上,能更好管理大量的数据。
在哈佛大学Dataverse中,已有77000多个数据集,下载量超过了340多万。目前,该平台被全球很多机构采用,如果国外的约翰霍普金斯大学、南洋理工大学,国内的北京大学、复旦大学。在Re3data.org中,使用Dataverse作为研究数据管理软件的机构有48个,排名第2位。

Leave a comment

电子邮件地址不会被公开。 必填项已用*标注

489 views