Dataverse Community Meeting 2018 总结

本次Dataverse Community Meeting的主题是:Better、Bigger、Faster。会议时间共3天:第一天主要是一些有关GDCC、Dataverse UX & UI、Dataverse使用、外部工具等方面的讨论和培训,第二天和第三天主要是一些关于Dataverse本身、各社区成员Dataverse应用、以及大数据基础设施和敏感数据等相关主题的报告,下面将对一些重要的内容进行总结。

  • 一、GDCC成立及进展

最近,“全球Dataverse社区联盟”(Global Dataverse Community Consortium, GDCC)成立了,该组织处于初步探索之中。现正在吸纳会员,并期望以此为基础形成一个轻量级的管理结构。目前,GDCC的管理结构还未形成,由哈佛大学定量社会科学研究所Mercè Crosas、荷兰数据存档和网络化服务(Data Archiving and Networked Services)Peter Doorn、北卡罗纳大学奥德姆研究所(Odum Institute)Jonathan Crabtree三人组成了监督委员会,进行GDCC相关的管理活动,该监督委员会将存续至GDCC管理结构的形成。

GDCC首年目标是:(1)塑造可持续的管理模式和未来几年的工作计划,(2)研究调研GDDCC可能的管理结构,(3)成为DataCite会员,DOI的注册将从EZID转换为DataCite。

GDCC会员的年费为500美元,本次会议对这些潜在可能服务也进行了大量的讨论,其可能的服务如下:①全球共享的咨询服务;②全球性的安装支持团队;③全球性的数据管理支持团队;④Dataverse联盟顾问委员会(可以是一个包含Dataverse社区之外人员的技术顾问委员会,也可以同时包括一个一般顾问委员会和一个技术顾问委员会);⑤除了在哈佛大学举办的Dataverse社区年会,还可在世界各地组织Dataverse社区会议;⑥利用Dataverse强大功能和实施数据共享政策的最佳实践;⑦核心信赖的封闭小组(CoreTrust Seal Team)对受信任的仓储状态进行调查;⑧隐私和敏感数据问题;⑨Dataverse使用机构的元数据共享和收割策略;⑩合作开发外部工具以及与Dataverse互操作。

GDCC还提供DOI注册服务,如果未来我们使用的DOI数量更多,例如也给文件分配标识符,则比我之前直接使用DataCite DOI更加便宜。GDCC DataCite Client年费为900美元,可分配10000个DOI,多于10000的需要缴纳额外300美元/年。成为GDCC DataCite Client后,可分配的DOI前缀数量不受限,可以将平台现有的DOI转移至GDCC管理,同时提供基于API和Web表单的DOI管理方式。

  • 二、Dataverse进展及未来规划

本次大会,哈佛Dataverse团队对Dataverse的应用情况和未来计划也进行了介绍。

根据Mercè Crosas的介绍,目前,Dataverse在全球至少有33个机构在使用,Google讨论组中的成员达到471人,涉及786个讨论主题,在Github上有65个贡献者,632个Pull Request,Dataverse官方Twitter有4114个关注者。未来,Dataverse将关注数据管理的如下几个变化趋势:①研究数据变得更加复杂,如何应对大规模数据、流式数据、敏感数据的管理;②本地、国家、国际的数据平台正在越来越多的构建在云平台上;③数据引用、重用以及拷贝(Replication)也正在缓慢的增加。

Danny Brooke介绍了未来1年里Dataverse的工作计划,包括:①增加新的数据传输方式;②本地访问和多个数据存储位置;③兼容欧盟GDPR;④代码的存储;⑤数据集的关联;⑥基于DataTags对敏感数据进行支持;⑦禁锢期支持;⑧保留文件层次组织结构;⑨重新设计数据集和文件页面。此外,Sonia M. Barbosa和Danny Brooke也对最新加入的10个Dataverse应用进行了介绍,包括之前到北大图书馆进行交流访问的新加坡南洋理工大学,Sonia使用了南洋理工馆员专门做的视频进行了介绍。

  • 三、Dataverse社区成员应用进展

  • Portage Dataverse North

加拿大Portage组织是一个基于图书馆建立起来的国家级研究数据管理网络,由加拿大研究图书馆协会建立,其目标是发展加拿大的研究数据文化、形成研究数据实践社区、构建国家级的研究数据管理服务和基础设施。Portage目前有40多个机构参与,专家人数达110。Portage下有4个工作组,Dataverse North工作组便是其中之一。

Dataverse North工作组的目标是:发展一个实践性社区,使得Dataverse提供商和图书馆一起来针对地方和国家培训、支持服务、推广策略、促销活动以及基础设施开发和需求进行协调和讨论。Dataverse North现有三个子工作组:商业模型、元数据、培训组。在2017年,加拿大曼尼托巴大学和和达尔豪斯大学发布了基于Dataverse的数据平台,蒙特利尔大学、魁北克图书馆联盟正在与Scholar Portal一起发起Dataverse国际化项目。

  • DataverseNO

DataverseNO由挪威北极大学(The Arctic University of Norway)运营,于2017年正式发布。DataverseNO的历史可追溯到2014年,起初是一个学科性的仓储,然后于2016年变成挪威北极大学的机构仓储,最终于2017年成为了挪威国家级的数据仓储平台,挪威阿格德尔大学成为继挪威北极大学之后第一家加入的机构。此外,主讲人还介绍了DataverseNO相关的政策、组织管理、角色和责任、培训等相关内容。

  • Texas Data Repository

德州数据仓储(Texas Data Repository, TDR)也是基于Dataverse构建的数据服务平台,由德州数字图书馆运营。目前有11个机构参与,发布了数百个数据空间和数据集。TDR指导委员会包括:每个机构有一个联络人、主席和副主席按年度轮换、2个工作组。主讲人介绍了TDR第一年的工作亮点,包括:各成员机构支持数据管理的能力增强、跨机构协作的提高、积极参与Dataverse社区并贡献力量、共享资料、参加多个会议等。2个工作组分别是:评价工作组、培训和拓展(outreach)工作组。此外还介绍了未来的工作计划。

  • DataverseEU

DataverseEU项目由欧洲社会科学数据档案馆联盟自资助,于今年年初启动,旨在为欧洲社会科学建立一个支持多语言的数据基础设施平台。目前,DataverseEU的成员有来自英国、意大利、德国、法国、荷兰等11个国家的机构。所有的技术开发由荷兰的数据存档和网络化服务(Data Archiving and Networked Services)和德国的莱布尼茨社会科学研究所(Leibniz Institute for the Social Sciences)负责。DataverseEU的相关代码将直接贡献到哈佛Dataverse,通过Docker镜像在Google云中部署。CESSDA成员的仓储元数据将由DataverseEU中心仓储收割。DataverseEU支持CESSDA成员的多语言界面,支持本地化的元数据模型,开发da|ra组件允许标识符服务的自由切换,开发Docker模块以便Dataverse可以在亚马逊AWS、Google云、OpenShift上运行。

  • DataverseEL

DataverseEL是有荷兰的数据存档和网络化服务(Data Archiving and Networked Services, DANS)和相关参与机构共同提供的数据存储、共享和注册服务。相关参与机构包括荷兰荷兰爱因霍芬科技大学、代尔夫特理工大学等12个机构。目前DataverseEL基于Dataverse4.8.6,使用Handle持久标识符、Shibboleth机构登录。

  • 其他

复旦大学在Dataverse上增加对大数据的支持,数据可以上传存储在本地文件中,也可以选择存储在大数据平台上。未来,哈佛Dataverse也计划支持多个数据存储位置。

德国哥廷根大学医学院介绍了Harald Kusch他们使用的实验室电子笔记系统RSpace与Dataverse进行集成的初步尝试。

哈佛大学Philip Durbin介绍了Dataverse与外部系统的集成,包括从Dropbox、Open Science Framework、RSpace、Open Jouranl System中导入数据,未来可能支持SWORDv3数据存放协议。支持Data Explorer、Two Ravens和Zelig、WorldMap、计算按钮等分析计算功能。支持OAI-PMH、SHARE,以便被用户更好的发现。

澳大利亚数据档案馆对Dataverse受限文件请求工作流进行了改造,以便为澳大利亚政府社会服务国家纵向数据中心管理用户、请求、许可和报表等。

哈佛大学James Honaker和Salil Vadhan介绍了他们做的“The Privacy Tools Project”,对隐私敏感数据共享方法的研究,同时他们还是实现了一个原型系统用于展示其效果。

定性数据仓储(Qualitative Data Repository)介绍了他们在应用Dataverse和数据保存方面的进展。哈佛大学Raman Prasad介绍了他们在Dataverse上元数据生成服务,预计8月份上线。

  • 四、总结

通过本次参加Dataverse会议,感觉到哈佛方面确实在投入较多精力进行数据管理的研究、开发。积极组织社区活动,搜集用户反馈,并完善软件本身,例如“兼容欧盟GDPR”、“基于DataTags对敏感数据进行支持”等特性具有较好的前瞻性,“保留文件层次组织结构”则是社区用户呼声最高的需求。此外,还组织成立了GDCC,将有助于扩大Dataverse影响力,未来也将会使得Dataverse得到更好的发展。

除了哈佛方面积极投入完善Dataverse,越来越多的机构也在选择使用Dataverse,并且一些机构也做了很多定制化的开发。社区强大了,用户群体变多,未来Dataverse才有可能得到更好的、持续的发展。

通过与Dataverse开发人员Philip交流,感觉他们也希望社区成员能够积极参与到Dataverse的开发和完善之中,愿意将社区成员做的一些定制化特性融入到Dataverse主分支中。Philip维护了一个较长的各个机构不同人员对Dataverse做的一些定制化特性,例如多语言特性、数据申请使用工作流等,希望未来大家能够合作。

Leave a comment

电子邮件地址不会被公开。 必填项已用*标注

299 views