北京大学开放研究数据平台

平台介绍

北京大学开放研究数据平台基于哈佛大学Dataverse软件进行二次定制开发,由北京大学图书馆、国家自然科学基金-北京大学管理科学数据中心、北京大学科研部、北京大学社科部联合主办和推出。目前,平台数据发布功能仅对校内用户开放,校外用户可以注册平台账号,申请下载数据。未来,平台可能会面向校外用户,提供数据发布功能。

平台特色如下:

  • 中英文双语界面:提供数据集的中英文描述,国外用户可以使用英文界面,而国内用户则可以使用更加友好的中文界面。
  • 统一认证集成:与北大统一认证集成,校内用户可以方便的通过学校统一认证进行平台,校外用户则可以通过邮箱注册下载数据。
  • DOI标识:平台为每个数据集生成DOI(数据集的身份证),可用于数据的持久标识及引用。
  • DCI收录:平台被Web of Science的Data Citation Index所收录。

平台收录数据

截至2018年4月,平台已收录数据集150多个,包括北京大学中国调查数据资料库(包括中国家庭追踪调查、中国健康与养老追踪调查、北京社会经济发展年度调查等)、北京大学健康老龄与发展研究中心、综合型语言知识库、中国历代人物传记资料库等多学科领域数据。如下为部分数据简介:

  • 中国家庭追踪调查(CFPS):该项目是由北京大学设计并实施的一项全国性家庭跟踪调查计划,希望通过对全国代表性样本村居、家庭、家庭成员的跟踪调查,历时性地反映中国社会的发展与变迁。CFPS基线调查样本覆盖全国25个省市161个区县的649个村居样本,其中抽取的1.5万个家户样本,及其样本家户中的全部家庭成员。自2010年基线调查后,CFPS计划每两年对调查对象进行一次追踪访问。
  • 中国健康与养老追踪调查(CHARLS):该项目旨在收集一套代表中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析我国人口老龄化问题,推动老龄化问题的跨学科研究。CHARLS全国基线调查于2011年开展,覆盖150个区县,450个村居,约1万户家庭中的1.7万人,以后每两年追踪访问一次。
  • 中国老年健康影响因素跟踪调查(CLHLS):该项目原名中国老人健康长寿影响因素跟踪调查,是由北京大学健康老龄与发展研究中心/国家发展研究院组织的老年人追踪调查,调查范围覆盖全国23个省区市,调查对象为65岁及以上老年人和35-64岁成年子女,调查问卷分为存活被访者问卷和死亡老人家属问卷两种。
  • 北京社会经济发展年度调查(BAS):该项目是由北京大学中国国情研究中心独立设计与进行的一项年度调查研究,力图跟踪考察改革开放过程中北京市居民的生活、观念、信心和承受能力等各方面的变化,积累起时间序列性的经验资料,以便对社会变革中的重要问题进行尽可能客观的描述与研究。BAS调查对象界定为18-65岁具有北京市正式的非农业户口、居住在北京市城区、有固定住所的市民。该调查从1995年开始,每年进行一次。
  • 综合型语言知识库(CLKB):综合型语言知识库(简称CLKB)属于文理结合的”中国语言文字信息处理”学科。语言信息处理旨在让机器理解和运用人类语言。我国语言信息处理的上规模研究始于20世纪80年代中期,当时国内外汉语语言基础资源几乎是空白。与英语、日语不同,汉语缺乏形式标记,汉语语言知识库的建设尤显迫切和艰巨。基于对母语知识与文化的认知优势,项目组从1986年开始研究汉语计算模型和语言知识形式化描述方法,并构建语言知识库。历时20余年,建成综合型语言知识库,有力地支持了中文信息处理的原创性科学研究和应用技术开发。
  • 中国历代人物传记资料库:“中国历代人物传记资料库”(简称 CBDB)能够根据不同检索条件反馈相应的传记资料。这些检索条件可以是简单的问题如“哪些人来自同一地方”,也可以是更为复杂的问题如“在某一时段来自同一地点通过科举入仕的人之间有著怎样的社会和亲属关系”。

发展历程

  • 2014年初开始,北京大学图书馆对“研究数据管理平台”进行前期调研和平台选型,并基于哈佛大学开源软件Dataverse搭建测试数据平台,会同国家自然科学基金-北京大学管理科学数据中心,一起对平台功能完整性、开放性和可扩展性进行了评估。
  • 2015年4月,北京大学图书馆、国家自然科学基金-北京大学管理科学数据中心连续召开“合作启动会议”、“数据平台专家指导委员会会议”,双方成立联合工作组,确定合作框架,标志着平台建设正式启动。其后,北京大学图书馆、国家自然科学基金-北京大学管理科学数据中心在数据平台建设上进行了紧密合作,相继完成了一系列工作,包括:元数据方案制定和改造,正式加入Datacite数据中心获取正式DOI,根据本地化需求进行系统功能设计和二次开发、制定平台章程和用户使用协议、研究数据的收集/整理/发布。
  • 2015年12月25日,平台Beta版开始上线运行。
  • 2016年11月~12月,在北大校内举办图书馆搜索达人大赛(开放数据篇),推广平台使用。
  • 2017年3月,平台数据被Web of Science的Data Citation Index收录。
  • 2017年11月~2018年4月,支持举办首届全国高校数据驱动创新研究大赛,通过大赛,收录国家信息中心、清博数据企事业单位提供的数据,以及参赛者自带的研究数据。

Leave a comment

电子邮件地址不会被公开。 必填项已用*标注

486 views