媒体扫描

【中国科学报】打造空间科学数据仓储的中国品牌

发布时间:2022-03-25

  中国科学院国家空间科学中心怀柔园区6号科研大楼,是国家空间科学数据中心总部的所在地。

  中心的专用机房大约400平方米左右,存储运行着我国不少空间科学“大国重器”的数据资源。“悟空”“墨子”“慧眼”“太极一号”等空间科学卫星,子午工程、海南空间天气国家野外科学观测研究站都是这里的“住户”。

  这是一个什么样的数据中心?为什么能赢得这么多大咖级“住户”的青睐?近日,《中国科学报》走进国家空间科学数据中心一探究竟。

   30余年坚守,把种子变成绿荫 

  从萌芽算起,国家空间科学数据中心已经34岁了。

  1988年,在国际地球物理年活动上,以中国科学院作为牵头机构,中国参与了名为“世界数据中心”(WDC)的国际科学数据合作计划,并成立“世界数据中心中国中心”。世界数据中心中国中心由9个学科中心构成,空间科学成为其中一个学科。

  “为什么做这件事?因为那时我国不像现在这样有能力主导一个大型空间观测项目。各国都主导了一些观测工作,我们加入是为了通过数据共享和数据交换,获取更多外国的数据来开展科学研究。”国家空间科学数据中心主任、中科院国家空间科学中心副主任邹自明说。

  当时,中科院空间科学与应用研究中心(中科院国家空间科学中心前身)已经开展了空间科学数据工作,但只是作为研究室里的一项业务而存在。在中国空间环境预报学科创始人都亨的带领下,空间科学数据工作加入了这项计划。

  2003年,原先处于“种子”阶段的国家空间科学数据中心,从一项数据业务发展成中科院国家空间科学中心一个独立部门——中国空间科学数据中心。2007年,中国空间科学数据中心成为国家地球系统共享服务平台空间科学数据中心。

  “科技创新必须依赖于科学数据。”包括邹自明在内的空间科学数据工作者心中,这是数据中心发展最根本的动力。

  2013年,WDC转变为世界数据系统(WDS),通过不懈努力,中国空间科学数据中心成为WDS的正式成员。2019年6月,中国空间科学数据中心正式成为首批20个国家科学数据中心之一,并更名为“国家空间科学数据中心”。

  从1988年到2019年,原先那颗小小的种子长成了能为我国空间科学数据遮风挡雨的绿荫。

   担起“国家责”,数据就是话语权 

  成为国家级的空间科学数据中心之后,邹自明等人心中的使命感越发强烈。“数据就是话语权,我们一直在努力打造国际空间科学数据仓储系统的中国品牌。”

  数据仓储系统是具有综合组织重要数据的能力,并能够对海量数据进行快速和准确分析的决策支持系统。

  之所以要做这件事,源于他们对国家数据仓储安全的危机感。“国际上很多顶刊要求公开论文数据,必须将数据放到一个它们认可的数据中心去。”邹自明举例说,美国地球物理联合会(AGU)认定了一批数据仓储平台,学会旗下所有期刊都要求公开科学数据。

  与国家空间科学数据中心萌芽之初相比,如今,我国主导的空间科学项目已经越来越多,空间科学卫星、大科学装置、野外台站都是产生数据的“大户”,如何保护好数据知识产权成为新时期的新课题。

  “如果没有一个国际认可的数据中心,中国科学家的数据就只能放在国外的平台。论文投得越多,出境的数据就越多,出境之后数据安全没有任何保障。”邹自明说。

  他们在国际场合一次次努力,2019年,在WDS正式会员身份的助力下,国家空间科学数据中心终于获得了AGU的认可,成为向AGU旗下期刊文章投稿时可选的可靠领域数据仓储中心。2020年10月,该中心又通过了CoreTrustSeal国际数据中心资质认证,成为亚太地区空间领域首家通过认证的数据中心。

  提升服务质量,做好开放应用 

  数据质量决定了数据是否会被接受,而数据一旦被科学共同体接受和认可,则在无形中进一步强化数据的可信度。因此,如今的国家空间科学数据中心在提升数据质量上,一刻不停地努力着。

  关于什么是“高质量的数据产品”,邹自明心中有一个标尺。“我给用户一堆数据,首先用户要能看得清楚、明白,这与数据的规范性有关;然后是这些数据要可信,这与数据的客观性有关。”

  邹自明介绍,数据规范性涉及格式描述得是否清楚、辅助信息是否完善、使用者拿到数据之后会不会引发歧义;数据客观性涉及数据是否反映了观测的真实情况。

  这些年,为了提升数据的规范性,国家空间科学数据中心主攻标准体系。“目前,国家空间科学数据中心的科学领域数据标准体系,已经从资源描述、操作活动、过程管理3个维度,贯穿了空间科学数据全生命周期流程。”国家空间科学数据中心副主任、中科院国家空间科学中心副研究员佟继周介绍,中心牵头或参与起草了国家标准20余项,起草团体标准、项目标准10余项。

  对于数据客观性问题,国家空间科学数据中心则采取了“倒逼”策略。“数据的客观性不能光靠数据中心的数据工作来实现,更重要的是要靠科研仪器来实现。”邹自明说,提升数据质量和可信度,就要在科学仪器研制时做更多的标定实验,在仪器运行时积累更多的统计量。

  邹自明介绍,为了控制数据质量,国家空间科学数据中心的研发人员研发出科研项目数据管理过程模型,并将模型推给各个科研项目负责人,作为项目负责人完善科学数据质量的参考。

  和很多国家科学数据中心负责人一样,邹自明也在各种场合推动数据论文出版工作并呼吁科学家参与其中。“你必须把你的数据公开,放到一个国际认可的数据仓储系统中去,才能真正保护数据知识产权,提升数据的认可度。”

  “现在,我们依然希望这个‘朋友圈’再广一点,大家一起把数据开放共享的事情做好。”邹自明说。

  (原载于《中国科学报》 2022-03-21 第1版 要闻)

附件下载: