中國(guó)科學(xué)院青藏高原研究所(簡(jiǎn)稱青藏高原所)研究員張國(guó)慶看著電腦屏幕,手移動(dòng)著鼠標(biāo),光標(biāo)在Landsat影像(陸地衛(wèi)星影像)上以毫米計(jì)的距離移動(dòng),定位于中國(guó)范圍內(nèi)每一個(gè)湖泊,之后將有關(guān)遙感影像和數(shù)據(jù)下載。
在數(shù)以千萬(wàn)次地拖動(dòng)點(diǎn)擊鼠標(biāo),初步了完成數(shù)據(jù)集。隨后,張國(guó)慶再次緊盯每一個(gè)湖泊,比對(duì)、檢查、修正。遇到看著很像湖泊的水體單元,張國(guó)慶要耗費(fèi)更多的精力和時(shí)間,確保湖泊邊界的準(zhǔn)確性。
這樣的動(dòng)作,張國(guó)慶和他的學(xué)生持續(xù)了3年多,他的目標(biāo)是了解過(guò)去50年全國(guó)大于1平方公里的湖泊數(shù)量與面積變化及其驅(qū)動(dòng)因素。
最終在2019年,張國(guó)慶利用超過(guò)3831景遙感衛(wèi)星影像獲得長(zhǎng)時(shí)間序列全國(guó)湖泊編目數(shù)據(jù)集,較現(xiàn)有數(shù)據(jù)更新、更完整。
在數(shù)據(jù)集完成的第一時(shí)間,張國(guó)慶將其上傳到了“國(guó)家青藏高原科學(xué)數(shù)據(jù)中心”(以下簡(jiǎn)稱數(shù)據(jù)中心),并開放給所有需要者免費(fèi)獲取使用。很快,這一數(shù)據(jù)集被國(guó)家水利部門、湖泊水文研究學(xué)者等用于完善我國(guó)水資源管理戰(zhàn)略,研究生態(tài)資源與環(huán)境變化趨勢(shì),開展鄉(xiāng)村調(diào)查等。
“做出來(lái)高質(zhì)量的數(shù)據(jù),本應(yīng)該開放共享。”張國(guó)慶告訴《中國(guó)科學(xué)報(bào)》。他從事的是冰凍圈和環(huán)境遙感研究,其大部分科研工作與數(shù)據(jù)有關(guān),他還共享了青藏高原湖泊水位、水量變化等數(shù)據(jù)集。
國(guó)家青藏高原科學(xué)數(shù)據(jù)中心自2019年成立以來(lái),迄今已3年,像張國(guó)慶這樣愿意開放共享的科研人員越來(lái)越多。在數(shù)據(jù)中心主任、青藏高原所研究員李新看來(lái),在中國(guó)實(shí)現(xiàn)科學(xué)數(shù)據(jù)的公開共享不僅需要自上而下的授權(quán),還需要激勵(lì)機(jī)制,以提高研究人員對(duì)數(shù)據(jù)共享實(shí)踐的信心和意愿。
數(shù)據(jù)開放難在哪兒?
2020年,一項(xiàng)對(duì)我國(guó)超過(guò)2000名科研人員的調(diào)查顯示,我國(guó)研究人員雖有分享研究數(shù)據(jù)的意愿,但他們也擔(dān)心數(shù)據(jù)的誤用及版權(quán)和許可受到侵犯。在我國(guó),與同事和合作者私下共享數(shù)據(jù)的情況更為普遍,而不是更廣泛的公開共享。
李新也發(fā)現(xiàn),當(dāng)數(shù)據(jù)與論文關(guān)聯(lián)起來(lái)時(shí),科研人員共享數(shù)據(jù)的意愿相對(duì)高一些。
“科研人員發(fā)論文,誰(shuí)也沒(méi)有猶豫,都很樂(lè)意公開發(fā)表,科學(xué)數(shù)據(jù)其實(shí)也應(yīng)該是同樣道理。”李新笑稱,“與十幾年前相比,總體上我國(guó)數(shù)據(jù)開放共享的狀態(tài)是樂(lè)觀積極的。但在我國(guó)研究人員中更為廣泛地樹立數(shù)據(jù)共享的信心,仍需大量工作。”
比如,科學(xué)數(shù)據(jù)哪些該保密,哪些不該保密,邊界仍是困惑;科研人員采集的數(shù)據(jù)還需要整理、描述、質(zhì)量控制和中英文編輯等,這些“額外”的勞動(dòng)成果難以被認(rèn)定;科研人員的辛苦付出,其知識(shí)產(chǎn)權(quán)有時(shí)沒(méi)有被保護(hù)好。
此外,如今已是“數(shù)據(jù)洪流”時(shí)代,然而由于一些技術(shù)問(wèn)題,諸多質(zhì)量高、描述好的數(shù)據(jù)在互聯(lián)網(wǎng)搜索引擎上難以檢索到,或是可以被檢索到,但卻難以獲取和應(yīng)用;數(shù)據(jù)質(zhì)量和規(guī)范化水平不高,有調(diào)查顯示,估計(jì)只有不到10%的中國(guó)地球科學(xué)元數(shù)據(jù)有英文版本,這阻礙了廣泛的國(guó)際交流和影響。
促進(jìn)數(shù)據(jù)開放共享,從政策、管理,到技術(shù)等方面都存在一定壁壘,需要有更具體的行動(dòng)。更重要的,是科研人員的主觀意愿和動(dòng)力。
不少人在網(wǎng)絡(luò)平臺(tái)上“吐槽”不愿共享的原因:“工作量大,科技含量低”“又累又苦,有時(shí)還有危險(xiǎn)”“沒(méi)有回報(bào)”……
的確,數(shù)據(jù)不論收集難度還是時(shí)間跨度非一朝一夕所能完成。清華大學(xué)陽(yáng)坤教授團(tuán)隊(duì)用了10余年時(shí)間開發(fā)一套中國(guó)區(qū)域地面氣象要素驅(qū)動(dòng)數(shù)據(jù)集(1979-2018),為中國(guó)區(qū)陸面過(guò)程模擬提供驅(qū)動(dòng)數(shù)據(jù)。
陽(yáng)坤的學(xué)生何杰博士是這套數(shù)據(jù)的主要開發(fā)人員之一,從2008年作為研究生時(shí)便開始采集整理數(shù)據(jù),“盡管不需要有技術(shù)突破,但很多時(shí)候依賴‘上游’數(shù)據(jù),需要用各種各樣的辦法排除可能存在疑問(wèn)的數(shù)據(jù),然后做出高質(zhì)量的數(shù)據(jù)產(chǎn)品,這個(gè)過(guò)程是繁瑣、耗時(shí)的。”
談及愿意共享的原因時(shí),何杰告訴《中國(guó)科學(xué)報(bào)》,氣象要素驅(qū)動(dòng)數(shù)據(jù)集地學(xué)研究中不可或缺,以氣象為例,只有給模型輸入高質(zhì)量的數(shù)據(jù),才能獲得科學(xué)的氣候環(huán)境模擬結(jié)果。“做數(shù)據(jù)集的初衷,就是因?yàn)橹笆褂玫臄?shù)據(jù)模擬效果‘不理想’,想為我國(guó)地學(xué)學(xué)者提供一套可靠數(shù)據(jù)。有人用,才能夠體現(xiàn)我們研究的價(jià)值。”
10余年來(lái),何杰與導(dǎo)師開發(fā)的這套數(shù)據(jù)集的精度高于國(guó)際上已有再分析數(shù)據(jù)的精度,成為國(guó)內(nèi)研究廣泛使用的氣象數(shù)據(jù)集之一。如今,何杰是青藏高原所的工程師,“沒(méi)有更多論文考核的壓力,可以更充分地完善數(shù)據(jù)集。”
激勵(lì)機(jī)制是關(guān)鍵
自身研究驅(qū)動(dòng),是數(shù)據(jù)采集者開放、共享的初衷。但要廣泛提高動(dòng)力,在李新看來(lái),“數(shù)據(jù)貢獻(xiàn)者的認(rèn)同感和工作的價(jià)值感需要被體現(xiàn)。”
李新先后承擔(dān)了國(guó)家自然基金委“中國(guó)西部環(huán)境與生態(tài)科學(xué)研究”和“黑河流域生態(tài)-水文過(guò)程集成研究”兩個(gè)重大研究計(jì)劃的項(xiàng)目,這兩項(xiàng)計(jì)劃均要求,受資助課題得到的科學(xué)數(shù)據(jù)都必須公開共享。在項(xiàng)目的年度評(píng)估、中期考核及最終評(píng)估環(huán)節(jié),數(shù)據(jù)提交共享和數(shù)據(jù)質(zhì)量都是被評(píng)定的內(nèi)容。
這兩項(xiàng)先導(dǎo)性計(jì)劃的成功讓李新感觸頗深,“這種自上到下對(duì)公開數(shù)據(jù)共享予以支持的政策和自下到上對(duì)數(shù)據(jù)貢獻(xiàn)者予以激勵(lì)的機(jī)制,是能夠?qū)崿F(xiàn)中國(guó)更為廣泛數(shù)據(jù)共享的關(guān)鍵。”
前不久,在青藏高原所組織的國(guó)際評(píng)估中,不少國(guó)際專家對(duì)張國(guó)慶的科研能力以及他的數(shù)據(jù)工作給予了認(rèn)可和肯定。
數(shù)據(jù)中心也努力讓數(shù)據(jù)貢獻(xiàn)者有“價(jià)值感”,為每個(gè)自有產(chǎn)權(quán)的數(shù)據(jù)賦予唯一的數(shù)字對(duì)象標(biāo)識(shí)符,體現(xiàn)數(shù)據(jù)的跟蹤價(jià)值、引用價(jià)值、集成價(jià)值和互聯(lián)價(jià)值。
但這還不夠,李新建議,研究成果或項(xiàng)目資助中除了考察其高質(zhì)量論文的發(fā)表情況,還可增加其所貢獻(xiàn)科學(xué)數(shù)據(jù)質(zhì)量等相關(guān)的條款。此外,數(shù)據(jù)出版也是促進(jìn)科學(xué)數(shù)據(jù)開放共享的重要手段,主要參考學(xué)術(shù)論文的出版方式,規(guī)范地描述科學(xué)數(shù)據(jù)本身,并接受嚴(yán)格的同行評(píng)審,遵從學(xué)術(shù)出版規(guī)范。比如,國(guó)內(nèi)一流綜合期刊可率先嘗試要求在論文投稿時(shí),同步提交論文相關(guān)數(shù)據(jù),并且優(yōu)先選擇國(guó)內(nèi)數(shù)據(jù)中心作為數(shù)據(jù)倉(cāng)儲(chǔ)。
“數(shù)據(jù)計(jì)量和規(guī)范化數(shù)據(jù)引用方面,還缺乏統(tǒng)一的規(guī)范,影響了對(duì)科學(xué)數(shù)據(jù)貢獻(xiàn)者的激勵(lì)和科學(xué)數(shù)據(jù)的開放。”李新表示,加強(qiáng)數(shù)據(jù)引用,科學(xué)論文應(yīng)按照標(biāo)準(zhǔn)的數(shù)據(jù)引用格式,引用支持論文成果的關(guān)鍵數(shù)據(jù)集;同時(shí),加強(qiáng)數(shù)據(jù)引用計(jì)量,體現(xiàn)數(shù)據(jù)作者的知識(shí)產(chǎn)權(quán)和貢獻(xiàn),激勵(lì)數(shù)據(jù)共享。
“只有通過(guò)對(duì)數(shù)據(jù)貢獻(xiàn)者進(jìn)行適當(dāng)?shù)脑u(píng)估、肯定和鼓勵(lì),數(shù)據(jù)共享才能成為一項(xiàng)自愿的機(jī)制,當(dāng)大家都愿意共享時(shí),一種良好的氛圍也就形成了。”李新說(shuō)。
開放的“FAIR”原則
在數(shù)據(jù)開放中,不少科研人員有著“開放數(shù)據(jù)可能會(huì)給自己的科研工作帶來(lái)風(fēng)險(xiǎn)”的顧慮,也一定程度上影響了他們自下而上開放科學(xué)數(shù)據(jù)的意愿。
一方面希望應(yīng)該開放的數(shù)據(jù)“不設(shè)任何邊界的”開放,而另一方面需要保密的數(shù)據(jù)又要“非常保守”的保密,這對(duì)矛盾體依然是擺在數(shù)據(jù)開放共享面前的問(wèn)題。
李新說(shuō),科學(xué)數(shù)據(jù)已經(jīng)從“全面開放”原則過(guò)渡到目前普遍遵循的“FAIR”原則,即可發(fā)現(xiàn)性、可獲取、可互操作、可重用。我國(guó)2018年頒布的《科學(xué)數(shù)據(jù)管理辦法》“照開放為常態(tài)、不開放為例外的原則”的要求,也為這個(gè)矛盾的解決提供了一個(gè)“指引”。
不過(guò),政策上還需更細(xì)化,李新表示,為了最大程度地實(shí)踐數(shù)據(jù)共享,對(duì)敏感數(shù)據(jù)有清晰的定義及制定具體的共享限制政策顯得尤為重要,比如那些涉及到國(guó)家安全、商業(yè)機(jī)密和個(gè)人隱私的數(shù)據(jù)當(dāng)然可以保密,而其他數(shù)據(jù)應(yīng)該充分開放共享。開放科學(xué)的知識(shí)產(chǎn)權(quán)協(xié)議,如知識(shí)共享協(xié)議,可作為一種通用協(xié)議被引入科學(xué)數(shù)據(jù)共享。
數(shù)據(jù)中心采取行動(dòng)試圖打消科研人員的顧慮,保護(hù)數(shù)據(jù)貢獻(xiàn)者的知識(shí)產(chǎn)權(quán)。保留數(shù)據(jù)貢獻(xiàn)者的版權(quán),授權(quán)他人在協(xié)議限定范圍內(nèi)的轉(zhuǎn)載、使用和二次演繹等;兼顧數(shù)據(jù)作者對(duì)特殊數(shù)據(jù)保護(hù)的訴求,比如可以設(shè)置不超過(guò)兩年的數(shù)據(jù)保護(hù)期,或根據(jù)數(shù)據(jù)作者對(duì)數(shù)據(jù)共享需要附加額外條件的要求,設(shè)置數(shù)據(jù)申請(qǐng)審批流程等。
“數(shù)據(jù)中心不定期地就會(huì)進(jìn)行安全自查,有可能涉密的數(shù)據(jù)就進(jìn)行下線處理。”李新說(shuō)。
數(shù)據(jù)中心不斷開發(fā)新技術(shù)實(shí)踐“FAIR”原則,采用國(guó)際標(biāo)準(zhǔn)提供數(shù)據(jù)引用方式和數(shù)據(jù)關(guān)聯(lián)文獻(xiàn)引用方式,支持?jǐn)?shù)據(jù)出版,開發(fā)在線大數(shù)據(jù)分析、模型應(yīng)用等功能。
在數(shù)據(jù)集描述頁(yè)面添加相關(guān)元數(shù)據(jù)信息,使得數(shù)據(jù)中心的數(shù)據(jù)能夠在谷歌數(shù)據(jù)搜索引擎中被查詢到;盡量采用地學(xué)數(shù)據(jù)領(lǐng)域廣泛認(rèn)可的標(biāo)準(zhǔn)和規(guī)范來(lái)減少互操作性障礙;免登陸下載,降低數(shù)據(jù)下載門檻,開發(fā)中英文雙語(yǔ)數(shù)據(jù)管理與共享平臺(tái),由專業(yè)編輯和公司“雙重把關(guān)”英文數(shù)據(jù)質(zhì)量......
這些,都促進(jìn)了青藏高原及其周邊相關(guān)科學(xué)數(shù)據(jù)的開放共享。
今年1月底,李新在總結(jié)會(huì)上公布,目前已收集并發(fā)布青藏高原及周邊地區(qū)的科學(xué)數(shù)據(jù)集4600多個(gè),累計(jì)頁(yè)面訪問(wèn)量超過(guò)1.5億,月均下載量達(dá)50TB,為青藏高原區(qū)域科技創(chuàng)新發(fā)展和地球系統(tǒng)科學(xué)研究提供了重要的數(shù)據(jù)支持。國(guó)家青藏高原科學(xué)數(shù)據(jù)中心也成為國(guó)內(nèi)首個(gè)通過(guò)Nature數(shù)據(jù)期刊Scientific Data認(rèn)證的數(shù)據(jù)倉(cāng)儲(chǔ)中心,大大提高了數(shù)據(jù)中心的影響力和權(quán)威性。
李新對(duì)于數(shù)據(jù)中心有著更“開放”的愿景:通過(guò)整合來(lái)自大數(shù)據(jù)和機(jī)器學(xué)習(xí)的技術(shù),數(shù)據(jù)中心可以將大數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí),更為有效地為數(shù)據(jù)用戶服務(wù),研發(fā)更多青藏高原及周邊的高質(zhì)量再分析數(shù)據(jù)產(chǎn)品;此外,建立一個(gè)平臺(tái),使用者無(wú)需下載便可在線使用數(shù)據(jù)集,就像“谷歌地球引擎”一樣,使得數(shù)據(jù)檢索更容易,數(shù)據(jù)訪問(wèn)更為廣泛等。
“要實(shí)現(xiàn)數(shù)據(jù)共享的范式轉(zhuǎn)變,仍需要政府、研究人員和數(shù)據(jù)中心的積極努力。數(shù)據(jù)和數(shù)據(jù)貢獻(xiàn)者越受到激勵(lì),就越有利于科學(xué)和社會(huì)的發(fā)展。”李新說(shuō),他充滿期待。