
發(fā)布日期:2021-8-15 19:44:14 訪問次數(shù):998
孟小峰 博士,中國人民大學(xué)教授,博士生導(dǎo)師,CCF會(huì)士。主要研究方向?yàn)閿?shù)據(jù)庫理論與系統(tǒng)、大數(shù)據(jù)管理系統(tǒng)、大數(shù)據(jù)隱私保護(hù)、大數(shù)據(jù)融合與智能、大數(shù)據(jù)實(shí)時(shí)分析、社會(huì)計(jì)算等。
摘 要
隨著全球各科學(xué)領(lǐng)域大科學(xué)裝置的出現(xiàn),科學(xué)發(fā)現(xiàn)進(jìn)入了大數(shù)據(jù)時(shí)代??茖W(xué)發(fā)現(xiàn)無法完全依賴于專家經(jīng)驗(yàn)從海量數(shù)據(jù)中發(fā)現(xiàn)稀有科學(xué)事件,大量歷史數(shù)據(jù)無法有效利用,同時(shí)愈發(fā)突出實(shí)時(shí)性和高精度,科學(xué)事件的模式具有稀有性,通用的算法并不適用于科學(xué)領(lǐng)域,由此科學(xué)數(shù)據(jù)智能發(fā)現(xiàn)問題應(yīng)運(yùn)而生??茖W(xué)數(shù)據(jù)智能發(fā)現(xiàn)旨在使用數(shù)據(jù)智能的方法加速科學(xué)事件的發(fā)現(xiàn)。然而,科學(xué)數(shù)據(jù)智能發(fā)現(xiàn)缺少整體框架設(shè)計(jì),具體表現(xiàn)為缺乏科學(xué)數(shù)據(jù)的一體化分析體系和異構(gòu)科學(xué)數(shù)據(jù)高效知識(shí)融合機(jī)制,并且海量歷史數(shù)據(jù)長期存儲(chǔ)及挖掘低效。本文從數(shù)據(jù)管理的角度提出科學(xué)數(shù)據(jù)智能發(fā)現(xiàn)與管理框架和相關(guān)挑戰(zhàn),以期推動(dòng)科學(xué)發(fā)現(xiàn)的進(jìn)步。
關(guān)鍵詞: 科學(xué)數(shù)據(jù);數(shù)據(jù)智能;數(shù)據(jù)管理;智能發(fā)現(xiàn);知識(shí)融合;長期存儲(chǔ)
科學(xué)數(shù)據(jù)是指人類在科學(xué)活動(dòng)中,經(jīng)由科學(xué)裝置的不斷發(fā)展而產(chǎn)生,通過實(shí)驗(yàn)、觀測、探測、調(diào)查、挖掘等途徑獲取的用于研究活動(dòng)的原始數(shù)據(jù)及衍生數(shù)據(jù),這些積累的數(shù)據(jù)能夠反映客觀事物的本質(zhì)、特征、變化規(guī)律。隨著科學(xué)觀測裝置、觀測技術(shù)的發(fā)展,科學(xué)數(shù)據(jù)已進(jìn)入信息豐富的大數(shù)據(jù)時(shí)代[1]。天文學(xué)、遙感科學(xué)、高能物理學(xué)等領(lǐng)域都面臨著科學(xué)數(shù)據(jù)激增,需要探索更加高效、智能的方法從大規(guī)模科學(xué)數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的科學(xué)事件。
科學(xué)事件的探索和發(fā)現(xiàn)往往具有時(shí)效性,以時(shí)域天文學(xué)為例,大視場短時(shí)標(biāo)巡天以其陣列式觀測覆蓋組合大視場和高時(shí)間分辨率的數(shù)據(jù)采集,具備了高效發(fā)現(xiàn)短時(shí)標(biāo)科學(xué)事件(持續(xù)時(shí)間較短的科學(xué)事件)的能力,但也對數(shù)據(jù)管理帶來前所未有的挑戰(zhàn)。大視場短時(shí)標(biāo)巡天每天都以TB量級(jí)的速度快速采集數(shù)據(jù),并形成大規(guī)模數(shù)據(jù)流,短時(shí)標(biāo)科學(xué)事件就蘊(yùn)含其中,但是短時(shí)標(biāo)科學(xué)事件極其稀有且稍縱即逝,因此對分析的實(shí)時(shí)性要求很高,此外高噪聲和偽事件又導(dǎo)致其真?zhèn)闻袛嘤永щy[2-4]。不僅在于天文學(xué)領(lǐng)域,其他科學(xué)領(lǐng)域數(shù)據(jù)收集類似,都愈發(fā)強(qiáng)調(diào)實(shí)時(shí)性和高精度。
事實(shí)上,上述例子的挑戰(zhàn)主要表現(xiàn)為“快、準(zhǔn)、全”三方面。首先, 大科學(xué)裝置產(chǎn)生的大多為科學(xué)數(shù)據(jù)流,大規(guī)模流式處理和分析是必須的,其本質(zhì)為“大”數(shù)據(jù)中發(fā)現(xiàn)“小”概率的科學(xué)事件,要求系統(tǒng)具備實(shí)時(shí)智能分析的能面[5]。其次,系統(tǒng)需要提供對科學(xué)事件快速驗(yàn)證的能力,因此不同的數(shù)據(jù)源的高精度融合和多尺度實(shí)體畫像構(gòu)建能夠助力科學(xué)家做出準(zhǔn)確判斷,即整體發(fā)現(xiàn)不僅要“快”,更要“準(zhǔn)”。最后,由于科學(xué)事件的稀有性,系統(tǒng)需要實(shí)現(xiàn)智能地自我更新,以不斷提高整個(gè)系統(tǒng)的發(fā)現(xiàn)能力,因此,必須借助歷史數(shù)據(jù)的高效分析以實(shí)現(xiàn)科學(xué)事件發(fā)現(xiàn)的“全”面[6]。
基于此,針對科學(xué)事件的發(fā)現(xiàn)目標(biāo),要解決大規(guī)??茖W(xué)數(shù)據(jù)的智能發(fā)現(xiàn)問題,本質(zhì)上是實(shí)現(xiàn)大規(guī)??茖W(xué)數(shù)據(jù)的智能管理,本文從數(shù)據(jù)管理的角度來解決智能發(fā)現(xiàn)問題。
具體而言,大規(guī)??茖W(xué)數(shù)據(jù)智能發(fā)現(xiàn)與管理主要面臨著如下三方面的挑戰(zhàn):
(1) 實(shí)時(shí)智能的科學(xué)事件分析
實(shí)時(shí)智能的科學(xué)事件分析事實(shí)上主要面臨數(shù)據(jù)處理和智能發(fā)現(xiàn)兩方面問題??茖W(xué)數(shù)據(jù)中的觀測目標(biāo)極多,即數(shù)據(jù)基數(shù)大,就要求報(bào)警率極低(可達(dá)十萬分之一),才能保證科學(xué)家對報(bào)警的重視程度,因此不僅需要具備實(shí)時(shí)處理大規(guī)??茖W(xué)數(shù)據(jù)的能力,同時(shí)需要具備高精度的智能發(fā)現(xiàn)能力。
(2) 快速高效的科學(xué)事件驗(yàn)證
高效的科學(xué)事件驗(yàn)證主要解決的問題是對于科學(xué)事件報(bào)警信號(hào)的實(shí)時(shí)驗(yàn)證,以快速識(shí)別其價(jià)值。例如,在時(shí)域天文學(xué)中,天文學(xué)家的驗(yàn)證工作繁瑣,雖然有集成的數(shù)據(jù)庫平臺(tái)可以使用,但這些數(shù)據(jù)庫都只停留在數(shù)據(jù)的集成階段,未能高效地從集成的數(shù)據(jù)庫中抽取數(shù)據(jù)間的關(guān)系和知識(shí)并加以融合,也不能充分利用歷史科學(xué)文獻(xiàn)中積累的科學(xué)事件知識(shí),導(dǎo)致驗(yàn)證工作困難[7]。
(3) 大規(guī)??茖W(xué)數(shù)據(jù)的長期存儲(chǔ)
當(dāng)前科學(xué)數(shù)據(jù)的收集效率越來越高,然而長期歷史數(shù)據(jù)由于管理能力限制呈現(xiàn)出價(jià)值逐年遞減的態(tài)勢,如同礦業(yè)領(lǐng)域的煤矸石一樣,不能被高效利用,影響了長期數(shù)據(jù)服務(wù)于提高系統(tǒng)發(fā)現(xiàn)能力的效率,因此,對長期歷史數(shù)據(jù)的存儲(chǔ)和分析是必須解決的問題。如何有效組織并以低成本解決大量歷史數(shù)據(jù)的查詢分析問題,使得能夠從底層數(shù)據(jù)角度服務(wù)于智能分析和驗(yàn)證任務(wù)是科學(xué)數(shù)據(jù)面臨的普遍問題。
1 科學(xué)數(shù)據(jù)智能發(fā)現(xiàn)與管理框架
前文所述的挑戰(zhàn)如果得以解決,將為科學(xué)發(fā)現(xiàn)打開一扇嶄新的窗口,極大地助力科學(xué)家對科學(xué)事件的發(fā)現(xiàn)工作?;诖?,本文提出大規(guī)??茖W(xué)數(shù)據(jù)智能發(fā)現(xiàn)與管理框架,如圖1所示,包含智能分析層、知識(shí)融合層和數(shù)據(jù)存儲(chǔ)層三個(gè)部分:
圖1 大規(guī)??茖W(xué)數(shù)據(jù)智能發(fā)現(xiàn)與管理框架
(1) 科學(xué)事件的實(shí)時(shí)智能化分析:針對科學(xué)事件的實(shí)效性和特殊科學(xué)裝置數(shù)據(jù)采集特點(diǎn)設(shè)計(jì)新的流數(shù)據(jù)處理框架適應(yīng)科學(xué)數(shù)據(jù)要求的實(shí)時(shí)性能約束和處理模式,此外計(jì)算任務(wù)從數(shù)據(jù)和模型兩個(gè)角度助力科學(xué)事件的高效智能分析。
(2) 多尺度科學(xué)數(shù)據(jù)的全景化融合:科學(xué)觀測不是單方面的觀測,存在多個(gè)觀測角度、觀測裝置、觀測地點(diǎn)等,針對科學(xué)數(shù)據(jù)特有的多尺度、多源觀測特性,采用知識(shí)融合及知識(shí)圖譜技術(shù)實(shí)現(xiàn)不同科學(xué)數(shù)據(jù)源的交叉融合,構(gòu)建海量科學(xué)事件觀測目標(biāo)知識(shí)圖譜,加速科學(xué)事件驗(yàn)證。
(3) 大規(guī)模科學(xué)數(shù)據(jù)的協(xié)同化存儲(chǔ):科學(xué)數(shù)據(jù)的長期存儲(chǔ)主要解決高效查詢問題。因此,首先從存儲(chǔ)優(yōu)化角度提高整體數(shù)據(jù)訪問性能,科學(xué)數(shù)據(jù)通常具有時(shí)間和空間特性,可以通過時(shí)空優(yōu)化的內(nèi)外存協(xié)同存儲(chǔ)與索引機(jī)制保證數(shù)據(jù)存儲(chǔ)的合理性;其次從系統(tǒng)合理配置角度提高特定查詢的效率,通過科學(xué)數(shù)據(jù)工作負(fù)載運(yùn)行時(shí)的特征收集和分析,動(dòng)態(tài)設(shè)置系統(tǒng)的最優(yōu)化配置方案。
事實(shí)上,本文提出科學(xué)數(shù)據(jù)智能管理框架以科學(xué)事件智能分析、高效科學(xué)事件驗(yàn)證和大規(guī)??茖W(xué)數(shù)據(jù)長期存儲(chǔ)三大基礎(chǔ)性關(guān)鍵技術(shù)作為支撐,三個(gè)關(guān)鍵技術(shù)作為一個(gè)有機(jī)整體共同助力科學(xué)事件的快速發(fā)現(xiàn)。
2 科學(xué)事件的實(shí)時(shí)智能化分析
本節(jié)主要聚焦于從處理框架和分析方法兩個(gè)角度介紹科學(xué)數(shù)據(jù)流的智能化分析。
2.1 科學(xué)數(shù)據(jù)的分布式處理框架
科學(xué)數(shù)據(jù)流的形式是多樣的,最終都可以歸結(jié)為觀測值的時(shí)間序列,但采集方式會(huì)有不同。對于元組采集方式而言,每個(gè)采集終端負(fù)責(zé)對一個(gè)目標(biāo)或極小區(qū)域采集樣本值,如海洋中的觀測浮標(biāo)收集溫度濕度等,每次數(shù)據(jù)采集都是一個(gè)極小的數(shù)據(jù)元組。對于批量采集方式而言,觀測單元對海量目標(biāo)同時(shí)進(jìn)行數(shù)據(jù)采集,如時(shí)域天文學(xué)中觀測陣列對天體光度采集,每次都會(huì)形成海量目標(biāo)的觀測值的數(shù)據(jù)塊,且這類數(shù)據(jù)塊又不適宜拆分成元組處理,因?yàn)闀?huì)損失塊內(nèi)鄰域元組之間的關(guān)聯(lián)特性。
針對以上特性,科學(xué)數(shù)據(jù)的分布式處理框架需要能夠結(jié)合不同的領(lǐng)域知識(shí)動(dòng)態(tài)適應(yīng)不同采集方式。對于元組采集模式而言,處理框架需要使用非阻塞式元組處理模式或阻塞式微批處理模式[8-9],即Apache Storm和Apache Spark streaming采用的方式處理。對于批量采集方式而言,處理框架需要使用非阻塞式實(shí)時(shí)塊數(shù)據(jù)處理模式,該處理不同于上述兩種處理模式。由于塊數(shù)據(jù)不能拆分元組處理又要保證塊數(shù)據(jù)處理的實(shí)時(shí)性,因此處理框架必須兼顧塊鄰域關(guān)聯(lián)特點(diǎn)的基礎(chǔ)上動(dòng)態(tài)對塊數(shù)據(jù)分區(qū)進(jìn)行分布式處理,且分區(qū)數(shù)據(jù)的處理要進(jìn)一步有實(shí)時(shí)性保證。這就要求處理框架底層支持基于塊數(shù)據(jù)分布式處理的實(shí)時(shí)約束技術(shù)。此外,還需要通過資源隔離的方式隔離不同的處理模式并保證它們有機(jī)地協(xié)同工作。
2.2 交互反饋的科學(xué)發(fā)現(xiàn)機(jī)制
科學(xué)發(fā)現(xiàn)中常用的方法是時(shí)間序列異常檢測[10-13],主要方法可分為:基于分類、基于聚類、基于統(tǒng)計(jì)學(xué)、基于信息論以及基于人工智能的異常檢測等技術(shù)等。而當(dāng)下科學(xué)數(shù)據(jù)通常是以時(shí)序流形式呈現(xiàn)[14],且異常發(fā)現(xiàn)模式不能夠完全窮盡,導(dǎo)致傳統(tǒng)的時(shí)間序列異常檢測算法不能夠勝任。
科學(xué)數(shù)據(jù)具有連續(xù)采集特性,因此科學(xué)發(fā)現(xiàn)可分為離線挖掘與在線分析兩部分,從模型角度提高科學(xué)數(shù)據(jù)分析精度。離線層數(shù)據(jù)量大,使得離線數(shù)據(jù)訓(xùn)練的模型精度高,更能夠涵蓋數(shù)據(jù)的全局特征,但離線訓(xùn)練模型耗費(fèi)時(shí)間長;實(shí)時(shí)層數(shù)據(jù)量少,實(shí)時(shí)層的模型訓(xùn)練要求快,但訓(xùn)練的模型精度低,只能夠涵蓋數(shù)據(jù)的最新特征(局部)。因此需要研究在線與離線交互分析反饋機(jī)制,用離線精度高的模型,支持實(shí)時(shí)的異常檢測,從系統(tǒng)和算法兩方面實(shí)現(xiàn)實(shí)時(shí)序列異常發(fā)現(xiàn)算法體系的演化,并實(shí)現(xiàn)離線分類模型自適應(yīng)更新,圖2為本文提出的實(shí)時(shí)—離線閉環(huán)反饋策略。
圖2 實(shí)時(shí)—離線閉環(huán)反饋機(jī)制
基于反饋機(jī)制的科學(xué)發(fā)現(xiàn)使得系統(tǒng)的離線層和實(shí)時(shí)層形成閉環(huán),從而持續(xù)提高科學(xué)發(fā)現(xiàn)的精度,形成科學(xué)數(shù)據(jù)處理的工作流[15]。
2.3 數(shù)據(jù)質(zhì)量控制與序列補(bǔ)全
科學(xué)數(shù)據(jù)作為一系列觀測值容易受到外界環(huán)境干擾,會(huì)導(dǎo)致數(shù)據(jù)的畸變或缺失,因此考慮從數(shù)據(jù)角度提高分析精度。
對于典型的元組采集方式而言,目前有很多抗噪聲的方法用于數(shù)據(jù)的質(zhì)量控制,如小波變換等。但是對于批量采集方式而言,這類方式是不適用的。因?yàn)槊看胃蓴_都是局部空間相關(guān)的,如時(shí)域天文學(xué)中云霧對天體光度的遮擋都是范圍性的。因此,分析這種局部空間的相關(guān)性干擾是數(shù)據(jù)質(zhì)量控制的核心。這要求質(zhì)量控制技術(shù)需要區(qū)分不同數(shù)據(jù)采集方式,以動(dòng)態(tài)適配。
無論是哪種數(shù)據(jù)采集方式,最終都是以時(shí)間序列形式呈現(xiàn)的,由于觀測計(jì)劃改變、設(shè)備故障等,常常導(dǎo)致時(shí)間序列殘缺不全,缺失的數(shù)據(jù)比例之大導(dǎo)致已有的方法無法解決,嚴(yán)重影響了后續(xù)對觀測數(shù)據(jù)的分析以及科學(xué)事件發(fā)現(xiàn)。針對時(shí)間序列的補(bǔ)全,主要有基于統(tǒng)計(jì)量的統(tǒng)計(jì)學(xué)、基于相關(guān)時(shí)間序列以及基于深度學(xué)習(xí)的方法[16-17]。這些方法通常只能在離線層使用,要求相關(guān)序列非完全缺失,而且無法處理連續(xù)大量的缺失數(shù)據(jù)。
在科學(xué)發(fā)現(xiàn)的真實(shí)場景下,序列的缺失情況千差萬別,不僅需要科學(xué)數(shù)據(jù)的實(shí)時(shí)補(bǔ)全方法,同時(shí)需要保證在缺失數(shù)據(jù)無法補(bǔ)全時(shí)的發(fā)現(xiàn)精度,結(jié)合反饋機(jī)制來不斷完善補(bǔ)全算法,具有重要意義。
3 多尺度科學(xué)數(shù)據(jù)的全景化融合
在科學(xué)發(fā)現(xiàn)場景下,科學(xué)事件的驗(yàn)證往往需要借助多個(gè)數(shù)據(jù)源的數(shù)據(jù)對觀測到的科學(xué)事件候選體進(jìn)行統(tǒng)一化的多維度描述形成觀測目標(biāo)的多尺度畫像,以輔助科學(xué)家更為清楚地驗(yàn)證候選體的真?zhèn)?,同時(shí)能夠?qū)?shù)據(jù)進(jìn)行溯源[18]。為了對觀測目標(biāo)的知識(shí)進(jìn)行可粒度縮放、可跨界關(guān)聯(lián)、可全局視圖的融合與管理[19-20],本節(jié)提出基于知識(shí)表示學(xué)習(xí)的全景式科學(xué)數(shù)據(jù)知識(shí)融合機(jī)制(圖3),幫助科學(xué)家實(shí)現(xiàn)智能驗(yàn)證,突破目前驗(yàn)證的高延遲瓶頸。
圖3 大數(shù)據(jù)驅(qū)動(dòng)的“全景式”科學(xué)數(shù)據(jù)融合機(jī)制
3.1 多尺度觀測目標(biāo)之間的數(shù)據(jù)融合
科學(xué)數(shù)據(jù)可以來源于不同的觀測設(shè)備、觀測地點(diǎn)、觀測方式、觀測順序等,其數(shù)據(jù)形式可以是數(shù)據(jù)集、數(shù)據(jù)庫、文本或文檔等,數(shù)據(jù)格式可以是圖像、文字等,因此其數(shù)據(jù)的多源異構(gòu)特性非常明顯。傳統(tǒng)方法主要結(jié)合語義信息和多輔助信息來計(jì)算相似度,需要設(shè)計(jì)不同的學(xué)習(xí)模型來適應(yīng)不同數(shù)據(jù)的特征,十分不便[21]。
針對科學(xué)數(shù)據(jù)的多源異構(gòu)特性,需要實(shí)現(xiàn)多模態(tài)數(shù)據(jù)之間的表示轉(zhuǎn)換,以便將不同的特征映射到統(tǒng)一的知識(shí)表示空間中[22]。該實(shí)體融合方法將來自于不同觀測設(shè)備的、以不同格式存儲(chǔ)的觀測目標(biāo)信息轉(zhuǎn)化為統(tǒng)一的資源描述框架,并據(jù)此進(jìn)行知識(shí)的對齊和消歧,具體使用基于知識(shí)圖譜技術(shù)的有監(jiān)督數(shù)據(jù)轉(zhuǎn)化方法,通過參數(shù)共享、正則項(xiàng)添加等方式完成觀測實(shí)體的融合。
3.2 觀測目標(biāo)及其描述間的知識(shí)獲取
科學(xué)領(lǐng)域有著大量的科學(xué)數(shù)據(jù)庫和本體庫,與此同時(shí)還有海量的科學(xué)研究文獻(xiàn)數(shù)據(jù),關(guān)于科學(xué)發(fā)現(xiàn)和科學(xué)事件分析等科學(xué)論文可以從相關(guān)網(wǎng)站或數(shù)據(jù)庫中自由獲取,這使得抽取大量以文本形式存在的科學(xué)知識(shí)變?yōu)榭赡埽疫@也為知識(shí)的更新和質(zhì)量控制提供了保證。
因此在科學(xué)發(fā)現(xiàn)中,可以通過基于知識(shí)表示學(xué)習(xí)的科學(xué)知識(shí)獲取方法,將科學(xué)文獻(xiàn)中存在的科學(xué)知識(shí)進(jìn)行挖掘和抽取,具體研究基于初始知識(shí)庫和本體庫的雙向嵌入式學(xué)習(xí),對實(shí)體和本體都進(jìn)行嵌入式學(xué)習(xí),以此增強(qiáng)從科學(xué)文獻(xiàn)中提取實(shí)體和關(guān)系的效率,同時(shí)研究在低資源情境下基于遷移學(xué)習(xí)方法來把開放領(lǐng)域中的研究模型引入到科學(xué)文獻(xiàn)中的知識(shí)發(fā)現(xiàn)過程中來。
3.3 大規(guī)模觀測目標(biāo)知識(shí)的全景融合
針對大規(guī)模觀測目標(biāo)的知識(shí)全景融合,旨在刻畫大數(shù)據(jù)驅(qū)動(dòng)的“全景式”科學(xué)數(shù)據(jù)知識(shí)圖譜。這里提出將對齊的多源科學(xué)數(shù)據(jù)和獲取的科學(xué)知識(shí)從概念層和實(shí)例層對齊后再次融合到一個(gè)全局視圖的全景化知識(shí)圖譜中[23]。
首先,需要在已有的科學(xué)數(shù)據(jù)上進(jìn)行知識(shí)融合,需要對已有數(shù)據(jù)中的概念和實(shí)例進(jìn)行對齊[24];其次,基于上述兩個(gè)研究基礎(chǔ),對從開源數(shù)據(jù)中獲取的觀測目標(biāo)科學(xué)知識(shí)與已知的觀測數(shù)據(jù)庫進(jìn)行再一次知識(shí)的對齊驗(yàn)證,同樣需要從概念和實(shí)例兩個(gè)層次來完成,由于需要較強(qiáng)的觀測領(lǐng)域背景知識(shí),也為了方便服務(wù)于科學(xué)工作者,利用眾包技術(shù)或者交互設(shè)計(jì)技術(shù)將人工部分融入到集成過程中來[25],使得融合后的知識(shí)質(zhì)量得到有效控制;最后,基于融合后的最終知識(shí)圖譜設(shè)計(jì)鏈接預(yù)測方法,比如利用圖嵌入式學(xué)習(xí)或表示學(xué)習(xí)方法進(jìn)行標(biāo)注缺失數(shù)據(jù)的標(biāo)簽預(yù)測,以便補(bǔ)全觀測目標(biāo)知識(shí)中的缺失或遺漏部分。
4 大規(guī)模科學(xué)數(shù)據(jù)的協(xié)同化存儲(chǔ)
在科學(xué)領(lǐng)域觀測產(chǎn)生的數(shù)據(jù)主要服務(wù)于實(shí)時(shí)智能的科學(xué)發(fā)現(xiàn),但是隨著數(shù)據(jù)源源不斷到來,系統(tǒng)依然需要將數(shù)據(jù)進(jìn)行長期存儲(chǔ),以提供智能分析層、數(shù)據(jù)融合層和上層科學(xué)家查詢。由于科學(xué)場景的查詢具有典型的時(shí)空局部性,因此,本節(jié)主要研究高效的科學(xué)數(shù)據(jù)存儲(chǔ)框架和查詢性能優(yōu)化。
4.1 時(shí)空優(yōu)化的多級(jí)存儲(chǔ)架構(gòu)
實(shí)時(shí)性和快速性是智能管理場景下科學(xué)數(shù)據(jù)長期存儲(chǔ)的核心要求。而傳統(tǒng)的長期科學(xué)數(shù)據(jù)的管理,主要研究目標(biāo)是批式大數(shù)據(jù)管理系統(tǒng),不能夠滿足智能管理的實(shí)時(shí)性和快速性。新的采樣數(shù)據(jù)不斷到來,系統(tǒng)不僅需要實(shí)時(shí)地處理和查詢這些數(shù)據(jù),而且需要持久化地保存歷史數(shù)據(jù),以便支持?jǐn)?shù)據(jù)的全時(shí)態(tài)查詢與分析。
針對科學(xué)數(shù)據(jù)的時(shí)間和空間特性,可以通過使用內(nèi)存或高速存儲(chǔ)設(shè)備實(shí)現(xiàn)內(nèi)外存協(xié)同存儲(chǔ),并結(jié)合科學(xué)數(shù)據(jù)的時(shí)空相關(guān)性進(jìn)行優(yōu)化。通過時(shí)空優(yōu)化的多級(jí)內(nèi)外存協(xié)同存儲(chǔ)與索引機(jī)制可以將不同時(shí)間段的數(shù)據(jù)合理存放以兼顧實(shí)時(shí)性和空間消耗,從而實(shí)現(xiàn)科學(xué)大數(shù)據(jù)快速持久化,圖4即為內(nèi)外存協(xié)同多級(jí)存儲(chǔ)架構(gòu)。
圖4 內(nèi)外存協(xié)同多級(jí)存儲(chǔ)架構(gòu)
通過事先存儲(chǔ)供聚集分析使用的粗粒度概要數(shù)據(jù),并使用精度感知存儲(chǔ)機(jī)制,在適當(dāng)放寬查詢的精度要求下訪問近似或者部分概要數(shù)據(jù)來給出可以接受的結(jié)果,以提高查詢分析性能。
4.2 運(yùn)行時(shí)系統(tǒng)自動(dòng)化配置
面向智能管理的科學(xué)查詢需要實(shí)時(shí)性約束(特別是針對短期歷史數(shù)據(jù)),由于觀測周期的限制,每次發(fā)起的查詢最好能在一次觀測周期內(nèi)完成,以確保查詢結(jié)果能夠用于下次數(shù)據(jù)處理,即查詢延遲要小于給定的時(shí)間限制[26]。
由于科學(xué)查詢是復(fù)雜多變的,對滿足實(shí)時(shí)性的系統(tǒng)資源的要求也是不同的,若系統(tǒng)資源配置不合理,會(huì)嚴(yán)重影響系統(tǒng)查詢的整體延遲。可以構(gòu)建增量性能模型的方式預(yù)測查詢延遲,運(yùn)行時(shí)特征可以包括查詢規(guī)模、查詢算子、系統(tǒng)配置、資源使用等。最終通過預(yù)測的延遲選擇合適任務(wù)配置與調(diào)優(yōu)方法,保證在盡可能滿足實(shí)時(shí)性的條件下資源消耗最小,最后快速實(shí)現(xiàn)新配置方案的部署。
5 總結(jié)與展望
科學(xué)數(shù)據(jù)進(jìn)入信息豐富的大數(shù)據(jù)時(shí)代,其具有多樣性和復(fù)雜性特點(diǎn),目前的大數(shù)據(jù)分析方法主要依賴于常規(guī)的標(biāo)準(zhǔn)數(shù)據(jù)類型,缺乏科學(xué)數(shù)據(jù)一體化分析體系。此外,科學(xué)數(shù)據(jù)的統(tǒng)一表達(dá)、建模、操作計(jì)算方法明顯欠缺,難以實(shí)現(xiàn)多維度、多尺度的科學(xué)數(shù)據(jù)知識(shí)融合與分析,使得科學(xué)家在科學(xué)事件驗(yàn)證時(shí)面臨效率低、耗時(shí)久的瓶頸。科學(xué)大數(shù)據(jù)的長期存儲(chǔ)和高效查詢也是目前科學(xué)發(fā)現(xiàn)工作面臨的重要問題。
要實(shí)現(xiàn)科學(xué)數(shù)據(jù)智能發(fā)現(xiàn)與管理由挑戰(zhàn)到機(jī)遇的華麗轉(zhuǎn)身,就需要提出新的發(fā)現(xiàn)與管理框架。本文從數(shù)據(jù)管理的角度提出科學(xué)數(shù)據(jù)發(fā)現(xiàn)與管理框架,將科學(xué)數(shù)據(jù)智能管理分解為智能分析、知識(shí)融合、數(shù)據(jù)存儲(chǔ)三個(gè)層面,為大規(guī)??茖W(xué)數(shù)據(jù)智能發(fā)現(xiàn)打開了新窗口,為科學(xué)領(lǐng)域的觀測和科學(xué)事件的發(fā)現(xiàn)提供了新思路。
可預(yù)見的未來,大科學(xué)裝置蓬勃發(fā)展,面向不同的科學(xué)目標(biāo)產(chǎn)生的科學(xué)數(shù)據(jù)形態(tài)各異,需要的分析技術(shù)也是不盡相同的,如果都從零開始構(gòu)造科學(xué)大數(shù)據(jù)分析系統(tǒng),不僅研發(fā)動(dòng)輒幾年,而且耗費(fèi)大量人力物力且不具備復(fù)用性。因此,對部件的復(fù)用顯得至關(guān)重要。事實(shí)上,建筑領(lǐng)域中北宋李誡的《營造法式》就提出了“凡構(gòu)屋之制,皆以材為祖”的理念,元件“材”為基礎(chǔ)的思想道出了中國古建筑的靈魂,即標(biāo)準(zhǔn)件、模數(shù)化和裝配式,實(shí)現(xiàn)了營造效率、成本和建筑美觀的內(nèi)在平衡,這是古代匠人的永恒智慧。對科學(xué)大數(shù)據(jù)來說,是否存在一種“營造法式”,通過建設(shè)科學(xué)計(jì)算元件庫,以實(shí)現(xiàn)大型復(fù)雜的科學(xué)分析系統(tǒng)能夠像古建筑般高效構(gòu)建且重復(fù)利用,“多快好省”地支持科學(xué)發(fā)現(xiàn),這就是值得思考的重要方向之一。
參 考 文 獻(xiàn)
[1] 黎建輝, 沈志宏, 孟小峰. 科學(xué)大數(shù)據(jù)管理:概念、技術(shù)與系統(tǒng). 計(jì)算機(jī)研究與發(fā)展, 2017, 54(2): 235—247.
[2] Ivezic Z, Kahn SM, Tyson JA, et al. LSST: from science drivers to reference design and anticipated data products. The Astrophysical Journal, 2019, 873(2): 44.
[3] Yang C, Meng XF, Du ZH. Cloud based Real-Time and low latency scientific event analysis. Big Data, 2018, 498—507.
[4] Yang C, Meng X, Du Z, et al. Data Management in time-domain astronomy: requirements and challenges. BigSDM, 2018, 32—43.
[5] 孟小峰, 慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn). 計(jì)算機(jī)研究與發(fā)展, 2013, 50 (1): 146—169.
[6] 楊晨, 翁祖建, 孟小峰, 等. 天文大數(shù)據(jù)挑戰(zhàn)與實(shí)時(shí)處理技術(shù). 計(jì)算機(jī)研究與發(fā)展, 2017, 54 (2): 248—257.
[7] 孟小峰, 杜治娟. 大數(shù)據(jù)融合研究:問題與挑戰(zhàn). 計(jì)算機(jī)研究與發(fā)展, 2016, 53 (2): 231—246.
[8] Wan M, Wu C, Wang J, et al. Column store for GWAC: a high-cadence, high-density, large-scale astronomical light curve pipeline and distributed shared-nothing database. Publications of the Astronomical Society of the Pacific, 2016, 128(969): 15.
[9] Medvedev D, Lemson G, Rippin M. SciServer compute: bringing analysis close to the data. Proceedings of the 2016 ACM International Conference on Scientific and Statistical Database Management, 2016, 27: 1—4.
[10] Chandola V, Banerjee A, Kumar V. Anomaly detection: a survey. ACM Computing Surveys, 2009, 41(3): 1—58.
[11] Malhotra P, Vig L, Shroff G, et al. Long short term memory networks for anomaly detection in time series. // European Symposium on Artificial Neural Networks, 2015.
[12] Movahedinia R, Chaharmir MR, Sebak AR, et al. Realization of large dielectric resonator antenna ESPAR. Ieee Transactions on Antennas and Propagation, 2017, 65(7): 3744—3749.
[13] Ding D, Zhang M, Pan X, et al. Modeling extreme events in time series prediction.// Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2019, 1114—1122.
[14] Feng TZ, Du ZH, Sun YK, et al. Real-time anomaly detection of short Time-Scale GWAC survey light curves.// IEEE 6th International Congress on Big Data, 2017, 224—231.
[15] Deelman E, Gannon D, Shields M, et al. Workflows and e-Science: an overview of workflow system features and capabilities, 2009, 25(5): 528—540.
[16] Zhang YF, Thorburn PJ, Xiang W, et al. SSIM-A deep learning approach for recovering missing time series sensor data. IEEE Internet of Things Journal, 2019, 6(4): 6618—6628.
[17] Arous I, Khayati M, Cudre-Mauroux P, et al. RecovDB: accurate and efficient missing blocks recovery for large time series.// 2019 IEEE 35th International Conference on Data Engineering, 2019, 1976—1979.
[18] Simmhan YL, Plale B, Gannon D. A survey of data provenance in e-science, 2005, 34(3): 31—36.
[19] Dong X, Gabrilovich E, Heitz G, et al. Knowledge vault: a web-scale approach to probabilistic knowledge fusion.// Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, 2014, 601—610.
[20] Dong XL, Srivastava D, Acm S. Knowledge curation and knowledge fusion: challenges, models, and applications// Proceedings of the 2015 Acm Sigmod International Conference on Management of Data, 2015, 2063—2066.
[21] 王雪鵬, 劉康, 何世柱, 等. 基于網(wǎng)絡(luò)語義標(biāo)簽的多源知識(shí)庫實(shí)體對齊算法. 計(jì)算機(jī)學(xué)報(bào), 2017, 40(3): 701—711.
[22] Kong C, Gao M, Xu C, et al. EnAli: entity alignment across multiple heterogeneous data sources. Frontiers of Computer Science, 2019, 13(1): 157—169.
[23] 王碩, 杜志娟, 孟小峰. 大規(guī)模知識(shí)圖譜補(bǔ)全技術(shù)的研究進(jìn)展. 中國科學(xué):信息科學(xué), 2020, 50(4): 551—575.
[24] Ren X, Wu ZQ, He WQ, et al. CoType: joint extraction of typed entities and relations with knowledge bases// Proceedings of the 26th International Conference on World Wide Web, 2017, 1015—1024.
[25] Doan A, Ardalan A, Ballard JR, et al. Human-in-the-Loop challenges for entity matching: a midterm report. ACM HILDA, 2017, 12:11—16.
[26] Wang CK, Meng XF, Guo Q, et al. Automating characterization deployment in distributed data stream management systems. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12): 2669—2681.
特別聲明:本文轉(zhuǎn)載僅僅是出于傳播信息的需要,并不意味著代表本網(wǎng)站觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性;如其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)站轉(zhuǎn)載使用,須保留本網(wǎng)站注明的“來源”,并自負(fù)版權(quán)等法律責(zé)任;作者如果不希望被轉(zhuǎn)載或者聯(lián)系轉(zhuǎn)載稿費(fèi)等事宜,請與我們接洽。