大咖介紹:(從左往右)
宋家雨,Dostor存儲在線總編輯
謝長生,華中科技大學武漢光電國家研究中心教授
曾文君,深圳國家基因庫生物信息數據庫主任
孫 斌,浪潮存儲產品線副總經理
正文:
近日,在DOIT存儲峰會上,浪潮存儲產品線副總經理孫斌、華中科技大學武漢光電國家研究中心教授謝長生、深圳國家基因庫生物信息數據庫主任曾文君,共同就基因研究帶來的數據存儲挑戰接受了媒體采訪。
基因庫建設對于社會發展具有重要意義,而基因庫的背后承載的是海量的數據存儲。2019年是國家基因庫建成的第3周年,現已具備88PB數據存儲能力、691萬億次/秒計算能力。截至目前,國家基因庫支持著國內外600多個項目,那么在技術上如何同時滿足這些業務的需要?基因庫數據有哪些不同的特征?基因數據在數據存儲、數據保護和數據遷移上面臨著哪些技術挑戰?讓我們聽聽大咖的解答。
宋家雨:基因是一個特別熱的話題,它使人類在消病延年的路上不斷向前推進,在生命科學基因研究領域,有什么樣的應用?對存儲提出怎樣的需求和挑戰?
深圳國際基因庫生物信息數據庫主任 曾文君
曾文君:BT(生物技術)的發展拉著IT在走,在生命科學領域,有個詞叫“超存”,因為對存儲的要求非常巨大,遠超對算力的要求。
一個人的基因組,它的原始大小大概是3個GB左右,包含了30億個堿基,由A、T、C、G四個堿基對組成的。在全基因測序過程中,為了保證基因數據的完整性,需要平行測序30次,當最終測序完成后,全基因組數據將達到大概100GB左右,只僅僅是一個單體,可想而知在廣泛的人口中,這是一個非常龐大的數據量。
整個基因分析研究,分為基因測序、基因數據分析和基因數據歸檔三個階段。其一,基因測序的整個過程是不允許被中斷的,這就要求支撐測序應用的存儲系統,具備極致的穩定性和可靠性;另外,基因測序25微秒采集一幅高清晰圖像,對性能要求也超過了現有閃存固態盤的最高帶寬,必須采用更快的傲騰固態盤;其二,基因數據分析工作中,對存儲系統的性能、小文件處理能力提出很高要求;其三,在數據歸檔階段,需要將海量基因數據長期、完整、安全的保存起來,存儲系統的采購成本、能耗,是一個很大的挑戰。
總的來說,BT(生物技術)的發展拉著IT在走,數據怎么存、怎么算、怎么長期保存,對IT來說,尤其存儲來說,是個非常巨大的挑戰。我們知道“超算”,它是對算力的要求,但是在生命科學領域,有個詞叫“超存”,因為對存儲的要求非常巨大,遠超對算力的要求。
宋家雨:生命科學基因研究背后,面臨著海量數據存儲和應用的挑戰,學術界有哪些新的存儲技術趨勢?
華中科技大學武漢光電國家研究中心教授 謝長生
謝長生:“數據如何存儲100年,是個具有挑戰性的問題,特別是基因分析研究這種需要長期存儲的應用。全息存儲、玻璃存儲、突破光學的超衍……這些技術,非常值得我們加快速度去研究?!?/p>
計算機和數據專家提出如何避免數字黑暗時代的命題,是指隨著IT硬件的失效和軟件的過時,很多數字信息在未來可能因為機器和軟件程序無法讀取而丟失?!皵祿绾未鎯?00年”,是個具有挑戰性的問題。正如現在的基因數據,理論上說應該是永遠保存下去的。
針對這一命題,有三種主流的未來技術。
首先,最接近產品化的是全息存儲技術。用這種技術可以保存50年。全息存儲解決了光盤介質容量小、密度低的問題,目前全息存儲技術已經可以做到單張光盤存儲1.5TB容量,再往后發展,目標是8TB,這樣就解決了存儲容量的問題。
其次,玻璃盤技術。5微米可以記一層,2毫米可以記幾百層,所以理論上它的容量可以做到很大,一張盤可以存300TB,而且玻璃是很穩定的介質,可以永久保存。
再次,突破光學衍射極限的超分辨光存儲技術。該技術用雙光束的方法突破了光學衍射物理極限,將光點縮小到現在的1%。這個技術上已經實現了,比現在光盤面密度提高了100倍,它還可以多層,實現幾個數量級的提高。
這些技術,非常值得我們加快速度去研究,因為存儲的需求在那里,特別是基因分析研究這種需要長期存儲的應用,在測序時要求存儲高性能、高可靠,長期保存時,要求存儲大容量、高性價比,所以面對這些挑戰,我們有技術正在應對,但是這需要時間的等待。
宋家雨:面對生命科學領域的海量數據存儲和應用需求,浪潮擁有完善的存儲產品線,既有分布式存儲也有集中式存儲,客戶到底該如何選擇?
浪潮存儲產品線副總經理 孫斌
孫斌:到底是使用分布式架構還是集中式架構,往往是由客戶的應用類型、應用環境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據種種需求給出最適合業務應用的解決方案。
我們稱2019年是新數據時代元年,在新數據時代,需要有與之對應的新存儲之道,浪潮會針對不同行業、不同領域和不同客戶應用梳理我們的存儲解決方案。而生命科學領域,是浪潮非??粗氐念I域,目前我們的客戶包括生命科學研究系統、芯片研究企業、高校等等。
我們發現生命科學領域所使用的存儲的架構,多數是分布式存儲,但還有一部分是集中式存儲架構。到底是使用分布式架構還是集中式架構,往往是由客戶的應用類型、應用環境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據種種需求給出最適合業務應用的解決方案。
Dostor存儲在線總編輯 宋家雨
在新數據時代下,商業、技術、應用、需求等等都在發展和演變,是Scale-up還是Scale-out,沒有一個標準答案存在,關鍵是在于我們要時刻地關注最新的存儲技術發展,然后結合最新應用需要,把存儲能力運用到最好,這就是新存儲之道。
歡迎掃描下方二維碼,觀看完整視頻: