在科技領域,跨界、融合帶來的新生事物具備的顛覆性競爭,而只是技術和經(jīng)濟層面的競爭。
而在病毒領域,跨界、融合產(chǎn)生的新病毒往往意味著災難。一個天上飛的鳥落下的糞便不小心與地上某個禽類的食物結(jié)合被這個禽類所食,那么其上可能帶來的病毒與禽類體內(nèi)病毒進行雜交進化一個新的病毒。而這個病毒獲得跨界傳播的能力,將對整個人類造成大的災難。最快速的了解新的病毒帶來的病例成因早日實現(xiàn)對癥下藥,成為打贏“抗疫”的關鍵。今天AI等新技術在積極發(fā)揮著作用。
目前新型冠狀病毒疫情進入了攻堅戰(zhàn)階段。除了一線醫(yī)務人員前赴后繼的戰(zhàn)斗之外,對于新冠病毒的疫苗研發(fā)和藥物篩中也在爭分奪秒的進行中。此次“抗疫”戰(zhàn)爭中,AI等科技技術在默默貢獻中。關注抗擊疫情中的科技公司的動向,就會發(fā)現(xiàn)包括阿里云、華為云、中科曙光、騰訊云、上海超算中心等積極主動并免費提供超算能力,AI算法來助力開展抗新冠病毒的疫苗研發(fā)和藥物篩選中。
要最快解決此次新型冠狀病毒疫情,目前來看除了全國動員在家“悶”死病毒之外,對于從早期對病毒基因組的數(shù)據(jù)分析及AI建模到如何對疑似患者的快速、精準臨床診斷,以及抗新冠病毒的疫苗研發(fā)和藥物篩選中也需要和時間賽跑。在其中AI正在發(fā)揮其作用。
AI技術能夠加速“疫情”中數(shù)據(jù)分析
AI作為一種工具,有三要素在支撐,算力、算法和數(shù)據(jù)。基于三個特點,目前AI等科技公司都是提供具備高性能、高可靠性、高性價比的計算、存儲、分析和AI能力支持的,能夠讓科研過程固化可執(zhí)行,提高效率的工具。
而讓AI在疾病基因的分析和診斷中發(fā)揮。首先要依靠醫(yī)學界的專家發(fā)現(xiàn)病毒。就像上海華山醫(yī)院張文宏就談到醫(yī)療專家要“要非常準確的知道現(xiàn)在搜索的病毒是什么,才能相應的病毒做相應的抗病毒治療。”
我們應讓人工智能與病理學家形成互補,提高人工診斷的效率與可靠度。依靠科技手段 “面對未知的病毒的時候,通過把其基因序列全部打碎,通過深度測序的平臺,把所有的序列全部恢復,然后通大數(shù)據(jù)開始拼接,通過組裝序列,經(jīng)過大數(shù)據(jù)分析,分析出其演化關系,通過數(shù)據(jù)庫記錄分析獲得遺傳標志,來最終告訴你這是什么病毒?!?張文宏站在醫(yī)生的角度言簡意賅的闡述了AI的作用。
比如針對此次新冠病毒,AI等新技術的應用一個核心的作用就是讓醫(yī)學專家們不用把大量的時間放在海量的數(shù)據(jù)分析上,而是能夠?qū)⒆约旱臅r間、精力以及醫(yī)學經(jīng)驗投入到應對傳染病風險之上。把數(shù)據(jù)分析、重復的信息的收集等任務,交給AI來處理。
目前集成了AI功能的基因組測序平臺能夠提供從基因組數(shù)據(jù)管理、生物信息分析流程、科研分析管理到知識圖譜整個流程的服務,快速實現(xiàn)基因組數(shù)據(jù)分析及AI建模,讓基因組分析更便捷。
比如將深度學習算法及藥物分析服務融入藥物研發(fā)過程,令藥企能更快速高效地完成藥物研發(fā),節(jié)約研發(fā)成本,讓研發(fā)更快速。
具備醫(yī)療影像標注、影像分析服務及AI模型預測服務,全方位滿足醫(yī)療影像研發(fā)需求,讓影像分析更方便。很大程度上幫助了醫(yī)生提高閱片效率、減少漏診誤診的情況。一個醫(yī)生可能一天看一百個病人,一個月看了兩千個病人,一年可能看幾萬個病人,他通過這樣的方式去累計經(jīng)驗。一個15年經(jīng)驗的醫(yī)生,和一個剛出來做3個月的醫(yī)生,他們兩個的經(jīng)驗不同,在對一些影像圖片上面的判斷就不是一樣的級別。
深度學習會提取圖像特征。然后影像專家先把上面做一個標注,等到標注有更大的樣本的時候,就可以做到輔助醫(yī)學診斷。比如通過AI對疑似患者肺部CT影像進行病灶的自動檢出、定位、彌漫性程度的多維分析并生成自動報告,幫助醫(yī)護人員快速篩查疑似新冠病例并進行隔離與進一步確診,從而減少交叉感染的風險,同時產(chǎn)品的隨訪功能還可幫助醫(yī)生對患者的治療效果進行精準量化評估,用AI為一線醫(yī)務工作者提供有跡可循、有據(jù)可依的智能輔助。
聯(lián)合科研成為AI技術應用在疾病領域的主要形式
在整個“抗疫”過程中,包括分離毒株、藥物篩選、意思病例檢測、新藥研發(fā)等需要基于AI技術進行大量的數(shù)據(jù)分析。目前科技公司在病毒基因組計算分析、抗病毒藥物研發(fā)和抗疫醫(yī)療影像分析領域,將提供海量AI算力和算法的強有力支持。這就需要具有強大的CPU及GPU算力調(diào)度能力,能夠為基因測序、醫(yī)療工程提供穩(wěn)定高效的算力支持的平臺。
最近關于“抗疫”的戰(zhàn)役中,我們看到科技公司聯(lián)合醫(yī)療機構、科研機構成為最高效的一種模式。比如華中科技大學同濟醫(yī)學院基礎醫(yī)學院、華中科技大學同濟醫(yī)學院附屬武漢兒童醫(yī)院、西安交通大學第一附屬醫(yī)院、中科院北京基因組研究所、華為云聯(lián)合科研團隊宣布,篩選出五種可能對2019新型冠狀病毒(2019-nCoV)有效的抗病毒藥物。
其中華為云EI醫(yī)療智能體平臺(EIHealth)集成了醫(yī)藥領域眾多算法、工具、AI模型和自動化流水線提供大規(guī)模計算機輔助。
在幾位教授的指導下,針對數(shù)十個靶向蛋白和上億小分子化合物,通過醫(yī)療智能體平臺完成了蛋白質(zhì)同源模建,分子動力學模擬計算,和大規(guī)模虛擬藥物篩選,短時間內(nèi)完成了上千萬次的模擬計算,讓以往耗時數(shù)月的計算機輔助藥物篩選在數(shù)小時內(nèi)完成。
比如在新冠肺炎疫情上,疑似患者的快速、精準臨床診斷仍是挑戰(zhàn)。2月1日,由浙江省疾控中心、阿里達摩院和杰毅生物聯(lián)合研發(fā)上線的自動化全基因組檢測分析平臺,讓原來數(shù)小時的疑似病例基因分析縮短至半小時。重點在“全基因組”這幾個字,全基因組以為著海量的基因數(shù)據(jù),需要對平臺的算力、AI算法、數(shù)據(jù)處理和分更高的要求。阿里達摩院創(chuàng)新的采用分布式設計的分析算法,并基于蛋白質(zhì)數(shù)據(jù)庫(PDB)等公共數(shù)據(jù)集的數(shù)據(jù)進行算法的優(yōu)化訓練。這樣的AI突破,對于有效提升疑似病例確診效率,及時阻斷病毒的傳播,必然會有極大助益。
我們也看到為助力研究機構加速新藥篩查和疫苗研發(fā),騰訊云組建了應急工作小組,免費開放云超算等能力。目前,已向中山大學藥學院羅海彬教授團隊提供了批量GPU云服務器免費使用權,幫助該團隊推進病毒藥物的篩選工作;向北京生命科學研究所/清華大學生物醫(yī)學交叉研究院的黃牛教授實驗室提供了大量標準的CPU算力以及對象儲存能力,幫助他們進行基于結(jié)構的藥物分子設計的離線計算任務。
與此同時,基于新型冠狀病毒靶標結(jié)構的化合物虛擬篩選工作正在北京生命科學研究所/清華大學生物醫(yī)學交叉研究院黃牛教授實驗室推進。從原理上講,藥物通過與體內(nèi)的生物靶標相互作用而發(fā)揮藥效,若能夠根據(jù)藥物靶標結(jié)構來計算篩選和設計小分子配體,將可大大降低創(chuàng)新藥前期研發(fā)的成本與周期。針對新型冠狀病毒的多個靶點,黃牛教授實驗室通過騰訊云秒級交付的海量高性能計算、存儲資源,快速計算篩選數(shù)億級別的化合物數(shù)據(jù)庫,結(jié)合實驗驗證,來尋找新型結(jié)構類型的先導化合物,為下一步新藥研發(fā)工作提供依據(jù)。
總結(jié),AI對于基因組的分析和診斷,有幾個關鍵點。首先數(shù)據(jù)庫的檢索功能,在獲取到病毒基因信息后,通常需要與已知數(shù)據(jù)庫的基因組匹配來找出可能存在的突變。而突變與疾病的對應關系的判斷大部分依靠海量的數(shù)據(jù)庫資源,因此如果人工來完成這些工作是不現(xiàn)實的,這個時候便體現(xiàn)出了人工智能的價值。
其次算法的優(yōu)化,我們看到包括華為云、阿里達摩院都是采用了最新的AI算法和分布式數(shù)據(jù)庫,來優(yōu)化人工智能的技術路徑,能夠更有效的對大量非結(jié)構化數(shù)據(jù)進行學習和整合,挖掘并計算其中的關聯(lián)??s短人工智能可以持續(xù)不斷的挖掘并更新突變位點和疾病的潛在聯(lián)系。
再次海量的數(shù)據(jù)喂養(yǎng),與在Google AI實踐中曾有關于診斷乳腺癌的人工智能的報道。它只需幾秒鐘,就能取得比人類醫(yī)生花上幾十個小時還要準確的診斷。在基于醫(yī)學圖像的診斷上,結(jié)合人工智能的效率可以說是大大增加了癌病的診斷。這需要基于大量患者的成百上千張醫(yī)療影像,基于深度學習算法的訓練。經(jīng)歷了大量迭代訓練后,實現(xiàn)算法的精準度越來越高,實現(xiàn)在疾病分析豐富臨床經(jīng)驗的專家的診斷結(jié)果與AI工具的診斷結(jié)果是否一致來判斷AI分析的價值。
除此之外,業(yè)內(nèi)專家對至頂網(wǎng)表示目前基于“深度學習”的AI技術要發(fā)揮作用,一個好的云數(shù)據(jù)庫其實是非常關鍵的一個點,因為如果醫(yī)院里面每個科室的數(shù)字是零散的,那么很難做這個工作?;谠茢?shù)據(jù)庫,不管是從公有云還是從私有云,幫助醫(yī)院把這些數(shù)據(jù)規(guī)范起來。從數(shù)據(jù)的采集,到它的存儲,到預處理,形成一套規(guī)范的AI服務。這樣的話,數(shù)據(jù)即使在有些單位是分散的,需要的時候還是可以復合起來使用。
同時在深度學習的技術上面,對這些數(shù)據(jù)做訓練的時候,不僅僅是把數(shù)據(jù)丟到深度學習里面去訓練就好了,而且我們還要對這些數(shù)據(jù)做一些特征提取。我們把數(shù)據(jù)的維度降低了以后,再去訓練就可以得到一個相對比較好的效果。當然,這個數(shù)據(jù)積累以后,越來越多的數(shù)據(jù)積累以后,準確率會越來越高。
最后,醫(yī)療過程是一個復雜,周期長的過程,AI輔助只是其中一個環(huán)節(jié),我們希望能夠通過AI等科技技術幫助到醫(yī)藥領域的專家,加速疾病基因檢測和相關藥物研發(fā)過程。