最近,來自哈佛大學等機構的研究人員,開發出了一個AI「藥神」工具包,爲加速新冠疫情下的新葯研發助力。
這款名爲DeepPurpose的工具包,不僅包含COVID-19的生物測定數據集,還有56種前沿的AI模型。
作爲一個基於PyTorch的工具包,DeepPurpose只需要不到10行代碼,就能訓練出AI「藥神」模型。
這些模型不僅能完成虛擬篩選,還能挖掘出已有藥物的新功能(例如,高血壓藥物可治療阿爾茲海默症)。
下面來看看它實現的原理。
56種前沿模型,功能齊全
DeepPurpose由兩個編碼器組成,分別用來生成藥物分子和蛋白質的嵌入(Embedding),也就是深度學習過程中的映射。
隨後,將這兩個編碼器串聯到解碼器中,用於預測二者的結合親和力,如下圖所示。
在這期間,模型的輸入是藥物靶標對(drug-target pair),輸出則是指示藥物-靶對的結合活性的分數。
當然,DeepPurpose畢竟是一個工具包,所以無論是藥物分子、還是蛋白質,它們的編碼器都不止一種類型。
對於藥物分子,DeepPurpose提供了8種編碼器。
在這些編碼器中,有用於構造分子結構圖的、有將繪製的分子轉換成二進制數的、也有用於獲取序列順序信息的等……模型各有不同。
而對於靶蛋白,DeepPurpose也提供了7種編碼器,相較於藥物的化學和信息學, 編碼器對靶蛋白的轉換更多地側重於生物學信息。
也就是說,DeepPurpose一共能提供7*8=56種模型,其中許多模型非常新穎前沿,值得入手。
那麼,DeepPurpose究竟該怎麼上手呢?
10步以內,上手AI「藥神」
事實上,訓練一個新葯研發模型,需要通過以下幾個步驟,每一步都只需要用1行代碼實現,所有這些步驟加起來,也不超過10步。
來看看這個模型要經過的步驟:
1、數據加載
2、指定編碼器
3、分割數據集、編碼
4、生成模型配置文件
5、初始化模型
6、訓練模型
7、舊藥新用/虛擬篩選
8、模型保存/加載
其中,DeepPurpose最關鍵的兩個功能,舊藥新用和虛擬篩選可以在訓練後實現。可以看見,DeepPurpose會自動生成藥物的親和度,並由低到高進行排序。
這樣,就能快速縮小高通量分子的篩選範圍(如果親和度爲0,那真的不必考慮了)。
至於虛擬篩選,也是類似的工作,會生成一個與上圖相似的排名列表。
不僅如此,這個AI模型還包含另外幾種案例,例如SARS-CoV2 3CLPro的舊藥新用方法、預訓練模型等。
此外,針對近期引發關注的新冠疫情,DeepPurpose也包含了MIT收集的COVID-19開源數據集。
針對這些數據,工具包中有相應的函數,可以直接引用。
而這個工具包的框架,正是基於藥物研發的原理製作的。
靶蛋白:藥物作用對象
藥物篩選最根本的原理,通常是判斷藥物分子與靶蛋白(藥物作用的目標)的親和性。
爲什麼是蛋白質?
事實上,這是因爲部分疾病(例如癌症、腫瘤)產生的原因,通常與某一類蛋白質有關,如果能找到、並用藥物「調節」這種蛋白質,就能治癒疾病。
△ 圖片來源於flickr
例如,細胞與細胞之間的交流,依靠的就是細胞膜上的糖蛋白。而某種疾病發生的原因,可能就是因爲一類細胞上的糖蛋白過度表達。
而這個糖蛋白,就被稱之爲疾病過程中的靶蛋白。
但能用來調節某種靶蛋白的藥物,並不好找,畢竟不是每種化合物都能很好地與靶蛋白「貼貼」。
在這樣的基礎上,研究人員開發了DeepPurpose,這個工具包能用於預測藥物分子與靶蛋白的親和度,專業學術名詞叫藥物-靶標相互作用(Drug-Target Interaction, DTI),簡稱DTI。
之所以選擇用AI助力新葯研發,也有其背後的原因。
AI助新葯研發一臂之力
事實上,藥廠研發出一種新葯,需要15年左右,甚至更久。
而在這期間,光是研究開發的階段,就要花掉2-10年。
研究開發的階段,目的是篩選出有治療潛力的新化合物,也就是說,每一種化合物都需要做實驗,去不斷試錯。
這一過程不僅枯燥無味,而且工程量巨大,人力財力都得砸。
如果用AI完成藥物篩選這一過程,對於新葯研發的加速將會起到不小的作用。
作者介紹
論文的第一作者黃柯鑫,本科於紐約大學獲得數學和計算機雙學位,目前在哈佛大學讀碩士,專業與醫療大數據有關。
黃柯鑫的研究方向,主要是圖神經網絡(GNN)在新葯研發和醫療文本(如電子病歷等)上的應用。
此外,Tianfan Fu、Lucas Glass、Marinka Zitnik、Cao Xiao和Jimeng Sun也共同參與了研究工作。
傳送門
論文鏈接:
https://arxiv.org/abs/2004.08919
項目鏈接:
https://github.com/kexinhuang12345/DeepPurpose
黃柯鑫主頁:
https://www.kexinhuang.com/
—完—
@量子位 · 追蹤AI技術和產品新動態