學界 | 斯坦福論文提出MoleculeNet:分子機器學習新基準

 2017-10-19 10:21:00.0

原標題:學界 | 斯坦福論文提出MoleculeNet:分子機器學習新基準

選自arXiv

參與:路雪、李澤南

分子機器學習快速發展,但是缺少用於對比不同方法性能的標準基準,算法進步因此受到限制。斯坦福的研究者提出一種適合分子機器學習的大型基準 MoleculeNet,並在 arXiv 上發佈論文。機器之心對該論文進行了編譯。

論文地址:https://arxiv.org/abs/1703.00564

過去幾年中,分子機器學習快速發展成熟。方法的改進和大型數據集的出現使得機器學習算法對分子特性的預測精度變高。但是,由於缺乏對比不同方法性能的標準基準,算法進步受到限制。大多數新算法以不同數據集爲基準,這使得評估方法的質量難度很高。本研究介紹了用於分子機器學習的大型基準 MoleculeNet。MoleculeNet 提供多個公共數據集、建立了評估度量,並提供之前提出的多個分子特徵化(molecular featurization)和學習算法的高質量開源實現(作爲 DeepChem 開源庫的一部分發布)。MoleculeNet 基準證明可學表徵是分子機器學習的強大工具,能夠廣泛提供最優性能。然而,仍然有一些需要注意的地方。可學表徵仍然需要在數據匱乏和分類嚴重不均衡的情況下處理複雜任務。對於量子力學和生物物理數據集來說,物理性特徵化的使用比特定學習算法更加重要。

方法

MoleculeNet 基於開源包 DeepChem。圖 1 展示了帶註釋的 DeepChem 基準腳本。注意數據分割、特徵化和可用模型的不同選擇。DeepChem 還可以直接提供 molnet 子模塊以支持基準測試。下面的命令行可以在指定數據集、模型和特徵器上運行基準測試,還支持能夠處理 DeepChem 數據集的用戶定義模型。

本文將進一步介紹基準系統、可用數據集和已實現的分割、度量、特徵化和學習方法。

圖 1:使用 DeepChem 進行基準評估的代碼示例,提供多種方法用於數據分割、特徵化和學習。

表 1:數據集細節:化合物和任務的數字、推薦的數據分割和度量。

圖 2:反映分子性質不同級別的不同數據集中的任務。

圖 3:MoleculeNet 中的數據分割。

圖 4:不同類別不均衡條件下,logistic 迴歸和圖卷積模型預測的受試者工作特徵(ROC)曲線和準確率-召回率曲線(PRC)。A、B:測試子集 ClinTox 中的「FDA APPROVED」任務;C、D:測試子集 SIDER 中的「Hepatobiliary disorders」任務;E、F:驗證子集 Tox21 的「NR-ER」任務;G、H:測試子集 HIV 的「HIV active」任務。黑色虛線代表隨機分類器的性能。

表 2:任務詳情和示例曲線的曲線下面積(AUC)的值。第二欄爲正樣本數量/負樣本數量。

圖 5:MoleculeNet 中的特徵化圖解。

圖 6:MoleculeNet 中實現的基於圖的模型的核心結構。目的在於爲中間的深綠色原子構建特徵:A 圖卷積模型(Graph Convolutional Model):特徵通過鄰近原子的連接進行更新;B 有向無環圖模型(Directed Acyclic Graph Model):所有連接直接圍繞中心原子,特徵通過直接連接從最遠的原子傳送到中心原子;C Weave Model:每對原子(包括不直接連接的成對原子)都可以組對,中心原子的特徵通過所有其他原子和相關的對進行更新,對特徵通過組對的兩個原子的連接進行更新;D 消息傳遞神經網絡(Message Passing Neural Network):鄰近原子的特徵輸入依賴連接類型的神經網絡,再輸出(消息)。中心原子的特徵通過輸出進行更新;E 深度張量神經網絡(Deep Tensor Neural Network):沒有明確的連接信息,特徵通過其他原子對應的物理距離進行更新;F ANI-1:特徵通過成對原子(徑向對稱函數)之間的距離信息和三個原子(角對稱函數,angular symmetry function)之間的角度信息構建而成。

表 3:(測試集)性能總結:傳統方法 VS. 基於圖的方法。基於圖的模型性能在 11/17 個數據集上優於傳統方法。

本文爲機器之心編譯,轉載請聯繫本公衆號獲得授權。

責任編輯:

文章來源:機器之心