基於分子描述符穩定性的分子描述符選擇方法
2024-01-22 17:24:15 3
基於分子描述符穩定性的分子描述符選擇方法
【專利摘要】一種基於分子描述符穩定性的分子描述符選擇方法,其過程是:計算出各種不同的化合物分子結構描述符;在原描述符矩陣中擴增一個與其大小相同的非常小幅度的隨機變量矩陣後形成一個新的矩陣,利用留一法交叉驗證得到回歸係數矩陣,求算每個描述符對應的回歸係數的平均值和標準偏差值;計算每個描述符在不同 r 值時的修正的變量穩定性;建立最優的化合物生物活性預測模型。該選擇方法可以將信息化的描述符和無意義的描述符顯著區分開來,利用這些較少個數的信息化描述符建立的預測模型的預測誤差遠小於UVE-PLS方法;能夠提取出重要的分子結構描述符,提高預測模型質量。
【專利說明】基於分子描述符穩定性的分子描述符選擇方法
【技術領域】
[0001] 本發明屬於化學計量【技術領域】,設及一種化合物的分子描述符,尤其設及一種基 於分子描述符穩定性的分子描述符選擇方法。
【背景技術】
[0002] 化合物的生物活性巧日鳴。,/備等)與其分子結構是緊密相關的。定量構效關 系(Quantitative structure-activity relationship, QSAR)致力於研究化合物的分子 結構與其生物活性之間的相關關係。該方法通過描述化合物分子結構的分子結構描述符建 立化合物生物活性的有效預測模型。
[0003] 許多種類的化合物分子結構描述符已經被提出用於描述化合物的結構信息。該些 化合物分子結構描述符從各個不同的角度儘可能詳盡地描述分子的結構特徵。把該些分子 結構描述符作為訓練數據,可W利用偏最小二乘(partial least squares, PLS)建模方 法建立預測模型,預測化合物的生物活性,並指導藥物設計和合成。
[0004] 目前用於描述化合物分子結構的描述符已有數千種,如果將它們全部用來建立預 測模型,會導致建模所用的變量(描述符)數據過多,從而嚴重影響預測模型的質量。通過從 大量描述符中選擇出來的信息化的描述符,可W建立高效的預測模型。
[0005] 無信息變量消除方法(uninformative vari油le elimination-PLS, UVE-PLS)是 一種有效的變量消除方法,已被成功應用於連續檢測信號的有信息變量提取。該方法採用 變量穩定性來評價模型中每個變量的重要性,穩定性小於切斷闊值的變量被認為是無信息 的變量。為了得到切斷闊值,UVE-PLS在原變量矩陣中擴增一個與原矩陣大小相同的非常 小幅度(1〇 45)的隨機變量矩陣,從而形成一個新的矩陣,並通過留一法交叉驗證產生新 矩陣的回歸係數矩陣。留一法交叉驗證是每次依次從矩陣中刪去一行後建立模型求取化S 回歸係數的方法。變量(描述符)穩定性(vari油le St油ility, V巧被定義為該描述符的 所有係數的平均值和標準偏差(standard deviation, STD)的比率。切斷闊值是擴增的 隨機變量矩陣的最大絕對穩定值。穩定性小於該切斷闊值的描述符將從模型中刪除。
[0006] 但是化合物分子結構描述符作為非連續的化合物結構信息,如果直接將它們作為 變量並利用UVE-PLS提取信息化的分子結構描述符,很容易提取出一些不重要的分子結構 描述符,該些描述符不會提高甚至嚴重降低預測模型質量。
【發明內容】
[0007] 本發明的目的是提供一種基於分子描述符穩定性的分子描述符選擇方法,提取重 要的分子結構描述符,提高預測模型質量。
[000引為實現上述目的,本發明所採用的技術方案是;一種基於分子描述符穩定性的分 子描述符選擇方法,對分子描述符穩定性中的標準偏差項進行了修正,從而根據修正的穩 定性正確選擇分子描述符,該選擇方法具體按W下步驟進行: 1)通過化合物的分子結構計算出各種不同的化合物分子結構描述符; 2) 在原描述符矩陣中擴增一個與其大小相同的非常小幅度acris)的隨機變量矩陣 後形成一個新的矩陣,利用留一法交叉驗證得到回歸係數矩陣公,求算每個描述符對應的 回歸係數的平均值和標準偏差值; 3) 按下式計算每個描述符在不同HI時的修正的變量穩定性:
【權利要求】
1. 一種基於分子描述符穩定性的分子描述符選擇方法,其特徵在於,對分子描述符穩 定性中的標準偏差項進行了修正,從而根據修正的穩定性正確選擇分子描述符,該選擇方 法具體按以下步驟進行: 1) 通過化合物的分子結構計算出各種不同的化合物分子結構描述符; 2) 在原描述符矩陣中擴增一個與其大小相同的非常小幅度(KT15)的隨機變量矩陣 後形成一個新的矩陣,利用留一法交叉驗證得到回歸係數矩陣0,求算每個描述符對應的 回歸係數的平均值和標準偏差值; 3) 按下式計算每個描述符在不同W直時的修正的變量穩定性:
式中和分別是第j個描述符的回歸係數的平均值和標準偏差; 4) 在每一個W直時,所有的描述符根據其修正的變量穩定性以降序排列,然後,通過按 照描述符的排列順序每次在模型中增加一個描述符變量的方法建立一系列的模型;產生校 正的最小均方根誤差的模型是該W直時被選擇的模型;RMSE值通過下式計算得到:
(2)式中,和£分別是實測值和預測值,/7是化合物分子數目。
2. 根據權利要求1所述的基於分子描述符穩定性的分子描述符選擇方法,其特徵在 於,所述步驟2)中非常小幅度的隨機變量矩陣的幅度是1(T15。
【文檔編號】G06F19/16GK104504300SQ201410745026
【公開日】2015年4月8日 申請日期:2014年12月9日 優先權日:2014年12月9日
【發明者】陳晶, 王世霞, 邵學廣 申請人:西北師範大學