新四季網

基於分子描述符穩定性的分子描述符選擇方法

2024-01-22 17:24:15 3

基於分子描述符穩定性的分子描述符選擇方法
【專利摘要】一種基於分子描述符穩定性的分子描述符選擇方法,其過程是:計算出各種不同的化合物分子結構描述符;在原描述符矩陣中擴增一個與其大小相同的非常小幅度的隨機變量矩陣後形成一個新的矩陣,利用留一法交叉驗證得到回歸係數矩陣,求算每個描述符對應的回歸係數的平均值和標準偏差值;計算每個描述符在不同 r 值時的修正的變量穩定性;建立最優的化合物生物活性預測模型。該選擇方法可以將信息化的描述符和無意義的描述符顯著區分開來,利用這些較少個數的信息化描述符建立的預測模型的預測誤差遠小於UVE-PLS方法;能夠提取出重要的分子結構描述符,提高預測模型質量。
【專利說明】基於分子描述符穩定性的分子描述符選擇方法

【技術領域】
[0001] 本發明屬於化學計量【技術領域】,設及一種化合物的分子描述符,尤其設及一種基 於分子描述符穩定性的分子描述符選擇方法。

【背景技術】
[0002] 化合物的生物活性巧日鳴。,/備等)與其分子結構是緊密相關的。定量構效關 系(Quantitative structure-activity relationship, QSAR)致力於研究化合物的分子 結構與其生物活性之間的相關關係。該方法通過描述化合物分子結構的分子結構描述符建 立化合物生物活性的有效預測模型。
[0003] 許多種類的化合物分子結構描述符已經被提出用於描述化合物的結構信息。該些 化合物分子結構描述符從各個不同的角度儘可能詳盡地描述分子的結構特徵。把該些分子 結構描述符作為訓練數據,可W利用偏最小二乘(partial least squares, PLS)建模方 法建立預測模型,預測化合物的生物活性,並指導藥物設計和合成。
[0004] 目前用於描述化合物分子結構的描述符已有數千種,如果將它們全部用來建立預 測模型,會導致建模所用的變量(描述符)數據過多,從而嚴重影響預測模型的質量。通過從 大量描述符中選擇出來的信息化的描述符,可W建立高效的預測模型。
[0005] 無信息變量消除方法(uninformative vari油le elimination-PLS, UVE-PLS)是 一種有效的變量消除方法,已被成功應用於連續檢測信號的有信息變量提取。該方法採用 變量穩定性來評價模型中每個變量的重要性,穩定性小於切斷闊值的變量被認為是無信息 的變量。為了得到切斷闊值,UVE-PLS在原變量矩陣中擴增一個與原矩陣大小相同的非常 小幅度(1〇 45)的隨機變量矩陣,從而形成一個新的矩陣,並通過留一法交叉驗證產生新 矩陣的回歸係數矩陣。留一法交叉驗證是每次依次從矩陣中刪去一行後建立模型求取化S 回歸係數的方法。變量(描述符)穩定性(vari油le St油ility, V巧被定義為該描述符的 所有係數的平均值和標準偏差(standard deviation, STD)的比率。切斷闊值是擴增的 隨機變量矩陣的最大絕對穩定值。穩定性小於該切斷闊值的描述符將從模型中刪除。
[0006] 但是化合物分子結構描述符作為非連續的化合物結構信息,如果直接將它們作為 變量並利用UVE-PLS提取信息化的分子結構描述符,很容易提取出一些不重要的分子結構 描述符,該些描述符不會提高甚至嚴重降低預測模型質量。


【發明內容】

[0007] 本發明的目的是提供一種基於分子描述符穩定性的分子描述符選擇方法,提取重 要的分子結構描述符,提高預測模型質量。
[000引為實現上述目的,本發明所採用的技術方案是;一種基於分子描述符穩定性的分 子描述符選擇方法,對分子描述符穩定性中的標準偏差項進行了修正,從而根據修正的穩 定性正確選擇分子描述符,該選擇方法具體按W下步驟進行: 1)通過化合物的分子結構計算出各種不同的化合物分子結構描述符; 2) 在原描述符矩陣中擴增一個與其大小相同的非常小幅度acris)的隨機變量矩陣 後形成一個新的矩陣,利用留一法交叉驗證得到回歸係數矩陣公,求算每個描述符對應的 回歸係數的平均值和標準偏差值; 3) 按下式計算每個描述符在不同HI時的修正的變量穩定性:

【權利要求】
1. 一種基於分子描述符穩定性的分子描述符選擇方法,其特徵在於,對分子描述符穩 定性中的標準偏差項進行了修正,從而根據修正的穩定性正確選擇分子描述符,該選擇方 法具體按以下步驟進行: 1) 通過化合物的分子結構計算出各種不同的化合物分子結構描述符; 2) 在原描述符矩陣中擴增一個與其大小相同的非常小幅度(KT15)的隨機變量矩陣 後形成一個新的矩陣,利用留一法交叉驗證得到回歸係數矩陣0,求算每個描述符對應的 回歸係數的平均值和標準偏差值; 3) 按下式計算每個描述符在不同W直時的修正的變量穩定性:
式中和分別是第j個描述符的回歸係數的平均值和標準偏差; 4) 在每一個W直時,所有的描述符根據其修正的變量穩定性以降序排列,然後,通過按 照描述符的排列順序每次在模型中增加一個描述符變量的方法建立一系列的模型;產生校 正的最小均方根誤差的模型是該W直時被選擇的模型;RMSE值通過下式計算得到:
(2)式中,和£分別是實測值和預測值,/7是化合物分子數目。
2. 根據權利要求1所述的基於分子描述符穩定性的分子描述符選擇方法,其特徵在 於,所述步驟2)中非常小幅度的隨機變量矩陣的幅度是1(T15。
【文檔編號】G06F19/16GK104504300SQ201410745026
【公開日】2015年4月8日 申請日期:2014年12月9日 優先權日:2014年12月9日
【發明者】陳晶, 王世霞, 邵學廣 申請人:西北師範大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀