新四季網

基於分子標籤的集合的生物標誌物的製作方法

2023-09-20 06:27:25 1

專利名稱:基於分子標籤的集合的生物標誌物的製作方法
技術領域:
本發明總體涉及生物信息學領域。更具體而言,本發明涉及一種用於基於對生物學數據的多個標籤進行排序來形成新型(novel)的生物學數據標籤的方法。本發明還涉及一種用於對多個分子標籤進行比較的裝置、一種形成新型的標籤的裝置、一種電腦程式產品以及所述方法和裝置的使用。
背景技術:
已經知道,對生物樣本的高吞吐量的分子分布分析得到了用於將樣本劃分成具體的類別的標籤。這樣的群組可以是健康狀況診斷(正常或疾病)、病程(侵襲性的或非侵襲性的)或治療選擇(藥物響應)。分子標籤就是標籤的例子。諸如分子標籤的標籤通常是通過臨床研究發現並加以驗證的,但是已經證實在解釋相同的臨床問題時這樣的標籤的內容也存在很大的易變性。這主要是由於可用於分析的數據的本質導致的——高吞吐量測量所提供的特徵有幾萬乃至幾十萬個,而測量點(樣本)的數量則為幾百個。如果特徵的數量和樣本的數量存在幾個數量級的差異,那麼其又被稱為維數(dimensionality)的制約(curse)。此外,即使在同一臨床研究和同一發現方法的背景下,情況也往往是,在參數的選擇存在易變性或者採用不同的隨機化方式的情況下重複完全相同的流程將導致儘管類似但是不同的標籤。本領域內的快速發展產生了很多將患者劃分到具體的類別中的標籤。這一數據往往不連貫,而且多變,因為沒有具體的標準存在。生物系統的複雜性質以及對其進行研究的方式也使得對不同來源的基因組身份的集合進行比較存在困難。因而,一種改進的生物學數據分析方法將是有利的,尤其是能夠增加靈活性、成本效率、速度和/或分析精確度的方法將是有利的。

發明內容
因此,本發明尋求以單獨或組合的方式緩和、減輕或消除一個或多個上文給出的本領域的缺陷和不利因素。這一目的是通過提供根據隨附獨立權利要求的用於對生物學數據的多個標籤進行分組的方法、裝置、電腦程式產品和使用來實現的。根據本發明的一般解決方案是實現對具有相同預測值的多個標籤的測量。根據本發明的第一方面,提供了一種基於對生物學數據的多個標籤的集合進行分析來形成包括若干特徵(F = (F1,F2, -,FJ)的生物學數據的新型標籤的方法。所述方法包括通過對生物學數據運行N次特徵子集選擇算法來獲得生物學數據的多個標籤的集合的步驟。對於若干次運行({巧,巧,···,&})中的每次運行(ri)而言,所述方法還包括下述步驟形成具有尺寸(FXF)的第一矩陣(Mi),其中,在運行巧中所述第一矩陣(Mi)的每個矩陣元(i,j)基於每個對應的特徵對(FiFi)受分析標籤中的共同出現來量化所述特徵對; 以及形成具有尺寸(FXN)的第二矩陣(T),其中,所述第二矩陣(T)的每個元(T(u))被分配以對應的第一矩陣(Mi)的對應行(Fi)的和。此外,所述方法還包括形成具有尺寸(F)的向量(C),其中,所述向量的每個元(CFi)被分配以所述第二矩陣⑴的所有列(1到N)的對應行(Ti)的平均值。所述方法還包括按照降序對向量(C)的每個值排序(sort),從而使得由所述向量(C)的每個元表示的每個特徵(Fi)按照降序排列。所述方法還包括通過合併至少兩個具有相似排位的標籤的特徵而基於經排列的特徵形成新型的標籤的集合。根據本發明的第二方面,提供了一種裝置,其包括多個單元,所述單元被配置為在彼此存在操作性連接時執行根據本發明的第一方面的步驟。根據本發明的第三方面,提供了一種電腦程式產品,其包括由計算機進行處理的電腦程式。所述電腦程式包括用於執行根據本發明的第一方面的方法的代碼段。根據本發明的第四方面,提供了根據第一方面的方法和根據第二方面的裝置在臨床數據的統計分析中的使用。根據本發明的第五方面,提供了根據第一方面的方法和根據第二方面的裝置在基於多個分子標籤的化驗設計方面的使用。根據本發明的第六方面,提供了根據第一方面的方法和根據第二方面的裝置在基於多個分子標籤的化驗解釋方面的使用。在從屬權利要求中限定了本發明的實施例。本發明相對於現有技術的優點在於,其能夠從標籤發現過程得到更加全面的輸出。作為對嚴格的單標籤輸出的替代,取得了更廣泛的描述趨勢,其能夠實現單組測量值的多幅臨床視圖。可以通過各種各樣的方式對這一描述加以利用。在臨床研究中,多個標籤能夠實現對所研究的臨床問題中的生物學基礎進行更好的評估。例如,可以使用其尋找多個藥物靶點,並對疾病機理進行評估。此外,在設計診斷性化驗時,本發明還允許多個具有相同預測值的標籤並存。這樣通過使得能夠選擇最佳的基因組特徵集合,從而有助於(例如)繞開化驗設計中的問題。臨床醫生能夠應用有關患者數據的不同視圖,從而利用基因組特徵的很多組合,並選擇其中最佳的來對生理學樣本的生物學狀態和患者的臨床狀態做出最佳描述。作為對嚴格的單標籤輸出的替代,獲得了能夠實現單組測量值的多幅臨床視圖的更廣泛的描述趨勢。可以通過各種方式對這一描述加以利用。在臨床研究中,採用多個標籤進行例證能夠實現對所研究的臨床問題中的生物學基礎進行更好的評估。另一個優點在於,本發明能夠應用對患者數據的不同視圖,從而利用基因組特徵的很多組合,並選擇最佳的組合來從基因信息歸納出最佳結論。


通過下文參考附圖對本發明的實施例的描述,本發明能夠實現的這些和其他方面、特徵和優點將變得顯而易見,並得到闡釋,在附圖中圖1是根據一個實施例方法的流程圖;圖2是根據一個實施例的特徵子集的生成的圖解表示;圖3是根據一個實施例的裝置的示意性表示;圖4是根據一個實施例的電腦程式產品的示意性表示。
具體實施例方式下文將參考附圖更加詳細地描述本發明的幾個實施例,從而使本領域技術人員能夠實現本發明。不過,本發明可以體現為很多不同形式,並且不應被解讀為受限於這裡闡述的實施例。相反,提供這些實施例是為了使本公開透徹和完整,並將向本領域技術人員充分傳達本發明的範圍。實施例不限制本發明,相反,本發明僅受所附專利權利要求的限制。此外,附圖中所示特定實施例的詳細描述中使用的術語並非意在限制本發明。在根據圖1的實施例中,提供了一種方法10,其用於基於對生物學數據的多個標籤的集合進行分析來形成包括若干特徵(F = (F1, F2, -,FJ)的生物學數據的新型標籤。 在步驟110中,所述方法包括對生物學數據運行N次特徵子集選擇算法,由此獲得生物學數據的多個標籤的集合。對於若干次運行(Iivr2, ···,!·,})中的每次運行(A)而言,方法10
包括步驟120a,其用於形成具有尺寸(FXF)的第一矩陣(Mi,例如廠7" ·、""'))'
其中,在運行A中第一矩陣(Mi)的每個矩陣元(i,j)基於每個對應的特徵對(FiFi)在受分析標籤中的共同出現來量化所述特徵對;以及步驟120b,其用於形成具有尺寸(FXN)的第
二矩陣(T,例如廠Τ" 、「 T 1),其中,第二矩陣(T)的每個元(Iaj))被分配以對應的第一矩陣(Mi)的對應行(Fi)的和。在步驟130中,方法10還包括形成具有尺寸(F)的向量(C,例如C= {CF1,CF2,…CFn}),其中,所述向量的每個元(Cpi)被分配以第二矩陣(T) 的所有列(1到N)的對應行(Ti)的平均值。所述方法還包括步驟140,其用於按照降序對向量(C)的每個值排序,使得由向量(C)的每個元表示的每個特徵(Fi)按照降序排列。此外,方法10還包括步驟150,其用於通過合併至少兩個具有相似排位的標籤的特徵而基於經排列的特徵形成新型的標籤的集合。通過例如對所測量的分子特徵的排位進行表徵,對標籤加以描述,並且創建出諸如特徵並存性的趨勢,其有助於確定可以結合哪些特徵以及具有怎樣的順序。此外,可以構建(舉例說明)分子標籤的族。這些可以被用於設計診斷化驗或者通過改變基因組特徵的集合而對分子測量結果進行探究。可以保存並考慮每次運行的其他特性,例如,平均特徵子集尺寸、平均性能(例如就樣本分類而言)。在一個實施例中,所述標籤可以是分子標籤,例如,從由核苷酸序列、基因變異、甲基化狀態或基因表達構成的組中選擇的任何標籤。然而,任何標籤都是可以加以利用的。在一個實施例中,所述特徵子集選擇可以包括本領域公知的過濾技術、前向 (forward)特徵選擇技術、基因算法等。然而,任何特徵子集選擇方式都可以加以利用。表1根據一個實施例的方法的輸入總覽分量描述M=支持向量機分類器的基因算法分裝器如果樣本的集合中的每個以測量結果的向量來表徵,那麼輸出將是能夠最佳地實現將樣本準確地劃分到給定類別的特徵子集的集入 Π O^=特徵子集集合的隹入朱口在每次運行中,在運行結束時保存特徵子集的集合。T=特徵的成對並存在每次運行中,首先建立FxF陣列,並且每當特徵1和J共同出現在特徵子集中時,計數器就會在(ij)和(」,0處加1。最後,將每一行求和,這就是該次運行的趨勢向量。 總趨勢T是各個運行的趨勢的FxN矩陣。C-全面表徵F個值的向量,所述F個值為趨勢T中的行的平均。在根據所述值排序時,特徵按照降序排列。在一個以程序設計語言「R」為基礎的更為具體的實施例中,使用來自表1的輸入執行下述步驟
權利要求
1.一種用於基於對生物學數據的多個標籤的集合進行分析來形成包括若干特徵(F = IF1, F2, -,FJ)的生物學數據的新型標籤的方法(10),所述方法包括以下步驟通過對生物學數據運行N次特徵子集選擇算法來獲得(110)所述生物學數據的多個標籤的集合,並且對於若干次運行(Iivr2, ···,!·,})中的每次運行(A)而言形成(120a)具有尺寸(FXF)的第一矩陣(Mi),其中,在運行巧中所述第一矩陣(Mi) 的每個矩陣元(i,j)基於每個對應的特徵對(FiFi)在受分析標籤中的共同出現來量化所述特徵對;以及形成(120b)具有尺寸(FXN)的第二矩陣(T),其中,所述第二矩陣(T)的每個元(T(i, j))被分配以對應的第一矩陣(Mi)的對應行(Fi)的和;形成(130)具有尺寸(F)的向量(C),其中,所述向量的每個元(CFi)被分配以所述第二矩陣⑴的所有列(1到N)的對應行(Ti)的平均值;按照降序對向量(C)的每個值排序(140),從而使得由所述向量(C)的每個元表示的每個特徵(Fi)按照降序排列;以及通過合併至少兩個具有相似排位的標籤的特徵而基於經排列的特徵來形成(150)新型的標籤的集合。
2.根據權利要求1所述的方法,其中,所述標籤是分子標籤。
3.根據權利要求2所述的方法,其中,所述分子標籤選自包括以下項的組核苷酸序列、基因變異、甲基化狀態或基因表達。
4.根據權利要求1所述的方法,其中,所述特徵子集選擇為模式發現。
5.一種用於形成生物學數據的新型標籤的裝置(30),所述裝置包括第一單元(310),其被配置為通過對生物學數據運行N次特徵子集選擇算法來獲得所述生物學數據的多個標籤的集合;第二單元(320),其被配置為,對於若干次運行(Ir1, r2,-,rN})中的每次運行(巧) 形成(320a)具有尺寸(FXF)的第一矩陣(Mi),其中,在運行巧中所述第一矩陣(Mi) 的每個矩陣元(i,j)基於每個對應的特徵對(FiFi)在受分析標籤中的共同出現來量化所述特徵對;以及形成(320b)具有尺寸(FXN)的第二矩陣(T),其中,所述第二矩陣(T)的每個元(T(i, j))被分配以對應的所述第一矩陣(Mi)的對應行(Fi)的和;第三單元(330),其被配置為形成具有尺寸(F)的向量(C),其中,所述向量的每個元 (Cpi)被分配以所述第二矩陣⑴的所有列(1到N)的對應行(Ti)的平均值;第四單元(340),其被配置為按照降序對向量(C)的每個值排序,從而使得由所述向量 (C)的每個元表示的每個特徵(Fi)按照降序排列;以及第五單元(350),其被配置為通過合併至少兩個具有相似排位的標籤的特徵而基於經排列的特徵形成新型的標籤的集合, 各所述單元操作性地彼此連接。
6.一種電腦程式產品,包括供計算機處理的電腦程式(40),所述電腦程式包括第一代碼段(410),其被配置為通過對生物學數據運行N次特徵子集選擇算法來獲得所述生物學數據的多個標籤的集合;第二代碼段(420),其被配置為,對於若干次運行(Ir1J2,…,rN})中的每次運行(r,)形成(420a)具有尺寸(FXF)的第一矩陣(Mi),其中,在運行巧中所述第一矩陣(Mi) 的每個矩陣元(i,j)基於每個對應的特徵對(FiFi)在受分析標籤中的共同出現來量化所述特徵對;以及形成(420b)具有尺寸(FXN)的第二矩陣(T),其中,所述第二矩陣(T)的每個元(T(i, j))被分配以對應的所述第一矩陣(Mi)的對應行(Fi)的和;第三代碼段(430),其被配置為形成具有尺寸(F)的向量(C),其中,所述向量的每個元 (Cpi)被分配以所述第二矩陣⑴的所有列(1到N)的對應行(Ti)的平均值;第四代碼段(440),其被配置為按照降序對向量(C)的每個值排序,從而使得由所述向量(C)的每個元表示的每個特徵(Fi)按照降序排列;以及第五代碼段(450),其被配置為通過合併至少兩個具有相似排位的標籤的特徵而基於經排列的特徵形成新型的標籤的集合。
7.根據權利要求6所述的電腦程式產品,其包括代碼段,所述代碼段被設置成在通過具有計算機處理性能的裝置運行時執行根據權利要求1到4中的任何一項定義的所有方法步驟。
8.根據權利要求1所述的方法或根據權利要求5所述的裝置在臨床數據的統計學分析方面的使用。
9.根據權利要求1所述的方法或根據權利要求5所述的裝置在基於多個分子標籤的化驗設計方面的使用。
10.根據權利要求1所述的方法或根據權利要求5所述的裝置在基於多個分子標籤的化驗解釋方面的使用。
全文摘要
提供了一種形成生物學數據的新型標籤的方法(10)。所述方法包括基於趨勢值對特徵排列,所述趨勢值是基於通過模式發現方法識別出的多個標籤創建的。此外,還提供了執行根據所述方法(10)的步驟的裝置(30)和電腦程式產品(40)。還提供了所述方法在臨床數據的統計學分析、基於多個分子標籤的化驗設計和基於多個分子標籤的化驗解釋方面的使用。
文檔編號G06F19/18GK102439600SQ201080021694
公開日2012年5月2日 申請日期2010年5月18日 優先權日2009年5月20日
發明者A·賈內夫斯基, N·班納吉, V·瓦拉達恩 申請人:皇家飛利浦電子股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀