新四季網

化學物質的信息的處理和匹配方法、系統及存儲系統的製作方法

2024-04-03 06:53:05

專利名稱:化學物質的信息的處理和匹配方法、系統及存儲系統的製作方法
技術領域:
本公開涉及化學信息處理技術,尤其是,涉及存儲和匹配化學物質的信息的方法和系統及存儲系統。
背景技術:
眾所周知,在化學領域中術語是相當複雜且不一致的。以化學名稱為例,存在以下多種不兼容命名法· IUPAC命名系統一種有系統地命名化合物的方法。該命名法用一個確定的名稱來描述每一種有清楚的結構式的化合物,便於研究人員可以沒有歧義的進行交流。同時, IUPAC命名系統也接受一些物質和基團的慣用普通命名。· SMILES命名系統一種用於使用短的ASCII字符串來無歧義地描述化學分子的結構的規範。SMILES串可以被大多數分子編輯器導入以轉換回到分子的2維圖或3維圖。· IUPAC國際化學標識符anChi)命名系統和SMILES類似,也是一種用於表示化學物質結構的文本標識符。Inchi既是可讀的,也可以用來建立結構索引資料庫。.CAS 註冊號(CAS Registry Number 或稱 CAS Number, CASRn, CAS#)它是有機化合物、無機化合物、金屬、合金、元素、蛋白質與核酸、聚合物等的唯一數字標識符。在上述命名系統中,SMILES和INCHI著重於表示化學結構,而IUPAC提供抽象表示,CAS編號使用數字編碼而沒有任何語義含義。其次,除了不同的化學名稱命名法則,在同一種命名方式下,化學名稱的同名(也稱為「同義詞」)非常普遍。根據DrugBank 的統計,對於藥物Valium(安定),DrugBank 給出了 117個同義詞,其中包括Clobazam(氯巴佔)、Alboral、Duxen、Paceum、Solis等等。在過去幾十年裡,信息技術的快速發展已經實現了信息技術在化學信息處理領域中的應用。例如,在現有技術中,有的技術通過分析化學物質INCHI名稱,建立索引,實現化學名稱的檢索;有的技術從IUPAC化學名稱中抽取出最頻繁出現的子字符串作為索引,獲得具有該子字符串的所有化學名稱;另外還有的系統提供了繪製化學結構式的工具,用戶可以利用該工具將繪製出部分結構作為查詢條件,然後提交到搜索系統進行化學結構相似度的搜索。此外,這些技術並沒有從功能的角度去分析化學結構,因此不能從功能的角度獲得某一化學物質同一命名方法命名下的同義詞,更不用說使用其它命名方法命名的同義詞。

發明內容
由上述可知,現有技術中存在以下缺陷第一,僅僅使用一種命名法來進行查詢, 這種查詢往往要求完全匹配,從而難以搜索到用其它命名法命名的同一種物質;第二,這些技術難以搜索具有相同或相似功能但具有不同名稱的化學物質;第三,雖然已經有一些基於結構相似度的匹配方法,但由於化學結構非常複雜,簡單的應用結構匹配並不能找出具有相同或相似功效的匹配。也就是說,使用現有的信息技術在化學信息處理領域裡仍然不能夠基於一種化學物質的任一特定命名或結構式獲得該化學名稱的全部同義詞。因此,現有技術中需要一種獨立於命名方法而處理和/或匹配化學物質的信息的方法和系統及其存儲系統。考慮到現有技術中存在的上述問題,本公開的一個方面提供了一種利用特徵子結構高效全面地索引和/或查詢化學物質的信息的方法和系統及其存儲系統。根據本公開的一個實施例提供了一種將化學結構式用於化學信息處理的方法和系統。在這種化學信息處理系統中使用化學物質的有功能區分度的化學子結構,而不是化學名稱或者普通的根據頻率抽取出的子結構,作為索引和檢索的基本單元。在此情況下,本公開的一個實施例解決了在化學領域中遇到的多種命名法和對同義詞進行分組的問題。更具體而言,本公開的一個實施例可以獨立於使用任一具體命名方法的命名而獲得具有相同或相似功能的化學物質的信息。本發明的實施例可以以包括方法或系統的多種方式實施。下面討論本發明的幾個實施例。作為一種化學物質的信息的處理方法,本發明的一個實施例至少包括下列操作 獲得所述化學物質的化學結構式的子結構;從所獲得的子結構中確定所述化學物質的特徵子結構;以及存儲所述化學物質的所述特徵子結構。作為一種化學物質的信息的查詢方法,本發明的一個實施例至少包括獲得化學物質的查詢請求;以及獲得所要查詢的化學物質的特徵子結構。作為一種用於相關聯地存儲化學物質與特徵子結構的存儲系統,本發明的一個實施例至少包括接口裝置,用於響應於外部請求,傳送所述化學物質的信息及其特徵子結構;以及與所述接口裝置耦接的存儲裝置,用於相關聯地存儲化學物質的信息及其特徵子結構。作為一種化學物質的信息的處理系統,本發明的一個實施例至少包括子結構獲得裝置,用於獲得所述化學物質的化學結構式的子結構;特徵子結構確定裝置,用於從所獲得的子結構中確定所述化學物質的特徵子結構;以及存儲裝置,用於存儲所述化學物質的所述特徵子結構。作為一種化學物質的信息的查詢系統,本發明的一個實施例至少包括接收裝置, 用於獲得化學物質的查詢請求;以及特徵子結構獲得裝置,用於獲得所要查詢的化學物質的特徵子結構。本發明的其中一個實施例至少提供了以下優點能夠獨立於命名方法而獲得化學物質的同義詞。


圖1示出了根據本發明的一個實施例的用於關聯化學物質的化學結構式與化學物質的信息的方法的示意性流程圖。圖2示出了根據本發明的一個實施例的在圖1所示的步驟103中包括的步驟的示意性流程圖。圖3示出了根據本發明的一個實施例的在圖1所示的步驟105中包括的步驟的示意性流程圖。
6
圖4示出了根據本發明的一個實施例的用於基於化學物質的化學結構式匹配化學物質的方法的示意性流程。圖5示出了根據本發明的一個實施例的在圖4所示的步驟405中包括的步驟的示意性流程圖。圖6示出了根據本發明的一個實施例的在圖4所示的步驟407中包括的步驟的示意性流程圖。圖7示出了本發明的一個實施例在生物醫藥領域中的應用的一個例子的示意圖。圖8示出了根據本發明的一個實施例的用於存儲和匹配化學結構式的系統的示意性框圖。
具體實施例方式下列討論中,提供大量具體的細節以幫助徹底了解本發明。然而,很顯然對於本領域技術人員來說,即使沒有這些具體細節,並不影響對本發明的理解。並且應該認識到,使用如下的任何具體術語僅僅是為了方便描述,因此,本發明不應當局限於只用在這樣的術語所表示和/或暗示的任何特定應用中。在進行詳細描述之前,先對本文中出現的術語進行說明。「子結構」是指化學物質的化學結構式的一部分或全部。「特徵子結構」是指具有功能區分度的子結構,更具體地,具有相同或相似功能的化學物質部分或全部共有的子結構,這種子結構往往代表一種或者多種功能。圖1示出了根據本發明的一個實施例的用於基於化學物質的化學結構式索引化學物質的過程的示意性流程圖。在步驟101,過程開始。在步驟103,基於所獲得的關於化學物質的信息,獲得化學物質的化學結構式的子結構。圖2示出了根據本發明的一個實施例的在圖1所示的步驟103中包括的步驟的示意性流程圖。如圖2所示,過程一旦進行到步驟103,首先執行步驟201。在步驟201,可以根據已有數據,獲得具有相同或相似功能的一類化學物質的信息。在此說明的是,所獲得的一類化學物質中可以包括具有相同或相似功能的一種或多種化學物質。如果獲得了多種化學物質的信息,則需要針對每一種化學物質的信息,執行圖2所示的過程,直到獲得了該具有相同或相似功能的多種化學物質的全部子結構為止。還要說明的是,在下文中,為了便於說明,將作為圖2中的步驟的處理對象的一種化學物質稱為「化學物質」,並且將所獲得的一類化學物質中的除作為處理對象的一種化學物質之外的化學物質稱為「其它化學物質」。在化學領域中,已有數據可以是來自諸如DrugBank之類的商業數據源的數據。並且,在現有技術中,已有如下聚類算法來從諸如醫學文獻之類的數據源挖掘出具有某一共有屬性的數據集,這些具有某一共有屬性的化學物質往往是具有相同或相似功能的化學物質1) LDA (Latent Dirichlet Allocation),一種話題模型,2002 年由加州大學伯克利分校教授提出,用於對文章的話題進行識別;是一個集合概率模型,主要用於處理離散的數據集合,目前主要用在數據挖掘(dm)中的text mining和自然語言處理中,主要是用來降低維度的。2) LSA(Latent Semantic Analysis),潛在語義分析,是 ScottDeerwester, Susan Τ. Dumais等人在1990年提出來的一種新的索引和檢索方法。該方法和傳統向量空間模型 (vector space model) 一樣使用向量來表示詞(terms)禾口文檔(documents),並通過向量間的關係(如夾角)來判斷詞及文檔間的關係。3)PLSA(Probabilistic latent semantic analysis),概率潛在語義分析,基於雙模式和共現的數據分析方法延伸的經典的統計學方法。PLSA應用於信息檢索,過濾,自然語言處理,文本的機器學習或者其他相關領域。PLSA與LSA的不同是,LSA是以共現表(就是共現的矩陣)的奇異值分解的形式表現的,而PLSA是一個概率模型。例如在生物醫藥領域中,使用現有的這些技術可以從來自醫療文獻,如專利文獻 (US,W0,EU專利文獻),論文(Medline)中自動地挖掘藥物、疾病、蛋白質之間的關係,從而獲得具有相同或相似功效的多種藥物的信息。使用現有技術獲得的化學物質的信息包括化學物質的名稱和/或化學物質的化學結構式。化學物質的名稱可以是使用各種命名方法而獲得的名稱,諸如化學物質的IUPAC名稱、SMILES名稱、InChi名稱、CAS註冊號等。化學物質的化學結構式可以是化學結構式的圖像、3D分子圖像等。在步驟203,判斷所獲得的化學物質的信息中是否包括化學結構式。如果判定不包括化學結構式,則過程前進到步驟205,否則過程前進到步驟207。在步驟205,將所獲得的化學物質的信息轉換成化學物質的化學結構式。然後,過程前進到步驟207。目前已經存在現有工具,例如Cambridge公司提供的name = structure工具,用戶可以將化學物質的名稱轉換成化學物質的化學結構式。在步驟207,將獲得的化學結構式分割為子結構。然後,過程返回到圖1所示的步驟 105。在步驟105,從所獲得的子結構中確定化學物質的特徵子結構。圖3示出了根據本發明的一個實施例的在圖1所示的步驟105中包括的步驟的示意性流程圖。如圖3所示,過程一旦進行到步驟105,首先執行步驟301。在步驟301,針對在步驟103中獲得的化學物質,確定該種化學物質的至少一個子結構在步驟103中獲得的具有相同或相似功能的其它化學物質的全部子結構中出現的次數。在該步驟中,統計化學物質的每一個子結構在由功能聚類結果獲得的同類的其它化學物質的化學結構式中出現的次數,出現頻率高的子結構就用來代表著該化學物質特
點ο在步驟303,判斷所確定的次數是否滿足預定條件。預定條件是次數的預定閾值、 次數的排序閾值、和次數與所有其它化學物質的總數的比值的預定閾值中的一種或多種。 如果滿足預定條件,則過程前進到步驟305,否則,針對下一子結構繼續進行判定。在步驟305,將滿足預定條件的子結構確定為是該種化學物質的特徵子結構。例如,具有類似功能的一組化學物質包括ChCpdl、ChCpd2、ChCpd3。ChCpdl具有3 個子結構 SubStrl-U SubStrl-2、SubStrl-3,ChCpd2 具有 5 個子結構,而 ChCpd3 具有 4個子結構。例如,ChCpdl的子結構SubMrl-I在ChCpd2、ChCpd3的子結構中都出現了, SubStrl-2在ChCpd2、ChCpd3的子結構中都沒有出現,而SubStrl_3僅在ChCpd2的子結構中出現了。那麼,SubStrl-I的出現次數為2,SubStrl-2的出現次數為0,而SubStrl_3的出現次數為1。假設預定條件是出現次數大於等於1。那麼對於化學物質ChCpdl,確定其特徵子結構為SubStrl-l、SubStrl-3。對於其它兩種化學物質ChCpd2和ChCpd3,也可執行上述過程。可替換地,如果預定條件是次數的排序在前2位,那麼由於ChCpdl的三個子結構的次數排序為SubStrl-1、SubStrl-3、SubStrl-2,所以對於化學物質ChCpdl,其特徵子結構仍為SubStrl-l、SubStrl-3。對於其它兩種化學物質ChCpd2和ChCpd3,也可執行上述過程。可替換地,如果預定條件是次數與所有其它化學物質的總數的比值大於50%,那麼由於ChCpdl的三個子結構SubStrl-l、SubStrl-3、SubStrl-2的出現次數與其它化學物質的總數2的比值分別為100%、0和50%,所以對於化學物質ChCpdl,其特徵子結構仍為 SubStrl-I ο在前述的Smsha等人提出的GraphGr印算法中,公開了將化學結構式用高頻出現的子結構表示。在該GraphGrep算法,窮舉資料庫中存儲的所有圖形的所有路徑,並且根據每一路徑在全部路徑中出現的頻率,將出現頻率達到或超過某一閾值的路徑用作索引。但是該GraphGrep算法沒有考慮功能,也就是說,沒有從資料庫中的所有圖形中確定具有某一功能的圖形,並且針對這部分圖形來確定用作為索引的子結構,從而導致很多子結構對於該部分圖像來說是無用的。例如雙苯環、單苯環在各種化學物質中出現,但是其本身並不表徵某種功能。同樣地,在 Xifeng Yan 等人的論文 「Graph Indexing :A Frequent Structurebased Approach", SIGMOD 2004 June 13-18,2004,Paris,France 中可以找到用於將化學結構式分割成子結構,並且選擇出出現頻率高的作為有代表性的子結構,而本發明是挖掘出具有功能區分度的特徵子結構。在步驟107,存儲該種化學物質的特徵子結構。現有技術中,已經存在用於存儲化學結構式圖的以下方式1)鄰接矩陣;2)如前所述的INCHI ;3)如前所述的Smiles。本領域技術人員應當知道,在步驟107中可以將該種化學物質的特徵子結構與該種化學物質的其它信息(諸如,使用各種命名法的命名信息,其包括IUPAC名稱、SMILES名稱、InChi名稱、CAS註冊號中的一個或多個)相關聯地存儲起來。化學物質的其它信息和特徵子結構中的一個或多個能夠用作為用於查詢所述化學物質及其同義詞的索引。值得注意的是,在以上給出了確定特徵子結構的一種優選方法。但是,特徵子結構也可以是用戶根據其先驗經驗指定的,也可以用其它方式給出。在步驟109,過程結束。
圖4示出了根據本發明的一個實施例的用於基於化學物質的化學結構式匹配化學物質的方法的示意性流程。在步驟401,過程開始。在步驟403,獲得對於化學物質的查詢請求。根據本發明的一個實施例,對於化學物質的查詢請求是用戶輸入的。根據本發明的另一個實施例,對於化學物質的查詢請求是系統生成的。查詢請求包括化學物質的命名、 分子結構式。此外,查詢請求中還可能包括指定的子結構,用戶有可能希望使用該指定的子結構作為特徵子結構查詢其它化學物質。在步驟405,獲得所要查詢的化學物質的特徵子結構。圖5示出了根據本發明的一個實施例的在圖4所示的步驟405中包括的步驟的示意性流程圖。如圖5所示,過程一旦進行到步驟405,首先執行步驟501。在步驟501,判斷查詢請求中是否包括化學結構式。在此化學結構式可以是圖像格式、3D圖像格式、SMILES格式或INCHI格式等。如果查詢請求中不包括化學結構式,則過程前進到步驟503,否則,過程前進到步驟505。在步驟503,基於查詢請求中的信息查詢存儲庫,以獲得相關的特徵子結構。通常, 在查詢請求中包括化學物質的名稱、名稱的關鍵字等等。由於如前所述,存儲庫中已經相關聯地存儲了化學物質的信息和特徵子結構,因此查詢存儲庫可以快速獲得特徵子結構。在步驟505,將獲得的結構式顯示給用戶以供用戶選擇,並將所選擇的結構式確定為作為檢索條件的特徵子結構。在步驟505中,用戶也可以選擇排除某些子結構作為特徵子結構。也就是,用戶希望獲得不包括被排除的子結構的化學物質。此外,步驟505可以重複執行多次,直到用戶確定不再進行選擇為止,並且將用戶最終選擇的結構式確定為作為檢索基礎的特徵子結構。步驟505是可選的。如圖5中虛線所示,也可以將在步驟503中所獲得的特徵子結構直接用於檢索,而無需用戶進一步選擇。在此情況下,將不執行圖5中的步驟505。可替換地,如果在步驟501中確定查詢請求中包括請求查詢的子結構,則在步驟 501中可以獲得請求查詢的子結構。然後,將所獲得的請求查詢的子結構作為特徵子結構用於查詢。例如,如果用戶知道某種農藥的一子結構對某種害蟲有殺滅作用並且希望查詢具有該作用的多種農藥,那麼用戶在查詢請求中直接輸入該子結構,然後將該子結構用作為特徵子結構進行查詢。在此情況下,可以不執行步驟505。在步驟407,基於獲得的特徵子結構,確定與特徵子結構匹配的其它化學物質。子結構的比較可以使用現有技術中已有的方法,例如,「An algorithm for subgraph isomorphism", JR Ullmann-Journal of the ACM(JACM),1976 中公開的圖匹配算法。圖6示出了根據本發明的一個實施例的在圖4所示的步驟407中包括的步驟的示意性流程圖。如圖6所示,過程一旦進行到步驟407,首先執行步驟601。在步驟601,基於在步驟405中確定的特徵子結構,檢索出與該特徵子結構全部或部分匹配的化學物質的信息。在步驟603,判斷檢索出的化學物質中的每一種化學物質與特徵子結構匹配的子結構的個數是否滿足預定條件。預定條件可以是個數的預定閾值、個數的排序閾值、和個數與檢索出的特徵子結構的總個數的比值的預定閾值中的一種或多種。如果不滿足預定條件,則針對下一種化學物質執行步驟603。否則,過程前進到步驟605。例如,用於檢索的特徵子結構有3個,分別是SubStrl-1、SubStrl-2、SubStr 1-30 檢索後得出與SubMrl-I匹配的物質有ChCpdl-ChCpd3和ChCpd8_ChCpdll,與 SubStrl-2 匹配的物質有 ChCpdl-ChCpd4,與 SubMrl-3 匹配的物質有 ChCpdl_ChCpd2 和 ChCpd4-ChCpdll。如果預定條件是匹配子結構的個數大於等於3,那麼匹配的物質是與3個子結構都匹配的ChCpdl和ChCpd2。可替換地,如果預定條件是個數的排序在前2位,那麼匹配的物質是 ChCpdl-ChCpd4 和 ChCpd8_ChCpdll。可替換地,如果預定條件是個數與檢索出的特徵子結構的總個數的比值大於 50%,那麼匹配的物質是 ChCpdl-ChCpcM 和 ChCpd8-ChCpdll。在步驟605,將滿足預定條件的化學物質確定為與特徵子結構匹配的其它化學物質。此外,還可以將該其它化學物質的命名信息提供給用戶以供使用。在步驟409,過程結束。圖7示出了本發明的一個實施例在生物醫藥領域中的應用的一個例子的示意圖。在步驟701從現有數據中識別出具有特定功能的一類藥品中的每一種藥品的名稱。如圖所示,在本例子中識別出的具有鎮定功能的藥品的名稱是Valium(安定)。在步驟703將該藥品的名稱轉換成化學結構式。在步驟705將給化學結構式分割成各種子結構。在步驟707確定每一種藥品的特徵子結構。在步驟709將每一種藥品的特徵子結構與其名稱相關聯地存儲在資料庫中。在步驟711用戶輸入查詢請求。該查詢請求包括要查詢的藥品的名稱。在步驟713基於該名稱信息從資料庫中查詢出該藥品的特徵子結構。在步驟715基於所獲得的特徵子結構從資料庫中查詢出與特徵子結構全部或部分匹配的全部藥品。在步驟717將匹配的子結構的個數符合預定條件的所有藥品的名稱顯示給用戶。圖8示出了根據本發明的一個實施例的用於存儲和匹配化學結構式的系統的示意性框圖。如圖所示,系統包括後端、前端及其之間的存儲設備。系統的後端包括輸入裝置 801、轉換裝置803 (可選)、子結構分割裝置805、特徵子結構確定裝置807、存儲裝置809。 系統的前端包括接收裝置813、特徵子結構獲得裝置815、選擇裝置817 (可選)和匹配裝置 819。後端和前端之間的存儲系統包括接口裝置821和存儲庫811。可替換地,存儲系統可以被結合到前端或後端中作為其中的一部分。輸入裝置801用於接收現有工具從已有數據源獲得的具有相同或相似功能的多種化學物質的信息。轉換裝置803是可選的。如果轉換裝置803從輸入裝置801接收的化學物質的信息包括化學結構式,那麼轉換裝置803無需執行任何操作。如果轉換裝置803從輸入裝置801接收的化學物質的信息不包括化學結構式,而是包括化學物質的名稱,那麼轉換裝置 803將化學物質的名稱轉換成其化學結構式。子結構分割裝置805將從轉換裝置803接收到的化學結構式分割成各種子結構。 如前所述,子結構分割處理可以使用現有技術來實現。特徵子結構確定裝置807從分割出的子結構中確定化學物質的特徵子結構。具體地,特徵子結構確定裝置807首先基於已有數據將化學物質進行聚類以獲得具有相同或相似功能的一類化學物質。使用現有技術,聚類過程可以包括如下處理-對於每一篇文獻(專利文獻、論文、或技術報告),將其表示為一組術語,例如,該組術語可以包括僅僅化學物質名稱;或包括化學物質名稱以及疾病名稱、蛋白質等;以及-使用LDA、PLSA或LSA來對整組術語進行聚類。例如,對於藥物,可以根據醫療文獻中對於致病基因,所導致的疾病名稱,以及所誘發的蛋白質等物質以及它們的共同出現情況來確定哪些藥物能夠用來治療某一種疾病或具有某一療效。再例如,對於清潔劑,將可以用來清洗食物的清潔劑歸為一類,並將可以用來清洗非食品的清潔劑歸為另一類。然後,特徵子結構確定裝置807統計聚類所獲得的一類化學物質中的一種化學物質的每一個子結構在該類中全部化學物質的化學結構式中出現的次數。再然後,特徵子結構確定裝置807判斷所統計的次數是否滿足預定條件,如果滿足預定條件,則認為該子結構是該種化學物質的特徵子結構。預定條件是次數的預定閾值、次數的排序閾值、和次數與所有化學物質的總數的比值的預定閾值中的一種或多種。概言之,特徵子結構確定裝置807 針對每次聚類都按照相關性對名稱列表進行排序,並且對於每次聚類,選擇最高排序的化學物質名稱,並且選擇最頻繁出現的結構作為關注的結構(即,具有功能區分度的結構)。當然,如前所述,特徵子結構也可以根據用戶的先驗知識來選擇確定。關聯存儲裝置809將特徵子結構確定裝置807針對每一化學物質所確定的全部特徵子結構與該化學物質的信息相關聯地存儲到存儲庫811中。存儲庫811用於相關聯地存儲化學物質的信息及其特徵子結構。接口裝置821與存儲庫811和其它設備連接,其它設備經由接口裝置821訪問存儲庫811。接收裝置813接收用戶輸入的查詢請求。用戶輸入的查詢請求可能包括某種化學物質的某種名稱或者用戶已知的某種化學物質的一個或多個特徵子結構。如果用戶輸入的查詢請求中包括請求查詢的子結構,則特徵子結構獲得裝置815 可以獲得請求查詢的子結構並將該子結構確定為特徵子結構。否則,特徵子結構獲得裝置 815根據查詢請求中包括的名稱查詢存儲庫811以獲得與該名稱相關聯的特徵子結構。選擇裝置817是可選的。用於將接收到的特徵子結構發送給顯示設備以顯示給用戶,供用戶選擇。如上所述,該選擇不限於一次,而是可以由用戶多次選擇。例如,用戶可能選擇某些特徵子結構以獲得具有這些特徵子結構所帶來的特定功效的化學物質。當然,用戶也可以排除某些特徵子結構以獲得不具有這些特徵子結構所帶來的特定功效的化學物質。匹配裝置819基於選擇裝置817提供的特徵子結構,從存儲庫811中查詢與特徵子結構全部或部分匹配的化學物質。匹配裝置819判斷查詢得到的每一化學物質的與特徵子結構匹配的子結構的個數是否滿足預定條件。如果滿足預定條件,將滿足預定條件的化學物質的信息顯示給用戶。以上通過具體實施例說明了本發明。在本發明中首先提出了特徵子結構的概念, 即具有功能區分度的子結構,並且基於特徵子結構來關聯和匹配化學物質的信息,從而本發明能夠檢索出功能相同或相似的多種化學物質,而與使用何種命名方法來命名這種化學物質無關。此外,現有技術中的匹配是完全匹配,例如,查詢請求中包括某一關鍵詞,查詢結果就是包括該關鍵詞的化學物質信息。而本發明的查詢請求使用的是特徵子結構,而查詢結果是根據化學物質的子結構與特徵子結構的匹配情況是否滿足預定條件而確定的化學物質信息,因而本發明實際上使用的部分匹配。因此,本發明的查詢結果範圍更加寬泛。本發明在網絡系統中可能特別有用。大多數網絡系統現在允許用戶檢索關鍵字。 如果用戶想要給它們的產品,藥物Penicillin(盤尼西林)做檢索,除了藥物名稱之外,用戶還需要檢索其它40種名稱,象「Abbocillin」 「Galofak」,這些都指的是同一種藥。如果清潔劑的某種化學結構會導致疾病,用戶在使用本發明進行檢索時可以排除該化學結構, 以獲得不包括該化學結構的安全洗滌劑。使用本發明,可以將檢索關鍵詞都變換成結構表示並使用該結構表示進行檢索,從而使檢索獨立於任一具體的命名方法,然後根據結構相似性確定將哪些內容與搜索結果一起顯示給用戶,從而可以檢索出具有相同或相似功能的所有產品,大大降低成本和耗時。本發明的各實施例可採用任何適宜的方式實現,包括硬體、軟體、固件或其任何組合。或者,可將本發明實施例至少部分地實現為在一個或多個數據處理器和/或數位訊號處理器上運行的計算機軟體。本發明的實施例的元件和組件可採用任何合適的方式在物理上、功能上和邏輯上實現。的確,可將該功能實現於單個部件、多個部件中,或作為其他功能部件的一部分。這樣,可將本發明實施例實現在單個部件中,或將其在物理上和功能上分布在不同部件和處理器之間。用於執行本發明的操作的電腦程式碼,可以以一種或多種程序設計語言的任何組合來編寫,所述程序設計語言包括面向對象的程序設計語言-諸如JaVa、Smalltalk、C++ 之類,還包括常規的過程式程序設計語言-諸如」 C」程序設計語言或類似的程序設計語言。程序碼可以完全地在用戶的計算上執行、部分地在用戶的計算機上執行、作為一個獨立的軟體包執行、部分在用戶的計算機上部分在遠程計算機上執行、或者完全在遠程計算機或伺服器上執行。在後一種情形中,遠程計算機可以通過任何種類的網絡——包括區域網 (LAN)或廣域網(WAN)-連接到用戶的計算機,或者,可以(例如利用網際網路服務提供商來通過網際網路)連接到外部計算機。以上參照按照本發明實施例的方法、系統和電腦程式產品的流程圖和/或框圖描述了本發明。要明白的是,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由電腦程式指令實現。這些電腦程式指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器,從而生產出一種機器,使得通過計算機或其它可編程數據處理裝置執行的這些指令,產生實現流程圖和/或框圖中的方框中規定的功能/操作的裝置。也可以把這些電腦程式指令存儲在能指令計算機或其它可編程數據處理裝置以特定方式工作的計算機可讀介質中,這樣,存儲在計算機可讀介質中的指令產生一個包
13括實現流程圖和/或框圖中的方框中規定的功能/操作的指令裝置(instruction means) 的製造品。也可以把電腦程式指令加載到計算機或其它可編程數據處理裝置上,使得在計算機或其它可編程數據處理裝置上執行一系列操作步驟,以產生計算機實現的過程,從而在計算機或其它可編程裝置上執行的指令就提供實現流程圖和/或框圖中的方框中規定的功能/操作的過程。本發明通過使用本發明的實施例的詳細說明被描述,這些實施例作為例子被提供,並且不打算限制本發明的範圍。儘管本發明描述了這些實施例,不過對本領域的技術人員來說,對這些實施例的變更和改變是顯而易見的。因此,對示例性實施例的上述說明並不限定或約束本發明。其它變化、替代和更改也是可能的,並不脫離由下面的權利要求限定的本發明的精神和範圍。
權利要求
1.一種化學物質的信息的處理方法,包括 獲得所述化學物質的化學結構式的子結構;從所獲得的子結構中確定所述化學物質的特徵子結構,其中所述特徵子結構是具有功能區分度的子結構;以及存儲所述化學物質的所述特徵子結構。
2.根據權利要求1所述的方法,其中,所述獲得子結構的步驟還包括 獲得關於所述化學物質的信息;如果所獲得的關於所述化學物質的信息不是所述化學物質的化學結構式,則將所述化學物質的信息轉換成化學結構式;以及將所述化學物質的化學結構式分割成子結構。
3.根據權利要求2所述的方法,其中,所述確定特徵子結構的步驟包括獲得所述化學物質的至少一個子結構在具有與所述化學物質相同或相似功能的其它化學物質的子結構中出現的次數;以及如果所述次數滿足預定條件,則認為所述至少一個子結構是所述化學物質的特徵子結構。
4.根據權利要求3所述的方法,其中,所述預定條件是所述次數的預定閾值、所述次數的排序閾值、和所述次數與所述其它化學物質的總數的比值的預定閾值中的一種或多種。
5.一種化學物質的信息的查詢方法,包括 獲得化學物質的查詢請求;以及獲得所要查詢的化學物質的特徵子結構,其中所述特徵子結構是具有功能區分度的子結構。
6.根據權利要求5所述的方法,還包括基於所述特徵子結構,確定與所述特徵子結構匹配的其它化學物質。
7.根據權利要求6所述的方法,其中,所述獲得特徵子結構的步驟包括基於所述查詢請求中包括的信息,從存儲庫中檢索出所述特徵子結構,其中在所述存儲庫中存儲了多種化學物質的特徵子結構。
8.根據權利要求7所述的方法,還包括將檢索出的所述特徵子結構呈現給用戶以供用戶選擇;並且所述確定匹配的其它化學物質的步驟是基於用戶選擇的特徵子結構匹配其它化學物質。
9.根據權利要求7所述的方法,還包括響應於匹配的特徵子結構的個數滿足預定條件,確定實現匹配;並且其中所述預定條件是所述個數的預定閾值、所述個數的排序閾值、和所述匹配的特徵子結構的個數與所述檢索出的特徵子結構的總個數的比值的預定閾值中的一種或多種。
10.根據權利要求6所述的方法,其中,如果所獲得的查詢請求包括要排除的子結構, 則在確定匹配的其它化學物質的步驟中,從匹配的其它化學物質中排除具有該要排除的子結構的其它化學物質。
11.根據權利要求5所述的方法,其中所述獲得化學物質的查詢請求的步驟包括獲得請求查詢的子結構,並且所述獲得所述化學物質的特徵子結構的步驟包括將所述請求查詢的子結構確定為所要查詢的特徵子結構;並且其中,所述方法還包括基於所述特徵子結構,確定與所述特徵子結構匹配的化學物質。
12.一種用於相關聯地存儲化學物質與特徵子結構的存儲系統,所述存儲系統包括 接口裝置,用於響應於外部請求,傳送所述化學物質的信息及其特徵子結構,其中所述特徵子結構是具有功能區分度的子結構;以及與所述接口裝置耦接的存儲庫,用於相關聯地存儲化學物質的信息及其特徵子結構。
13.一種化學物質的信息的處理系統,包括子結構獲得裝置,用於獲得所述化學物質的化學結構式的子結構; 特徵子結構確定裝置,用於從所獲得的子結構中確定所述化學物質的特徵子結構,其中所述特徵子結構是具有功能區分度的子結構;以及存儲裝置,用於存儲所述化學物質的所述特徵子結構。
14.根據權利要求13所述的系統,其中,所述子結構獲得裝置包括 輸入裝置,用於獲得關於所述化學物質的信息;轉換裝置,用於如果所獲得的關於所述化學物質的信息不是所述化學物質的化學結構式,則將所述化學物質的信息轉換成化學結構式;以及子結構分割裝置,用於將所述化學物質的化學結構式分割成子結構。
15.根據權利要求14所述的系統,其中,所述特徵子結構確定裝置還用於獲得所述化學物質的至少一個子結構在具有與所述化學物質功能相同或相似的其它化學物質的子結構中出現的次數,並且如果所述次數滿足預定條件,則判定所述至少一個子結構是所述化學物質的特徵子結構。
16.根據權利要求15所述的系統,其中,所述預定條件是所述次數的預定閾值、所述次數的排序閾值、和所述次數與所述其它化學物質的總數的比值的預定閾值中的一種或多種。
17.一種化學物質的信息的查詢系統,包括 接收裝置,用於獲得化學物質的查詢請求;以及特徵子結構獲得裝置,用於獲得所要查詢的化學物質的特徵子結構,其中所述特徵子結構是具有功能區分度的子結構。
18.根據權利要求17所述的系統,還包括匹配裝置,用於基於所述特徵子結構,確定與所述特徵子結構匹配的其它化學物質。
19.根據權利要求18所述的系統,其中,所述特徵子結構獲得裝置還用於基於所述查詢請求中包括的信息,從存儲庫中檢索出所述特徵子結構,其中在所述存儲庫中存儲了多種化學物質的特徵子結構。
20.根據權利要求19所述的系統,還包括選擇裝置,用於將檢索出的所述特徵子結構呈現給用戶以供用戶選擇;並且其中,所述匹配裝置基於用戶選擇的特徵子結構匹配其它化學物質。
21.根據權利要求19所述的系統,其中所述匹配裝置還用於響應於匹配的特徵子結構的個數滿足預定條件,確定實現匹配;並且其中所述預定條件是所述個數的預定閾值、所述個數的排序閾值、和所述匹配的特徵子結構的個數與所述檢索出的特徵子結構的總個數的比值的預定閾值中的一種或多種。
22.根據權利要求18所述的系統,其中,如果所獲得的查詢請求包括要排除的子結構, 則所述匹配裝置從匹配的其它化學物質中排除具有該要排除的子結構的其它化學物質。
23.根據權利要求17所述的系統,其中所述接收裝置進一步用於獲得請求查詢的子結構,並且所述特徵子結構獲得裝置進一步用於將所述請求查詢的子結構確定為所要查詢的特徵子結構,並且其中,所述系統還進一步包括匹配裝置,用於基於所述特徵子結構,確定與所述特徵子結構匹配的化學物質。
全文摘要
本公開提供了化學物質的信息的處理和匹配方法、系統及存儲系統。根據本發明的一個實施例,化學物質的信息的處理方法包括獲得所述化學物質的化學結構式的子結構;從所獲得的子結構中確定所述化學物質的特徵子結構;以及存儲所述化學物質的所述特徵子結構。本公開的一個方面所要解決的技術問題在於提供一種能夠獨立於現有的各種命名方法而處理和/或匹配化學物質的信息的方法和系統。本公開的一個方面提供了一種利用特徵子結構高效全面地索引和/或查詢化學物質的信息的方法和系統及其存儲系統。
文檔編號G06F17/30GK102436447SQ20101029905
公開日2012年5月2日 申請日期2010年9月29日 優先權日2010年9月29日
發明者吳賢, 張俐, 蘇中, 蔡柯柯, 郭宏蕾 申請人:國際商業機器公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀