新四季網

一種信息檢索方法及系統的製作方法

2023-05-14 00:39:11

一種信息檢索方法及系統的製作方法
【專利摘要】本發明一種信息檢索方法,包括如下步驟:S10:輸入用於排序學習的數據,對其進行特徵提取;S20:輸入所得到的數據樣本特徵,輸入樣本間的相似性信息,得到由查詢樣本-排序列表對組成的訓練數據集;S30:建立數學模型;S40:推導各參數的更新公式,迭代地更新布萊格曼距離函數的參數和模型的鬆弛變量,直至各參數收斂;S50:對新輸入的查詢樣本在數據集上進行檢索,將數據集中的各樣本按照與查詢樣本的距離以升序排列,輸出該排序作為檢索結果。本發明信息檢索方法結合了結構支持向量機和布萊格曼距離函數的優點,克服了傳統距離函數的局限,檢索準確率高。
【專利說明】一種信息檢索方法及系統

【技術領域】
[0001] 本發明涉及信息檢索【技術領域】,具體涉及一種信息檢索方法及系統。

【背景技術】
[0002] 在資訊時代,各種形式的數據呈爆炸性增長,從海量的數據中檢索出用戶所需信 息的信息檢索技術顯得尤為重要。特別地,在信息檢索和數據挖掘領域中,排序學習是一個 活躍的研究主題。排序學習的目標在於學習一個排序函數以精確刻畫數據樣本間的相關關 系,也即,該排序函數對輸入的查詢樣本輸出一個排序列表,使得與查詢樣本相關的樣本盡 量排在前面,與查詢樣本不相關的樣本儘量排在後面。由於數據樣本間的關聯程度通常由 一個相似度或距離度量確定,因此排序學習的本質是學習一個相似度或距離度量函數,來 準確刻畫數據樣本之間的相關關係,使相似或相關的樣本距離近,不相似或不相關的樣本 距離遠。
[0003] 如何學習一個有效的距離函數來捕捉數據特徵的內在模式和數據間的相關關係, 是數據挖掘中的一個基本問題。傳統的距離度量學習方法有兩個局限。第一,已有的距離 度量學習方法通常假設一個在全體特徵空間中固定的度量,從而缺乏靈活性和泛化能力, 難以挖掘數據的局部模式。第二,對於高維的數據,傳統的度量學習方法的計算代價很高, 甚至難以處理。以最常用的瑪氏距離為例:
[0004] dM(xa, xb) = (xa-xb) tM (xa-xb)
[0005] 其中M是對稱半正定矩陣。度量矩陣M在整個輸入空間中是固定不變的,缺乏靈 活性,且待求解的矩陣M的變量維度是數據維度的平方,從而難以處理高維度的數據。此 夕卜,瑪氏距離可等價於將數據從原特徵空間線性映射到另一個隱含子空間後的平方歐式距 離:
[0006] dM(xa, xb) = I I R (xa-xb) I I2
[0007] 其中RtR = M。因此瑪氏距離只能挖掘數據特徵中的線性關聯模式,不能捕捉隱含 在數據特徵中的複雜的非線性模式。綜上,我們需要開發一個新的距離函數學習方法以克 服上述傳統距離函數的局限。


【發明內容】

[0008] 為解決上述問題,本發明的目的在於提供一種信息檢索方法,能夠捕捉隱含在數 據中的複雜的非線性模式,並能高效地處理高維度數據,從而更精確地使相似或相關的樣 本距離更近,不相似或不相關的樣本距離更遠,提高檢索的效率和精確度。
[0009] 為實現上述目的,本發明的技術方案為:
[0010] 一種信息檢索方法,包括如下步驟:
[0011] SlO :輸入用於排序學習的數據,對其進行特徵提取,將原始數據轉化為可用於機 器學習的數據樣本特徵;
[0012] S20 :輸入所得到的數據樣本特徵,輸入樣本間的相似性信息,得到由查詢樣 本-排序列表對組成的訓練數據集;
[0013] S30:基於結構支持向量機和布萊格曼距離函數,對所得到的由查詢樣本-排序列 表對組成的訓練數據集建立數學模型;
[0014] S40:根據所建立的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離 函數的參數和模型的鬆弛變量,直至各參數收斂;
[0015] S50:根據所得到的布萊格曼距離函數,對新輸入的查詢樣本在數據集上進行檢 索,將數據集中的各樣本按照與查詢樣本的距離以升序排列,輸出該排序作為檢索結果。
[0016] 進一步地,步驟S30中,以結構支持向量機為框架建立結構學習模型,優化基於布 萊格曼距離函數的總體排序結構代價,並添加正則項進行調節;
[0017] 其中,所建立的數學模型包括參數模型和非參數模型,模型中的布萊格曼距離函 數具有參數化形式或非參數化形式。
[0018] 進一步地,步驟S40包括有:
[0019] S401 :利用單鬆弛變量割平面法對所建立的數學模型作近似,使模型參數可解,並 推導模型參數的更新公式;
[0020] S402 :根據推導的更新公式,迭代地更新模型的參數,直至各參數收斂。
[0021] 本發明的另一技術方案為:
[0022] -種信息檢索系統,包括數據預處理模塊、模型輸入處理模塊、建模模塊以及參數 更新模塊與檢索模塊;其中,數據預處理模塊輸入用於排序學習的數據,對其進行特徵提 取,輸出可用於機器學習的數據樣本特徵;模型輸入處理模塊輸入由數據預處理模塊得到 的數據樣本特徵,輸入樣本間的相似性信息,輸出由查詢樣本-排序列表對組成的訓練數 據集;建模模塊用於根據模型輸入處理模塊輸出的由查詢樣本-排序列表對組成的訓練數 據集,基於結構支持向量機和布萊格曼距離函數,建立數學模型;參數更新模塊用於根據建 模模塊輸出的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離函數的參數和 模型的鬆弛變量,直至收斂;檢索模塊用於根據參數迭代更新模塊得到的布萊格曼距離函 數,對新輸入的查詢樣本進行檢索,將數據集中的各樣本按照與查詢樣本的距離以升序排 列,輸出該排序作為檢索結果。
[0023] 進一步地,所述建模模塊還用於以結構支持向量機為框架建立結構學習模型,優 化基於布萊格曼距離函數的總體排序結構代價,並添加正則項進行調節。
[0024] 進一步地,所述建模模塊還用於參數模型和非參數模型的建模。
[0025] 進一步地,所述參數更新模塊利用單鬆弛變量割平面法對建模模塊輸出的數學模 型作近似,使模型參數可解,並推導模型參數的更新公式;根據推導的更新公式,迭代地更 新模型的參數,直至各參數收斂。
[0026] 本發明信息檢索方法結合了結構支持向量機和布萊格曼距離函數的優點,克服了 傳統距離函數的局限。相比於現有的排序學習方法和距離度量學習方法,本發明提出的方 法有更高的檢索準確率。

【專利附圖】

【附圖說明】
[0027] 圖1為本發明的方法流程圖示。
[0028] 圖2為本發明的建模參數更新流程圖。
[0029] 圖3為本發明信息檢索系統的模塊結構框圖。

【具體實施方式】
[0030] 本發明實施例提供了 一種信息檢索方法。
[0031] 為使得本發明的發明目的、特徵、優點能夠更加的明顯和易懂,下面將結合本發明 實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,下面所描述 的實施例僅僅是本發明一部分實施例,而非全部實施例。基於本發明中的實施例,本領域的 技術人員所獲得的所有其他實施例,都屬於本發明保護的範圍。
[0032] 本發明的說明書和權利要求書及上述附圖中的術語"第一"、"第二"等是用於區別 類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的術語在適當情 況下可以互換,這僅僅是描述本發明的實施例中對相同屬性的對象在描述時所採用的區分 方式。此外,術語"包括"和"具有"以及他們的任何變形,意圖在於覆蓋不排他的包含,以 便包含一系列單元的過程、方法、系統、產品或設備不必限於那些單元,而是可包括沒有清 楚地列出的或對於這些過程、方法、產品或設備固有的其它單元。
[0033] 以下分別進行詳細說明。
[0034] 參照圖1所不,本發明一種信息檢索方法以結構支持向量機為框架學習一個布萊 格曼距離函數,據此可對新的查詢樣本輸出其檢索結果排序。具體包括如下步驟:
[0035] SlO :輸入用於排序學習的數據,對其進行特徵提取,將原始數據轉化為可用於機 器學習的數據樣本特徵;
[0036] S20 :輸入所得到的數據樣本特徵,輸入樣本間的相似性信息,得到由查詢樣 本-排序列表對組成的訓練數據集;
[0037] S30 :基於結構支持向量機和布萊格曼距離函數,對所得到的由查詢樣本-排序列 表對組成的訓練數據集建立數學模型;
[0038] 進一步地,步驟S30包括:
[0039] S301 :以結構支持向量機為框架建立結構學習模型,優化基於布萊格曼距離函數 的總體排序結構代價,並添加正則項進行調節;
[0040] 其中,所建立的數學模型包括參數模型和非參數模型,即模型中的布萊格曼距離 函數可具有參數化形式或非參數化形式。
[0041] S40:根據所建立的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離 函數的參數和模型的鬆弛變量,直至各參數收斂;
[0042] 進一步地,步驟S40包括:
[0043] S401 :利用單鬆弛變量割平面法對所建立的數學模型作近似,使模型參數可解,並 推導模型參數的更新公式;
[0044] S402 :根據推導的更新公式,迭代地更新模型的參數,直至各參數收斂。
[0045] S50:根所得到的布萊格曼距離函數,對新輸入的查詢樣本在數據集上進行檢索, 將數據集中的各樣本按照與查詢樣本的距離以升序排列,輸出該排序作為檢索結果。
[0046] 以含有類別標籤信息的圖像數據集、SIFT特徵和非參數建模方法為例,對本發明 信息檢索方法進行說明。其中,包括如下步驟:
[0047] S100:輸入用於排序學習的圖像數據,對其提取SIFT特徵,將圖像轉化為可用於 機器學習的數值型特徵,記為X= [Xl,...,xn],其中,n是圖像樣本的個數,Xi e Rm(i = 1,...,n)是提取出的圖像數據特徵,m是特徵維度;
[0048] S200 :輸入由步驟SlOO中所得到的圖像數據特徵X,輸入圖像樣本的類別標籤數 據,視具有相同標籤的兩個圖像樣本為相關,具有不同標籤的兩個圖像樣本為不相關,根據 與查詢樣本相關的樣本排在前、不相關的樣本排在後的原則,建立由查詢樣本-排序列表 對組成的訓練數據集,記為,其中,Xi表示第i個圖像樣本的特徵,表示第 i個圖像樣本對應的真實排序列表;
[0049] S300 :基於結構支持向量機和布萊格曼距離函數,對步驟SlOO中所得到的SIFT圖 像特徵和步驟S200中所得到的由查詢樣本-排序列表對組成的訓練數據集建立數學模型, 具體地,建立數學模型如下:
[0050] 首先,以對稱化的布萊格曼距離函數作為反映樣本間相關關係的距離度量:
[0051]

【權利要求】
1. 一種信息檢索方法,其特徵在於,包括如下步驟: S10 :輸入用於排序學習的數據,對其進行特徵提取,將原始數據轉化為可用於機器學 習的數據樣本特徵; S20 :輸入所得到的數據樣本特徵,輸入樣本間的相似性信息,得到由查詢樣本-排序 列表對組成的訓練數據集; S30 :基於結構支持向量機和布萊格曼距離函數,對所得到的由查詢樣本-排序列表對 組成的訓練數據集建立數學模型; S40 :根據所建立的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離函數 的參數和模型的鬆弛變量,直至各參數收斂; S50 :根據所得到的布萊格曼距離函數,對新輸入的查詢樣本在數據集上進行檢索,將 數據集中的各樣本按照與查詢樣本的距離以升序排列,輸出該排序作為檢索結果。
2. 如權利要求1所述的信息檢索方法,其特徵在於:步驟S30中,以結構支持向量機為 框架建立結構學習模型,優化基於布萊格曼距離函數的總體排序結構代價,並添加正則項 進行調節; 其中,所建立的數學模型包括參數模型和非參數模型,模型中的布萊格曼距離函數具 有參數化形式或非參數化形式。
3. 如權利要求2所述的信息檢索方法,其特徵在於,步驟S40包括有: 5401 :利用單鬆弛變量割平面法對所建立的數學模型作近似,使模型參數可解,並推導 模型參數的更新公式; 5402 :根據推導的更新公式,迭代地更新模型的參數,直至各參數收斂。
4. 一種信息檢索系統,其特徵在於:包括數據預處理模塊、模型輸入處理模塊、建模模 塊以及參數更新模塊與檢索模塊;其中,數據預處理模塊輸入用於排序學習的數據,對其進 行特徵提取,輸出可用於機器學習的數據樣本特徵;模型輸入處理模塊輸入由數據預處理 模塊得到的數據樣本特徵,輸入樣本間的相似性信息,輸出由查詢樣本-排序列表對組成 的訓練數據集;建模模塊用於根據模型輸入處理模塊輸出的由查詢樣本-排序列表對組成 的訓練數據集,基於結構支持向量機和布萊格曼距離函數,建立數學模型;參數更新模塊用 於根據建模模塊輸出的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離函數 的參數和模型的鬆弛變量,直至收斂;檢索模塊用於根據參數迭代更新模塊得到的布萊格 曼距離函數,對新輸入的查詢樣本進行檢索,將數據集中的各樣本按照與查詢樣本的距離 以升序排列,輸出該排序作為檢索結果。
5. 如權利要求4所述的信息檢索系統,其特徵在於:所述建模模塊還用於以結構支持 向量機為框架建立結構學習模型,優化基於布萊格曼距離函數的總體排序結構代價,並添 加正則項進行調節。
6. 如權利要求5所述的信息檢索系統,其特徵在於:所述建模模塊還用於參數模型和 非參數模型的建模。
7. 如權利要求6所述的信息檢索系統,其特徵在於:所述參數更新模塊利用單鬆弛變 量割平面法對建模模塊輸出的數學模型作近似,使模型參數可解,並推導模型參數的更新 公式;根據推導的更新公式,迭代地更新模型的參數,直至各參數收斂。
【文檔編號】G06N5/02GK104376120SQ201410733635
【公開日】2015年2月25日 申請日期:2014年12月4日 優先權日:2014年12月4日
【發明者】皮特, 李璽, 張仲非 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀