新四季網

一種體現查詢差異的直接優化性能指標排序方法

2023-10-07 09:54:29 2

一種體現查詢差異的直接優化性能指標排序方法
【專利摘要】一種體現查詢差異的直接優化性能指標排序方法。其包括:步驟1.網頁爬取;步驟2.數據預處理及特徵提取;步驟3.建立樣本級排序模型;步驟4.建立查詢級排序模型;步驟5.預測新查詢。本發明在排序模型建立過程中考慮查詢差異,基於大規模真實數據的實驗結果表明,使用本發明提供的體現查詢差異的直接優化性能指標排序方法可以取得比傳統排序學習模型更好的性能。本發明提供的方法除排序學習之外,還可應用於多類分類、序列標註等問題,在文本分類、信息檢索、網絡搜索等領域具有廣泛的應用前景。
【專利說明】一種體現查詢差異的直接優化性能指標排序方法
【技術領域】
[0001]本發明屬於網絡搜索和機器學習【技術領域】,特別是涉及一種體現查詢差異的直接優化性能指標排序方法。
【背景技術】
[0002]排序學習旨在為目標對象按照某種規律確定一個等級順序,是目前網絡搜索與機器學習領域研究的熱點問題;現有排序學習方法可分為三類:基於數據點排序學習方法,基於有序對的排序學習方法和基於列表的排序學習方法。排序學習在信息檢索、網頁搜索等方面有著廣泛的應用前景。
[0003]與傳統的機器學習任務(如分類任務等)相比,排序學習問題具有自身特性;由於待排序的文檔分別是由不同的查詢檢索得到的,因此只有同一個查詢檢索到的文檔之間才有序關係;在排序學習任務中,不同查詢及其對應文檔之間,如在數據分布、評價指標和預測未知查詢能力等方面,存在顯著的差異;現有排序學習方法在建立排序模型過程中,沒有考慮查詢及其相關文檔之間的差異,在一定程度上影響了排序模型的性能;因此,有必要在建立排序模型過程中考慮不同查詢及其相關文檔之間的差異。
[0004]近年來提出的部分排序學習方法在一定程度上考慮了查詢之間的差異;與本發明研究緊密相關的包括兩大類方法:一是與查詢相關的排序學習,二是排序模型融合與查詢相關的排序學習方法建立多個排序模型,對於不同的預測查詢使用不同的排序模型預測;Geng等基於K近鄰方法,提出了與查詢相關的排序學習方法。Ni等將排序樣本與查詢相關的性質抽象為分組學習問題,使用共性模型和特性模型共同預測排序結果。Peng等提出使用JS-散度選擇與未知查詢最相關的排序模型算法。以上三種與查詢相關的排序學習方法雖考慮了排序樣本與查詢相關的特性,但仍存在以下一些不足:1.與查詢相關的排序學習方法將訓練集割裂為若干個訓練子集;此方法只注意到訓練集中樣本的區別,沒有考慮到樣本之間還存在著聯繫;2.每個與查詢相關排序子模型只使用訓練集中的部分樣本而非所有樣本參與訓練,導致排序模型性能不佳;3.訓練過程中需要建立大量排序模型,模型訓練的時間代價過大;排序模型融合主要包括以下幾種方法。Qin等提出依照查詢-文檔對的相關程度標註將整個數據集劃分為多個數據子集,而後使用BordaCount算法融合多個子排序模型的結果。Liu等將排序模型融合問題轉化為半正定規劃問題,使用馬爾科夫過程建模並優化。Bian等提出一種基於主題的多排序模型融合方法,使用支持向量機方法建立排序模型;排序模型融合方法雖然在性能上取得比傳統使用單一模型決策更好的性能,但是在子模型建立過程中並未特別考慮排序學習中查詢之間存在的差異;此外,多數方法使用計算概率、加權融合等方法簡單線性合併子模型,並未明確提出一種適用於排序學習問題的融合函數;但是,基於列表的排序學習方法和直接優化評價指標排序學習方法在建模過程中都沒有特別考慮查詢之間的差異。與查詢相關的排序學習方法雖比傳統建立單一模型增加考慮了查詢特性,但依然存在兩個問題:一是特性的選擇過程與排序模型的建立相脫離,並沒有體現於排序模型損失上;二是訓練得到多個模型,不便於最終排序結果的處理。

【發明內容】

[0005]為了解決上述問題,本發明的目的在於提供一種體現查詢差異的直接優化性能指標排序方法。
[0006]為了達到上述目的,本發明提供的體現查詢差異的直接優化性能指標排序方法包括按順序執行的下列步驟:
[0007]步驟1、網頁爬取:從網際網路中爬取網頁,並解析處理,留下文本連接信息,形成網頁數據集;
[0008]步驟2、數據預處理及特徵提取:將步驟I中形成的網頁數據集與用戶查詢進行匹配,建立查詢-文檔對;所有查詢-文檔對都被表示成了特徵向量的形式,形成特徵數據集;
[0009]步驟3、建立樣本級排序模型:以排序支持向量機為子排序模型,以步驟2中形成的特徵數據集中的每一個查詢及其相關文檔為訓練子集,查詢-文檔對為基本訓練數據,建立樣本級訓練模型,著重於構建新的能反映排序學習問題中的查詢差異性和有序性的訓練數據;
[0010]步驟4、建立查詢級排序模型:以步驟3中形成的樣本級訓練模型的輸出作為訓練數據,在整個訓練數據集上建立查詢級訓練模型,給出新的損失函數作為優化目標,並利用此損失函數實現樣本級模型融合;
[0011]步驟5、預測新查詢:當有新的查詢需要預測時,需要構建與訓練數據形式相同的預測數據,使用樣本級模型構建特徵數據和查詢級模型兩步預測,得到最終的排序結果。
[0012]在步驟2中,所述的數據預處理及特徵提取的具體方法是:主要採用四大類共64維特徵:第一類是20個基本內容特徵,主要反映了查詢與網頁的各個組成部分之間的匹配情況,包括共現詞頻tf、文檔翻轉頻率idf、文檔長度dl及它們的各種組合形式;第二類是24個高級內容特徵,主要包括概率模型BM25和統計語言模型LMIR檢索模型,對該查詢-文檔對的打分,以及這些打分的變型形式;第三類是12個超連結特徵,主要包括PageRank、HITS在內的各種連結分析算法對該網頁的打分;第四類是8個網絡層次特徵,這主要反映了網頁所在的網絡中的一些結構信息。
[0013]在步驟3中,所述的建立樣本級排序模型的具體方法是:
[0014]在多排序模型的融合方法中,首先需要建立子排序模型;每一個子排序模型由一個查詢及其相關文檔建立;不同子排序模型之間能夠體現出查詢之間的差異性;
[0015]對於每一個查詢qi e Q,將這個查詢與其所有的相關文檔組成查詢-文檔對;每
一個查詢-文檔對〈q」 (Iij)都用一個特徵向量描述;
【權利要求】
1.一種體現查詢差異的直接優化性能指標排序方法,其特徵在於:所述的體現查詢差異的直接優化性能指標排序方法包括按順序執行的下列步驟: 步驟1、網頁爬取:從網際網路中爬取網頁,並解析處理,留下文本連接信息,形成網頁數據集; 步驟2、數據預處理及特徵提取:將步驟I中形成的網頁數據集與用戶查詢進行匹配,建立查詢-文檔對;所有查詢-文檔對都被表示成了特徵向量的形式,形成特徵數據集; 步驟3、建立樣本級排序模型:以排序支持向量機為子排序模型,以步驟2中形成的特徵數據集中的每一個查詢及其相關文檔為訓練子集,查詢-文檔對為基本訓練數據,建立樣本級訓練模型,著重於構建新的能反映排序學習問題中的查詢差異性和有序性的訓練數據; 步驟4、建立查詢級排序模型:以步驟3中形成的樣本級訓練模型的輸出作為訓練數據,在整個訓練數據集上建立查詢級訓練模型,給出新的損失函數作為優化目標,並利用此損失函數實現樣本級模型融合; 步驟5、預測新查詢:當有新的查詢需要預測時,需要構建與訓練數據形式相同的預測數據,使用樣本級模型構建特徵數據和查詢級模型兩步預測,得到最終的排序結果。
2.根據權利要求1所述的體現查詢差異的直接優化性能指標排序方法,其特徵在於:在步驟2中,所述的數據預處理及特徵提取的具體方法是:主要採用四大類共64維特徵:第一類是20個基本內容特徵,主要反映了查詢與網頁的各個組成部分之間的匹配情況,包括共現詞頻tf、文檔翻轉頻率idf、文檔長度dl及它們的各種組合形式;第二類是24個高級內容特徵,主要包括概率模型BM25和統計語言模型LMIR檢索模型,對該查詢-文檔對的打分,以及這些打分的變型形式;第三類是12個超連結特徵,主要包括PageRank、HITS在內的各種連結分析算法對該網頁的打分;第四類是8個網絡層次特徵,這主要反映了網頁所在的網絡中的一些結構信息。
3.根據權利要求1所述的體現查詢差異的直接優化性能指標排序方法,其特徵在於:在步驟3中,所述的建立樣本級排序模型的具體方法是: 在多排序模型的融合方法中,首先需要建立子排序模型;每一個子排序模型由一個查詢及其相關文檔建立;不同子排序模型之間能夠體現出查詢之間的差異性; 對於每一個查詢Qi e Q,將這個查詢與其所有的相關文檔組成查詢-文檔對;每一個查詢-文檔對〈1,(Iij)都用一個特徵向量^描述;4 = '?(I) 其中:D為特徵向量\的維數; 以查詢為單位將整個訓練數據集S =劃分為η個數據子集;隨後,在每一個訓練子集上建立子排序模型;假設排序決策函數f為線性損失函數,Μ;)=iVt(2) 以子模型的輸出作為子模型特徵的描述,每一個子模型的輸出為一維列向量,由融合模型調節每一維的權重。
4.根據權利要求1所述的體現查詢差異的直接優化性能指標排序方法,其特徵在於:在步驟4中,所述的建立查詢級排序模型的具體方法是: 基於多排序模型融合思想設計融合函數;基於評價指標NDCG,體現查詢差異的直接優化性能指標排序方法融合函數設計為:
5.根據權利要求4所述的體現查詢差異的直接優化性能指標排序方法,其特徵在於:所述的直接優化排序性能的融合函數的優化求解是使用梯度上升方法: 對於所有的X e R,指數函數exp(x)均為0-1函數的上界;因此,對於所有的X e R, I [x>0] < exp (X)均成立;即,
【文檔編號】G06F17/30GK103984733SQ201410213581
【公開日】2014年8月13日 申請日期:2014年5月20日 優先權日:2014年5月20日
【發明者】王揚 申請人:國家電網公司, 國網天津市電力公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀