一種體現查詢差異的直接優化性能指標排序方法
2023-10-07 09:54:29 3
一種體現查詢差異的直接優化性能指標排序方法
【專利摘要】一種體現查詢差異的直接優化性能指標排序方法。其包括:步驟1.網頁爬取;步驟2.數據預處理及特徵提取;步驟3.建立樣本級排序模型;步驟4.建立查詢級排序模型;步驟5.預測新查詢。本發明在排序模型建立過程中考慮查詢差異,基於大規模真實數據的實驗結果表明,使用本發明提供的體現查詢差異的直接優化性能指標排序方法可以取得比傳統排序學習模型更好的性能。本發明提供的方法除排序學習之外,還可應用於多類分類、序列標註等問題,在文本分類、信息檢索、網絡搜索等領域具有廣泛的應用前景。
【專利說明】一種體現查詢差異的直接優化性能指標排序方法
【技術領域】
[0001]本發明屬於網絡搜索和機器學習【技術領域】,特別是涉及一種體現查詢差異的直接優化性能指標排序方法。
【背景技術】
[0002]排序學習旨在為目標對象按照某種規律確定一個等級順序,是目前網絡搜索與機器學習領域研究的熱點問題;現有排序學習方法可分為三類:基於數據點排序學習方法,基於有序對的排序學習方法和基於列表的排序學習方法。排序學習在信息檢索、網頁搜索等方面有著廣泛的應用前景。
[0003]與傳統的機器學習任務(如分類任務等)相比,排序學習問題具有自身特性;由於待排序的文檔分別是由不同的查詢檢索得到的,因此只有同一個查詢檢索到的文檔之間才有序關係;在排序學習任務中,不同查詢及其對應文檔之間,如在數據分布、評價指標和預測未知查詢能力等方面,存在顯著的差異;現有排序學習方法在建立排序模型過程中,沒有考慮查詢及其相關文檔之間的差異,在一定程度上影響了排序模型的性能;因此,有必要在建立排序模型過程中考慮不同查詢及其相關文檔之間的差異。
[0004]近年來提出的部分排序學習方法在一定程度上考慮了查詢之間的差異;與本發明研究緊密相關的包括兩大類方法:一是與查詢相關的排序學習,二是排序模型融合與查詢相關的排序學習方法建立多個排序模型,對於不同的預測查詢使用不同的排序模型預測;Geng等基於K近鄰方法,提出了與查詢相關的排序學習方法。Ni等將排序樣本與查詢相關的性質抽象為分組學習問題,使用共性模型和特性模型共同預測排序結果。Peng等提出使用JS-散度選擇與未知查詢最相關的排序模型算法。以上三種與查詢相關的排序學習方法雖考慮了排序樣本與查詢相關的特性,但仍存在以下一些不足:1.與查詢相關的排序學習方法將訓練集割裂為若干個訓練子集;此方法只注意到訓練集中樣本的區別,沒有考慮到樣本之間還存在著聯繫;2.每個與查詢相關排序子模型只使用訓練集中的部分樣本而非所有樣本參與訓練,導致排序模型性能不佳;3.訓練過程中需要建立大量排序模型,模型訓練的時間代價過大;排序模型融合主要包括以下幾種方法。Qin等提出依照查詢-文檔對的相關程度標註將整個數據集劃分為多個數據子集,而後使用BordaCount算法融合多個子排序模型的結果。Liu等將排序模型融合問題轉化為半正定規劃問題,使用馬爾科夫過程建模並優化。Bian等提出一種基於主題的多排序模型融合方法,使用支持向量機方法建立排序模型;排序模型融合方法雖然在性能上取得比傳統使用單一模型決策更好的性能,但是在子模型建立過程中並未特別考慮排序學習中查詢之間存在的差異;此外,多數方法使用計算概率、加權融合等方法簡單線性合併子模型,並未明確提出一種適用於排序學習問題的融合函數;但是,基於列表的排序學習方法和直接優化評價指標排序學習方法在建模過程中都沒有特別考慮查詢之間的差異。與查詢相關的排序學習方法雖比傳統建立單一模型增加考慮了查詢特性,但依然存在兩個問題:一是特性的選擇過程與排序模型的建立相脫離,並沒有體現於排序模型損失上;二是訓練得到多個模型,不便於最終排序結果的處理。
【發明內容】
[0005]為了解決上述問題,本發明的目的在於提供一種體現查詢差異的直接優化性能指標排序方法。
[0006]為了達到上述目的,本發明提供的體現查詢差異的直接優化性能指標排序方法包括按順序執行的下列步驟:
[0007]步驟1、網頁爬取:從網際網路中爬取網頁,並解析處理,留下文本連接信息,形成網頁數據集;
[0008]步驟2、數據預處理及特徵提取:將步驟I中形成的網頁數據集與用戶查詢進行匹配,建立查詢-文檔對;所有查詢-文檔對都被表示成了特徵向量的形式,形成特徵數據集;
[0009]步驟3、建立樣本級排序模型:以排序支持向量機為子排序模型,以步驟2中形成的特徵數據集中的每一個查詢及其相關文檔為訓練子集,查詢-文檔對為基本訓練數據,建立樣本級訓練模型,著重於構建新的能反映排序學習問題中的查詢差異性和有序性的訓練數據;
[0010]步驟4、建立查詢級排序模型:以步驟3中形成的樣本級訓練模型的輸出作為訓練數據,在整個訓練數據集上建立查詢級訓練模型,給出新的損失函數作為優化目標,並利用此損失函數實現樣本級模型融合;
[0011]步驟5、預測新查詢:當有新的查詢需要預測時,需要構建與訓練數據形式相同的預測數據,使用樣本級模型構建特徵數據和查詢級模型兩步預測,得到最終的排序結果。
[0012]在步驟2中,所述的數據預處理及特徵提取的具體方法是:主要採用四大類共64維特徵:第一類是20個基本內容特徵,主要反映了查詢與網頁的各個組成部分之間的匹配情況,包括共現詞頻tf、文檔翻轉頻率idf、文檔長度dl及它們的各種組合形式;第二類是24個高級內容特徵,主要包括概率模型BM25和統計語言模型LMIR檢索模型,對該查詢-文檔對的打分,以及這些打分的變型形式;第三類是12個超連結特徵,主要包括PageRank、HITS在內的各種連結分析算法對該網頁的打分;第四類是8個網絡層次特徵,這主要反映了網頁所在的網絡中的一些結構信息。
[0013]在步驟3中,所述的建立樣本級排序模型的具體方法是:
[0014]在多排序模型的融合方法中,首先需要建立子排序模型;每一個子排序模型由一個查詢及其相關文檔建立;不同子排序模型之間能夠體現出查詢之間的差異性;
[0015]對於每一個查詢qi e Q,將這個查詢與其所有的相關文檔組成查詢-文檔對;每
一個查詢-文檔對〈q」 (Iij)都用一個特徵向量描述;
【權利要求】
1.一種體現查詢差異的直接優化性能指標排序方法,其特徵在於:所述的體現查詢差異的直接優化性能指標排序方法包括按順序執行的下列步驟: 步驟1、網頁爬取:從網際網路中爬取網頁,並解析處理,留下文本連接信息,形成網頁數據集; 步驟2、數據預處理及特徵提取:將步驟I中形成的網頁數據集與用戶查詢進行匹配,建立查詢-文檔對;所有查詢-文檔對都被表示成了特徵向量的形式,形成特徵數據集; 步驟3、建立樣本級排序模型:以排序支持向量機為子排序模型,以步驟2中形成的特徵數據集中的每一個查詢及其相關文檔為訓練子集,查詢-文檔對為基本訓練數據,建立樣本級訓練模型,著重於構建新的能反映排序學習問題中的查詢差異性和有序性的訓練數據; 步驟4、建立查詢級排序模型:以步驟3中形成的樣本級訓練模型的輸出作為訓練數據,在整個訓練數據集上建立查詢級訓練模型,給出新的損失函數作為優化目標,並利用此損失函數實現樣本級模型融合; 步驟5、預測新查詢:當有新的查詢需要預測時,需要構建與訓練數據形式相同的預測數據,使用樣本級模型構建特徵數據和查詢級模型兩步預測,得到最終的排序結果。
2.根據權利要求1所述的體現查詢差異的直接優化性能指標排序方法,其特徵在於:在步驟2中,所述的數據預處理及特徵提取的具體方法是:主要採用四大類共64維特徵:第一類是20個基本內容特徵,主要反映了查詢與網頁的各個組成部分之間的匹配情況,包括共現詞頻tf、文檔翻轉頻率idf、文檔長度dl及它們的各種組合形式;第二類是24個高級內容特徵,主要包括概率模型BM25和統計語言模型LMIR檢索模型,對該查詢-文檔對的打分,以及這些打分的變型形式;第三類是12個超連結特徵,主要包括PageRank、HITS在內的各種連結分析算法對該網頁的打分;第四類是8個網絡層次特徵,這主要反映了網頁所在的網絡中的一些結構信息。
3.根據權利要求1所述的體現查詢差異的直接優化性能指標排序方法,其特徵在於:在步驟3中,所述的建立樣本級排序模型的具體方法是: 在多排序模型的融合方法中,首先需要建立子排序模型;每一個子排序模型由一個查詢及其相關文檔建立;不同子排序模型之間能夠體現出查詢之間的差異性; 對於每一個查詢Qi e Q,將這個查詢與其所有的相關文檔組成查詢-文檔對;每一個查詢-文檔對〈1,(Iij)都用一個特徵向量^描述;4 = '?(I) 其中:D為特徵向量\的維數; 以查詢為單位將整個訓練數據集S =劃分為η個數據子集;隨後,在每一個訓練子集上建立子排序模型;假設排序決策函數f為線性損失函數,Μ;)=iVt(2) 以子模型的輸出作為子模型特徵的描述,每一個子模型的輸出為一維列向量,由融合模型調節每一維的權重。
4.根據權利要求1所述的體現查詢差異的直接優化性能指標排序方法,其特徵在於:在步驟4中,所述的建立查詢級排序模型的具體方法是: 基於多排序模型融合思想設計融合函數;基於評價指標NDCG,體現查詢差異的直接優化性能指標排序方法融合函數設計為:
5.根據權利要求4所述的體現查詢差異的直接優化性能指標排序方法,其特徵在於:所述的直接優化排序性能的融合函數的優化求解是使用梯度上升方法: 對於所有的X e R,指數函數exp(x)均為0-1函數的上界;因此,對於所有的X e R, I [x>0] < exp (X)均成立;即,
【文檔編號】G06F17/30GK103984733SQ201410213581
【公開日】2014年8月13日 申請日期:2014年5月20日 優先權日:2014年5月20日
【發明者】王揚 申請人:國家電網公司, 國網天津市電力公司