交互式網際網路實體名稱的消歧方法
2023-07-30 15:03:26 3
專利名稱:交互式網際網路實體名稱的消歧方法
技術領域:
本發明涉及搜索技術,更具體地說,涉及一種能夠在網絡上精確查找實體的交互式網際網路實體名稱的消歧方法。
背景技術:
在諸如社交網絡是的網絡上,每一個「人」被看做是一個「實體」,用來識別或者查找這個實體(即「人」)的主要手段就是查找這個實體的網際網路實體名稱(webappearance)。網絡,由其實近來風靡的社交網絡的一個最主要的功能是縮短了人與人之間的距離,使得每個人與自己的朋友或者親人能夠保持密切的聯繫。所以,在社交網絡上,使用真實姓名的比例很高,如果在社交網絡上使用真實姓名,那麼這個姓名就是這個人(實體)的網際網路實體名稱。真實的姓名所帶來的一個問題就是重名的概率比較高。·無論是在社交網絡還是一般的網際網路上,如果要查找一個人或者一個網絡實體,那麼基於文字的關鍵字搜索是主要的方式。在查找自己感興趣的人的時候,以姓名作為關鍵字進行查找是最常用的方式。上面提到,因為重名的現象比較普遍,所以很難實現「精確搜索」,往往搜尋引擎會提供許多重名的人的信息或者頁面,用戶必須一個一個地進行瀏覽,才能夠確定哪一個才是自己真正想要查詢的人。這需要花費用戶大量的時間。此外,一般的搜尋引擎不提供頁面的合併功能,這就使得用戶可能會得到很多個重複的結果。再者,搜尋引擎有自己的結果排序規則,提供給用戶的搜索結果是按照搜尋引擎自己的排序規則排列,但這對於用戶來說並不是理想的順序。在找人的時候,用戶顯然希望能夠按照與目標人物(實體)的符合程度來進行排列,這樣才能夠節省用戶的時間。
發明內容
本發明旨在提出一種通過與用戶的交互來獲取信息,並藉助於這些信息對搜索結果進行合併和優化排序的交互式網際網路實體名稱的消歧方法。根據本發明的一實施例,提出一種交互式網際網路實體名稱的消歧方法。該方法包括三個主要的步驟預處理步驟、迭代排序步驟和呈現步驟。在預處理步驟中,接收查詢信息並基於查詢信息檢索與實體相關的網際網路實體名稱,查找包含查詢信息的網際網路實體名稱,將與同一個實體相關的網際網路實體名稱初始聚合。在迭代排序步驟中,循環執行下述步驟直至滿足終止條件根據排序模型按照與實體的類似程度對網際網路實體名稱進行排序;產生交互問題,交互問題包含選項;向用戶呈現交互問題並接收用戶選擇的選項作為用戶反饋;根據用戶反饋對排序模型進行優化,並根據優化的排序模型對網際網路實體名稱重新進行排序。在一個實施例中,終止條件包括排序模型不再產生新的信息或者收到用戶的終止指令。在呈現步驟中,選擇排序最前的網際網路實體名稱,基於該網際網路實體名稱生成總結頁面,該總結頁面與被查詢的實體相關,向用戶呈現總結頁面。根據本發明的一實施例,提出交互式網際網路實體名稱的消歧裝置。該裝置包括預處理裝置、迭代排序裝置和呈現裝置。預處理裝置接收查詢信息並基於查詢信息檢索與實體相關的網際網路實體名稱,查找包含查詢信息的網際網路實體名稱,將與同一個實體相關的網際網路實體名稱初始聚合。迭代排序裝置包括依次連接並依次工作的排序模型、問題產生模塊、問題呈現模塊和模型優化模塊。迭代排序裝置循環工作直至滿足終止條件,在一個實施例中,迭代排序裝置的終止條件包括排序模型不再產生新的信息或者收到用戶的終止指令。迭代排序裝置所包含的模塊中,排序模型按照與實體的類似程度對網際網路實體名稱進行排序。問題產生模塊產生包含選項的交互問題。問題呈現模塊向用戶呈現交互問題並接收用戶選擇的選項作為用戶反饋。模型優化模塊根據用戶反饋對排序模型進行優化,並指示經過優化的排序模型對網際網路實體名稱重新進行排序。呈現裝置選擇排序最前的網際網路實體名稱,基於該網際網路實體名稱生成總結頁面,該總結頁面與被查詢的實體相關,向用戶呈現總結頁面。根據本發明的一實施例,提出一種交互式網際網路實體名稱的消歧方法。該方法首先接收與被查詢的實體相關的查詢信息。然後檢索與實體相關的網際網路實體名稱並查找包含查詢信息的網際網路實體名稱,將與同一個實體相關的網際網路實體名稱初始聚合。該方法之後循環執行下述步驟,直至滿足終止條件根據排序模型按照與實體的類似程度對網際網路實體名稱進行排序;與用戶交互並收集用戶的反饋;依據用戶的反饋對排序模型進行優·化,並根據優化的排序模型對網際網路實體名稱重新進行排序;選擇排序最前的網際網路實體名稱,基於該網際網路實體名稱生成總結頁面,該總結頁面與被查詢的實體相關。在一個實施例中,終止條件包括排序模型不再產生新的信息;或者收到用戶的終止指令。在一個實施例中,與用戶交互並收集用戶的反饋包括產生包含選項的交互問題並向用戶呈現交互問題並接收用戶選擇的選項作為用戶反饋。該方法最後向用戶呈現總結頁面。
本發明的上述的以及其他的特徵、性質和優勢將通過下面結合附圖和實施例的描述而變得更加明顯,在附圖中,相同的附圖標記始終表示相同的特徵,其中圖I揭示了根據本發明的一實施例的交互式網際網路實體名稱的消歧方法的流程圖。圖2揭示了根據本發明的一實施例的交互式網際網路實體名稱的消歧裝置的結構圖。圖3揭示了根據本發明的一實施例的交互式網際網路實體名稱的消歧方法的流程圖。圖4揭示了根據本發明的一具體實現,iKnoweb的交互過程。
具體實施例方式參考圖I所示,揭示了根據本發明的一實施例的交互式網際網路實體名稱的消歧方法。該方法100包括如下的步驟預處理步驟102、迭代排序步驟104和呈現步驟106。在預處理步驟102中接收查詢信息並基於查詢信息檢索與實體相關的網際網路實體名稱,查找包含查詢信息的網際網路實體名稱,將與同一個實體相關的網際網路實體名稱初始聚合(initial clustering)。在一個實施例中,初始聚合應用啟發式規則。這裡,以利用本發明的技術的一個具體實現iKnoweb為例來對本發明的方法進行更加具體的說明。當用戶來到iKnoweb時,即開始了預處理步驟(pre-processing part)。通常,用戶會輸入希望查詢的人的姓名,輸入查詢姓名(query name)就被視為是輸入了查詢信息。iKnoweb會檢索所有的網際網路實體名稱,並且找到那些該查詢姓名至少出現一次的網際網路實體名稱。iKnoweb從這些網際網路實體名稱中提取一些預先設定的特徵,這些特徵包括詞組出現頻率、網頁上的名字實體、查詢人的真實信息等等。由於存在多個社交網絡,並且有許多的應用都提供實體名稱的服務,因此,同一個人在網際網路上可能擁有許多個實體名稱,這些實體名稱都是與同一個人相關。對於使用iKnoweb進行查找的用戶來說,用戶所關心的是「人」(實體本身)而不是某一個實體名稱或者某一個網頁,因此,對於這些與同一個人(實體)相關的實體名稱,需要將它們進行合併。合併與同一個實體相關的實體名稱是有利於加快與用戶的交互進程和搜索效率的。在iKnoweb中,利用聚合組件(clustering component)來將比較類似的網際網路實體名稱進行合併,合併成組(group)。此處將這個合併的過程稱之為初始聚合(initial clustering)。在初始聚合過程中,使用的初始聚合算法需要十分精確。因為iKnoweb的目標是提供給用戶100%精確的實體名稱。將類似(與同一個人關聯)的實體名稱合併到一個單一的組中·能夠節省用戶的時間。如果組是不精確的,那麼用戶還是需要重新展開這些組並且仔細地瀏覽族中的每一個頁面,這將耗費用戶大量的時間。在該初始聚合的過程中使用了一些啟發式(heuristic)的規則。進行初始聚合的目的是將類似的(與同一個人相關的)頁面進行聚合。通常由搜尋引擎返回的網際網路實體名稱可能包含重複的或者近似重複的頁面。為了減少用戶瀏覽並標記每一個類似的實體名稱,使用一種聚合算法來將實體名稱聚合成小型的組,這些組稱之為最大識別單元(maximum recognition unit,MRU)。最大識別單元的尺寸不需要很大,但是最大識別單元需要十分精確,其含義是,在每一個最大識別單元中的網頁需要是關於同一個人的。用戶只需要瀏覽一個最大識別單元中的一個網頁就可以獲得信息,並且確定是否這些網頁就是所要查詢的人的。有時候用戶希望要查看所有的網頁,這時也可以通過簡單的方法來在用戶界面中展開最大識別單元。在iKnoweb中,應用啟發式(heuristic)的規則來完成該初始聚合步驟。所有的實體名稱被視為無方向的圖形(undirected graph),而每一個實體名稱是一個節點(node)。如果至少一個規則在兩個端節點處被滿足,則使用一條無方向的邊連接兩個節點。之後基於連接的組件來聚合網際網路實體名稱。下面是iKnoweb使用的啟發性規則的三個例子I)兩個文件具有10個相同的標記(token);2)有5個以上的人(除了被查詢的人)是相同的;3)兩個文件進行的相同的提取操作。這些啟發式的規則是嚴格的並且在大多數時候是正確的。這些最大識別單元被視為下面所要描述的重新排序算法(re-ranking algorithm)中最小的信息單元。在完成了初始聚合之後,後續的操作會利用到這些聚合得到的組,這會進一步地節省用戶的時間。在預處理步驟中,本發明還提供了多種開始進程的方式,除了上面介紹的輸入查詢名字以外,還可以通過如下的方式來開始iKnoweb的預處理步驟通過登陸社交網絡,利用社交網絡提供的應用程式編程接口(API)來開始預處理步驟。在社交網絡上通常會提供數個應用程式編程接口(API)來訪問這些用戶的信息。用戶也可以通過輸入用戶名和口令的方式登錄,之後利用這些API來獲取用戶的信息。因此在iKnoweb上也提供了用戶通過輸入社交網絡以及社交網絡的介紹(profile)來啟動查詢的方式。利用社交網絡,除了名字以外,還可以利用介紹中的關鍵字,例如職業、教育背景等等來實現查詢。迭代排序步驟104循環執行下述步驟直至滿足終止條件,終止條件包括排序模型不再產生新的信息,例如沒有新的網際網路實體名稱產生、網際網路實體名稱的順序不再變動;或者收到用戶的終止指令。迭代排序步驟104循環執行的步驟包括140.根據排序模型(ranking model)按照與實體的類似程度對網際網路實體名稱進行排序。142.產生交互問題,交互問題包含選項。144.向用戶呈現交互問題並接收用戶選擇的選項作為用戶反饋,還包括對交互問·題進行選擇並呈現被選中的交互問題。146.根據用戶反饋對排序模型進行優化,並根據優化的排序模型對聚合體重新進行排序。在一個實施例中,排序模型進行優化包括基於歸一化期望標準對排序模型進行優化。在迭代排序步驟104中,對由預處理步驟102獲得的網際網路實體名稱進行排序,得到一個排序列表。最終的目的是,這個排序列表中排在最前面的網際網路實體名稱應當是最有可能與所查詢的實體相關的。在具體的實現,例如上面所描述的iKnoweb的實現中,迭代排序步驟在開始階段,在對於所查詢的實體,即查詢的人沒有預先的了解的情況下,第一次迭代中的初始排序表是依據網絡搜尋引擎(Web Search Engine)的排序結果。本發明的方案中,為了使得搜索結果能夠更加符合用戶的需求,希望對特徵進行排序,這些特徵反映了搜索到的實體與所查詢的實體的類似程度。本發明試圖對特徵進行排序並且從這些特徵中產生交互問題。在獲取經過排序的網際網路實體名稱與特徵後,iKnoweb自動在這些數據中進行選擇。只有可以確定與所查詢的實體相關的實體名稱以及與所查詢的實體相關的問題被選擇,選擇的內容被呈現給用戶。為了節省用戶的而時間,可以限制呈現給用戶的項目的數量。在用戶接收到這些內容之後,用戶給所呈現的實體名稱標記以三種標記「是」、「否」或者「不確定」。iKnoweb不會自動為用戶選擇一個實體名稱作為最終確定的實體名稱搜索結果,即使iKnoweb可以確定該網際網路實體名稱有很高的可能性就是用戶需要的那個實體的實體名稱,iKnoweb也不會這麼做。如此設計的目的有二 I)淨化(pure)結果的準確性;2) iKnoweb是一項搜索服務,用戶通過閱讀由搜索服務查詢到的信息來進行選擇,iKnoweb不進行任何的最終確定工作可以確保用戶不會遺漏閱讀任何有價值的實體名稱。在用戶標記了所有了項目之後,這些被標記的實例和問題將被用作新的訓練數據(training data)。用戶回答的問題可以而被認為是對特徵的標記,於是就可以得到兩種訓練數據經標記的實例(instance)和經標記的特徵(feature)。這些訓練數據被用於訓練多項邏輯回歸模型(multinomial logistic regression model),該多項邏輯回歸模型依據歸一化期望標準(generalized expectation criteria)對所有的網際網路實體名稱進行排序。歸一化期望標準具有模型化經標記的實例和經標記的特徵的能力。當iKnoweb得到一個新的重新經過訓練的模型時,重新開始這個過程,對所有未經確認的實體名稱進行重新排序,並基於用戶的反饋產生新的問題。iKnoweb反覆執行如下的四個步驟對網際網路實體名稱進行排序並產生問題、選擇實體名稱以及問題、用戶反饋、重新訓練模型。上述的步驟將被反覆進行直至出現下列之一的條件I) 沒有關於所查詢的實體的新的實體名稱出現,或者這些實體名稱的排列順序不再改變;2)用戶終止了交互進程。下面,對上述四個步驟中的關鍵過程進行詳細的說明重新排序算法(Re-rankingalgorithm)在用戶提供了他們的反饋之後,重新排序算法首先基於這些用戶反饋重新訓練模型,然後嘗試對餘下的實體名稱進行重新排序。在iKnoweb中,接收兩種類型的用戶反饋選擇/刪除實體名稱以及回答問題。被選擇的或者被刪除的實體名稱被視為經標記的實例,而回答的問題被視為經標記的特徵。例如,如果用戶回答一個問題「你認識A麼? 」,如果用戶回答「是」,那麼,將所有包含有關鍵字「A」的實體名稱與所查詢的實體之間的關聯可能性設置為一個十分接近「I」的值,例如「0. 99」,可以理解為這是一個條件概率。於是,每一個回答的問題都可以被視為是一個條件概率分布。將每一個實體名稱dsi作為一個特徵向量xsi。每一個實體名稱可被標記為「是」或者「否」,分別以標記ysi = I或者ysi = 0來表示。訓練問題可以被描述如下在一個集合Ds所包含的所有實體名稱中,一個子集L被標記,其中ZcA。V之eZ,可以得到一個標記ysi。同時得到一個關於所有的特徵的集合F,其中V/, e F,得到一個估計的分布例^ I / > 0)。從DS、L和F中,希望訓練一個模型M,模型M被用於對未經確認的部分Ds-L進行排序,排序的順序是依據與查詢實體Ps的類似程度。歸一化期望標準被用於考慮這些輸入。歸一化期望標準(generalizedexpectation criteria)傳統的可能性模型的參數是按照最大(後驗)似然估計(maximum aposteriorilikelihood estimation)、動差擬合(moment matching)或者是最大熵原貝丨J (maximumentropy principle) 而歸一化期望標準從另一個角度提供了一種估計參數的方法。歸一化期望標準是一個參數估計對象函數項,該函數表示了模型對於變量值的一些傾向性。該項(term)可以是多種類型,例如,可以將該項(term)定義為模型的期望值與目標值之間的距離。目標值可以是來自於外部的知識源,例如訓練數據、已知知識或者來自專家的幫助。歸一化期望標準的一個主要的好處是提供了一種人類直接展示他們頭腦中的知識並且方便地使用期望與模型進行交互的方法。設F為一些特徵的集合,並指定f E F。設0為定義F的概率分布的模型的參數Pe(F)0可以定義歸一化期望標準項為函數G。G(Ee [f(X)]) — R其中f (X)是特徵X的任意函數,產生一些標量(scalar)或者向量值。Ee [f (X)]是根據模型對f的期望。一般,距離函數G可以是兩個分布之間的KL偏離(KL divergency),或者是兩個期望之間的標準距離(norm distance)。在本實施例中,使用KL偏離(KLdivergency)來度量用戶輸入的參考分布與模型估計的特徵分布之間的距離。該項可被用作目標函數的一部分。通過最小化目標函數就能夠得到優化的參數
權利要求
1.一種交互式網際網路實體名稱(web appearance)的消歧方法,其特徵在於,包括 預處理步驟,接收查詢信息並基於查詢信息檢索與實體相關的網際網路實體名稱,查找包含所述查詢信息的網際網路實體名稱,將與同一個實體相關的網際網路實體名稱初始聚合(initial clustering); 迭代排序步驟,循環執行下述步驟直至滿足終止條件 根據排序模型(ranking model),按照與實體的類似程度對網際網路實體名稱進行排序; 產生交互問題,所述交互問題包含選項; 向用戶呈現交互問題並接收用戶選擇的選項作為用戶反饋; 根據用戶反饋對排序模型進行優化,並根據優化的排序模型對網際網路實體名稱重新進行排序; 呈現步驟,選擇排序最前的網際網路實體名稱,基於該網際網路實體名稱生成總結頁面(summarization page),該總結頁面與被查詢的實體相關,向用戶呈現所述總結頁面。
2.如權利要求I所述的交互式網際網路實體名稱的消歧方法,其特徵在於,所述終止條件包括 排序模型不再產生新的信息;或者 收到用戶的終止指令。
3.如權利要求I所述的交互式網際網路實體名稱的消歧方法,其特徵在於,向用戶呈現交互問題包括對交互問題進行選擇並呈現被選中的交互問題。
4.如權利要求I所述的交互式網際網路實體名稱的消歧方法,其特徵在於,將與同一個實體相關的網際網路實體名稱初始聚合包括應用啟發式規則。
5.如權利要求I所述的交互式網際網路實體名稱的消歧方法,其特徵在於,對排序模型進行優化包括基於歸一化期望標準對排序模型進行優化。
6.如權利要求I所述的交互式網際網路實體名稱的消歧方法,其特徵在於,所述呈現步驟還包括 利用所述排序模型對新獲取的網際網路實體名稱進行分類並通知用戶。
7.一種交互式網際網路實體名稱的消歧裝置,其特徵在於,包括 預處理裝置,接收查詢信息並基於查詢信息檢索與實體相關的網際網路實體名稱,查找包含所述查詢信息的網際網路實體名稱,將與同一個實體相關的網際網路實體名稱初始聚合;迭代排序裝置,迭代排序裝置包括依次連接並依次工作的下述模塊,迭代排序裝置循環工作直至滿足終止條件 排序模型(ranking model),按照與實體的類似程度對網際網路實體名稱進行排序; 問題產生模塊,產生交互問題,所述交互問題包含選項; 問題呈現模塊,向用戶呈現交互問題並接收用戶選擇的選項作為用戶反饋; 模型優化模塊,根據用戶反饋對排序模型進行優化,並指示經過優化的排序模型對網際網路實體名稱重新進行排序; 呈現裝置,選擇排序最前的網際網路實體名稱,基於該網際網路實體名稱生成總結頁面,該總結頁面與被查詢的實體相關,向用戶呈現所述總結頁面。
8.如權利要求7所述的交互式網際網路實體名稱的消歧裝置,其特徵在於,迭代排序裝置的終止條件包括 排序模型不再產生新的信息;或者 收到用戶的終止指令。
9.如權利要求7所述的交互式網際網路實體名稱的消歧裝置,其特徵在於,問題呈現模塊進一步包括問題選擇模塊,問題選擇模塊對交互問題進行選擇,問題呈現模塊呈現被問題選擇模塊選中的交互問題。
10.如權利要求7所述的交互式網際網路實體名稱的消歧裝置,其特徵在於,預處理裝置應用啟發式規則將與同一個實體相關的網際網路實體名稱初始聚合。
11.如權利要求7所述的交互式網際網路實體名稱的消歧裝置,其特徵在於,模型優化模塊對排序模型進行優化包括基於歸一化期望標準對排序模型進行優化。
12.如權利要求7所述的交互式網際網路實體名稱的消歧裝置,其特徵在於,所述呈現裝置還包括 分類及通知模塊,利用所述排序模型對新獲取的網際網路實體名稱進行分類並通知用戶。
13.一種交互式網際網路實體名稱的消歧方法,其特徵在於,包括 接收查詢信息,該查詢信息與被查詢的實體相關; 檢索網際網路實體名稱,所述網際網路實體名稱與實體相關,查找包含所述查詢信息的網際網路實體名稱,將與同一個實體相關的網際網路實體名稱初始聚合; 循環執行下述步驟,直至滿足終止條件 根據排序模型對網際網路實體名稱進行排序,排序的順序是按照與實體的類似程度; 與用戶交互並收集用戶的反饋; 依據用戶的反饋對排序模型進行優化,並根據優化的排序模型對網際網路實體名稱重新進行排序; 選擇排序最前的網際網路實體名稱,基於該網際網路實體名稱生成總結頁面,該總結頁面與被查詢的實體相關; 向用戶呈現所述總結頁面。
14.如權利要求13所述的交互式網際網路實體名稱的消歧方法,其特徵在於,所述終止條件包括 排序模型不再產生新的信息;或者 收到用戶的終止指令。
15.如權利要求13所述的交互式網際網路實體名稱的消歧方法,其特徵在於,與用戶交互並收集用戶的反饋包括 產生包含選項的交互問題; 向用戶呈現交互問題並接收用戶選擇的選項作為用戶反饋。
16.如權利要求15所述的交互式網際網路實體名稱的消歧方法,其特徵在於,與用戶交互並收集用戶的反饋包括 向用戶呈現交互問題包括對交互問題進行選擇並呈現被選中的交互問題。
17.如權利要求13所述的交互式網際網路實體名稱的消歧方法,其特徵在於,將包含查詢信息的網際網路實體名稱初始聚合包括應用啟發式規則。
18.如權利要求13所述的交互式網際網路實體名稱的消歧方法,其特徵在於,對排序模型進行優化包括基於歸一化期望標準對排序模型進行優化。
19.如權利要求13所述的交互式網際網路實體名稱的消歧方法,其特徵在於,還包括 利用所述排序模型對新獲取的網際網路實體名稱進行分類並通知用戶。
全文摘要
本發明揭示了一種交互式網際網路實體名稱的消歧方法。該方法包括三個主要的步驟預處理步驟、迭代排序步驟和呈現步驟。在預處理步驟中,接收查詢信息並基於查詢信息檢索與實體相關的網際網路實體名稱,將與同一個實體相關的網際網路實體名稱初始聚合。在迭代排序步驟中,循環執行下述步驟直至滿足終止條件根據排序模型按照與實體的類似程度對網際網路實體名稱進行排序;產生包含選項的交互問題;向用戶呈現交互問題並接收用戶選擇的選項作為用戶反饋;根據用戶反饋對排序模型進行優化,並重新對網際網路實體名稱進行排序。在呈現步驟中,選擇排序最前的網際網路實體名稱並生成與被查詢的實體相關的總結頁面,向用戶呈現總結頁面。
文檔編號G06F17/30GK102968419SQ20111026673
公開日2013年3月13日 申請日期2011年8月31日 優先權日2011年8月31日
發明者劉曉江, 聶再清, 曹湧, 呂正東, 羅剛, 文繼榮, 馬維英 申請人:微軟公司