一種文本上下文中實體地址信息的提取方法
2023-09-11 06:04:15
專利名稱::一種文本上下文中實體地址信息的提取方法
技術領域:
:本發明涉及文本信息提取領域,尤其涉及文本上下文中實體地址信息的提取方法。
背景技術:
:從文本中找出描述性信息並聯繫到給定實體上,形成對實體的完整描述,是文本信息提取領域的一項重要任務。因為機構、事件、人物等實體一般都會有其地址描述信息,這種信息對於實體的定位有著非常重要的作用。如何有效地從文本上下文中提取出與給定實體空間相關的地址描述信息是一項必要且具有很強實用性的工作。然而在文本上下文中提取與實體相關的地址描述信息上,目前在國內還很少有相關的研究工作,並且缺乏有效的提取方法。常見的做法是根據一定的模板匹配規則來實現地址的提取,比如將文本中關鍵詞"地址"後面的文字作為實體的地址描述信息提取出來。但是這種方法只能處理文本中固定格式的地址,對於模板以外格式的地址描述信息就無法抽取。發明的內容本發明的目的是針對與實體相關的地址信息提取方法上的不足,根據文本上下文中地址信息分布和結構上的特殊性,基於統計的手段,提出了一種文本上下文中實體地址信息的提取方法,本發明通過計算文本上下文中的地址與實體空間相關度從而確定實體的地址信息。採用該方法可以從文本上下文中找出與用戶輸入的實體名稱最空間相關的地址描述信息,進而幫助用戶定位。為了發現與實體空間相關的地址信息在文本上下文中的分布規律,我們以最常見的網頁文本為例,對網頁文本中實體名稱及其上下文中的地址分布進行了調查和統計分析。我們隨機選取了公司機構、餐飲酒店、娛樂休閒、地產樓盤大廈四大類共42個地理實體名稱作為樣本。對於每個實體名稱,我們通過搜尋引擎得到一部分包含它的網頁,並將這些網頁作為樣本數據集。然後對樣本數據集中實體名稱及其上下文中的地址分布情況進行人工的統計與分析首先記錄每個地址到離它最近的實體名稱的距離,即間隔的字數;然後再人工判斷該地址是否與實體在空間上相鄰。樣本數據集一共包含1490個網頁(每個實體名稱對應的網頁從一二十個到三百多個不等),我們從中提取出了10931個地址,其中與實體位置相關的地址(空間相關地址)有793個,無關地址(空間不相關地址)有10138個,它們與實體名稱之間的文字距離分布如圖1所示。因為距離實體名稱200個字以上的空間不相關地址有7000個以上,在圖1中並沒有將它們顯示出來。從圖1可以看出,整體上說,空間相關地址的出現頻率是與它到實體名稱的距離基本上是成反比的;而空間不相關地址的出現情況正好相反,與它到實體名稱的距離成正比。通過對樣本數據集的分析,可以得出以下三個結論一是,在實體名稱的上下文中距離它越近的地址信息,越有可能是與實體位置相鄰的地址(空間相關的地址);二是,實體名稱的上下文選取範圍越小,能正確描述實體位置的地址所佔比例越大;三是,在給定上下文範圍中,出現次數越多的地址,越有可能是與實體位置相關的地址。所以我們認為文本中距離實體名稱越近、出現次數越多的地址與實體的空間相關度也比較高,而距離遠、出現次數少的地址其空間相關度則比較低。計算相關度的時候,我們根據空間相關地址的出現概率設計了一個減函數f(X)來計算地址的空間相關度。f(x)的設計方法是地址與實體名稱之間的距離X越小時,f(X)越大。f(X)的值應該與距離X處空間相關地址的出現概率P有關,即f(X)與P成正比。在實際計算時,可以選取一個近似的減函數來代替f(x),如倒數函數(1/x)或冪函數(ax,a<l)等。如果一個網頁中同一個地址出現多次,則將每一個的空間相關度累加起來作為這個地址的總體空間相關度。將所有文本中同一地址的總體空間相關度累加起來,就得到了該地址與給定實體的綜合空間相關度。最後,將所有從文本上下文中識別的地址,按照其與給定實體的綜合空間相關度大小進行排列,選擇其中綜合空間相關度最大的幾個地址,推薦給用戶。在本發明中,地址識別採用的是常用的基於地名詞典的匹配方法(昝紅英,《基於實體屬性的中文網頁檢索研究》,北京大學博士論文,2004)。地址信息往往具有一定的區域性,在本發明方法中,地名詞典是針對特定的區域建立的,其中包含了該區域的基本的地名詞彙。為了更好地利用地名詞典進行地址識別,我們根據地名詞彙所描述的空間範圍不同,為每一個地名詞彙給予了不同的級別,如"北京市"為l級,"海澱區"為2級,"中關園"為3級,等等。地名詞典的建立以及地名詞彙的分級確定,是通過人工完成的。儘管根據減函數計算出的地址空間相關度己經可以反映出實體的位置信息,但是實際計算的過程中免不了會出現某些空間無關地址的文本距離比相關地址距離更近的情況,對實體真實地址的空間相關度計算帶來負面影響。為了處理這些文本中距離實體名稱較近,但實際地理位置上卻無關的地址,我們採用一種相關度"相互貢獻"的方法來排除噪音。根據前面人工分析得出的結論,與實體空間相關的地址,它們在文本中的實際位置也一定分布在實體周圍。利用這一特性,我們可以通過地址的文字信息,分析出它們在空間上的聚集性,並籍此提高這些相關的地址的相關度,從而達到排除幹擾項的目的。這種方法的基本思想是如果兩個地址包含同樣的地址元素(構成地址的最基本不可再分的元素,如出現在地名詞典中的單個地名詞彙,這些地名詞彙還有相應的級別,如"北京市"為1級,"海澱區"為2級,"中關園"為3級,等等)的話,那麼它們在空間上就會具有一定的相關性。它們之間相同的地址元素越多,這種相關性也就越強。在實際的算法中,如果地址Addn的所有地址元素集合S產(slseAddrJ,和地址Addrj的所有地址元素集合Sj={s|sEAddrj},滿足Sij二SiOSj不為空的話,則Addri、Addrj的相關度都增加g(SiP。g是根據地址元素交集大小和相交的地址元素級別來決定相關度增加量的函數,交集越大、相交地址元素的級別越低,則相關度增加的值越大。如g=Ste,g(seSij),其中相關度增加數值的基準baseValue可以根據當前地址列表中相關度的最大值或平均值來決定,n為地名詞典中地址元素的最大級別,l(s)為地址元素s的級別。級別低的重複地址元素的貢獻值會因為空間相關性低而在基礎貢獻值上有所減少。通過上面的分析,本發明提出的技術方案為一種文本上下文中實體地址信息的提取方法,其步驟為-1)針對要提取地址信息的區域,建立相應的地名詞典或採用已有的地名詞典;2)搜索包含用戶輸入的實體名稱的所有網頁;3)提取各網頁中實體名稱的上下文信息;4)從上下文信息中提取所有地名詞典中包含的地址信息;5)根據上述地址信息與實體名稱的字符距離設定各地址信息與實體名稱的空間相關度,字符距離越近,空間相關度值越高;6)根據空間相關度值對各地址信息進行排序;7)提取排序靠前的一定數量的地址信息返回客戶,供用戶選擇。所述實體名稱選自但不限於下列幾種實體名稱機構、事件、人物。所述地名詞典中的每一個地名詞彙(地址元素),根據其所描述的空間範圍不同具有不同的級別。所述上下文信息為距離實體名稱200個字以內的文本信息。所述地址信息與實體名稱的空間相關度為地址信息與實體名稱在網頁中字符距離的減函必r數。所述減函數為f(x)=l/(x+l),其中x為地址信息與地址關鍵詞的字符距離。所述減函數為f(x)=ax,其中0<a<l,x為地址信息與地址關鍵詞的字符距離。所述方法中根據各地址信息出現的次數對該地址信息與實體名稱的空間相關度值進行累加,得到的和作為該地址信息與實體名稱的相關度。所述方法中採用相互貢獻方法修正相關度值,所述相互貢獻方法為求任意兩個所搜集到的地址Addrj的所有地址元素集合S產(slsEAddrJ,和地址Addrj的所有地址元素集合Sj={s|sEAdd^中地址元素的交集及其對應的級別,根據相關度相互貢獻公式g-5]^i^(SESij),計算修正後的地址相關度值,其中相關度增加數值的基準baseValue可以根據當前地址列表中相關度的最大值或平均值來決定,n為地名詞典中地址元素的最大級別,l(s)為地址元素s的級別,Sij-SiOSj。發明的優點與積極效果本發明所提出的地址空間相關度計算方法可以有效地從網頁包含的地址中找出與用戶指定的實體空間相關的地址信息,輔助用戶進行定位。我們以北京市為例,對174個實體的地址信息識別進行了測試,這些實體主要包括公司企業、餐館酒店和休閒娛樂場等。每一個實體都能得到空間相關的地址信息,在我們的識別出的地址信息中,排名的第一位的地址信息,其與待定位實體空間相關的佔總結果數的82.2%;排名的前兩位的地址信息,其與待定位實體空間相關的佔總結果數的86.8%;排名的前三位的地址信息,其與待定位實體空間相關的佔總結果數的96.6%。可見只要給出排名前三位的結果,在大部分情況下就可以幫助用戶找到實體的空間相關的地址信息。圖1.網頁中的地址信息分布;圖2.本發明的方法流程圖。具體實施例方式下面我們通過一個具體的例子來說明如何實施本發明所描述的方法來計算網頁中的地址與實體的空間相關度。假設下面加黑的句子是關於實體"朋克美容美髮"的幾個個網頁的內容,斜體部分是標註好的地址部分。芬芳雪顏(煮jt77店),萘文,煮文/7//犬錄5號裔#岸乂舉公^4座7^皇.瑞寶娜護膚,市西凝^裔街",/丈銜S號金豐辨激世祭會樓W4皇美夢成真美容美體,廢澱^龍三單茨磁"號^^發會屋^《'J朋克美容美髮,廢^^^^^遭/74^f^"嵐《專^yzr—i探秘讓人毛骨悚然的南亞老鼠之城北京男子公開向楊麗娟求婚願供養其母*最後一套流通紙分幣今日起全部退市(圖)楊麗娟父親斥劉德華天津東馬路賣美容美髮用品用具的都搬到什麼地方去美業在線美容美髮有人去過;^4^,卩的朋克美容美髮麼?北京朋克造型美容美髮公司第一分店成立於2005年11月,位於yA^"^^^^"^^^^^錄伊W號,憑藉著先進的技術與獨特的裝修風格而響譽京城,其美容部更是以"成就美麗、引領時尚、發展美麗事業、創造美麗生活"為已任,以服務於廣大女性為宗旨,以法國C3D實驗室朋克美容美髮(0條評論)電話010-82867393(報錯)地址龍",,廢^^"^^^^麥^^^/^^"總過街,黑色店面,一般外面有音樂郵編100080交通方式375、331、731、743路五虔/7下車附近初始相關度的計算函數f(x)取近似值為1/(x+l)。如果網頁文本中同一個地址出現多次,則將每一個的空間相關度累加起來作為這個地址的總體空間相關度,將所有文本中同一地址的總體空間相關度累加起來,就得到了該地址與給定實體的綜合空間相關度。對上述文本處理後得到的各地址與實體"朋克美容美髮"的初始相關度值見表1左半部分。然後採用相互貢獻的方法,對初始相關度進行修正。如果地址之間有重複的地址元素,則兩個地址的相關度根據重複地址元素的詳細程度都得到一定的提升。比如如果是都包含地址元素"海澱區"(在地名詞典中它的級別為2,地名詞典中地名詞彙的最大級別為6),那麼相關度就都加0.1(相關度增加數值的基準baseValue為當前地址列表中相關度的最大值0.5,0.1=0.5/(6-2+1)),如果都包含"五道口"(在地名詞典中它的級別為3,地名詞典中地名詞彙的最大級別為6)這個更詳細的地址元素,那麼相關度就都加0.125(0.125=0.5/(6-3+1))。表1的右半部分是地址相互貢獻後排名變化情況。表l地址相互貢獻前後排名變化表tableseeoriginaldocumentpage8由表1可見,採用減函數就可以基本反映出實體的地址信息來,如果採用了"相互貢獻"的方法,則效果會更好。權利要求1.一種文本上下文中實體地址信息的提取方法,其步驟為1)針對要提取地址信息的區域,建立相應的地名詞典或採用已有的地名詞典;2)搜索包含用戶輸入的實體名稱的所有網頁;3)提取各網頁中實體名稱的上下文信息;4)從上下文信息中提取所有地名詞典中包含的地址信息;5)根據上述地址信息與實體名稱的字符距離設定各地址信息與實體名稱的空間相關度,字符距離越近,空間相關度值越高;6)根據空間相關度值對各地址信息進行排序;7)提取排序靠前的一定數量的地址信息返回客戶,供用戶選擇。2.如權利要求l所述的方法,其特徵在於所述實體名稱選自但不限於下列幾種實體名稱機構、事件、人物。3.如權利要求l所述的方法,其特徵在於所述地名詞典中的每一個地名詞彙,根據其所描述的空間範圍不同具有不同的級別。4.如權利要求l所述的方法,其特徵在於所述上下文信息為距離實體名稱200個字以內的文本信息。5.如權利要求1所述的方法,其特徵在於所述地址信息與實體名稱的空間相關度為地址信息與實體名稱在上下文中字符距離的減函數。6.如權利要求5所述的方法,其特徵在於所述減函數為f(x)-1/(x+l),其中x為地址信息與地址關鍵詞的字符距離。7.如權利要求5所述的方法,其特徵在於所述減函數為f(x)=ax,其中0〈a〈l,x為地址信息與地址關鍵詞的字符距離。8.如權利要求1所述的方法,其特徵在於根據同一地址信息出現的次數對該地址信息與實體名稱的空間相關度值進行累加,得到的和作為該地址信息與實體名稱的相關度。9.如權利要求1或8所述的方法,其特徵在於採用相互貢獻方法修正相關度值,所述相互貢獻方法為求任意兩個所搜集到的地址Addri的所有地址元素集合S產(slsEAddrJ,和地址Addrj的所有地址元素集合Sj-(slsEAddrj)中地址元素的交集及其對應的級別,根據相關度相互貢獻公式g=^,"g(seSu),計算修正後的地址相關度值,其中相關度增加數值的formulaseeoriginaldocumentpage2基準baseValue可以根據當前地址列表中相關度的最大值或平均值來決定,n為地名詞典中地址元素的最大級別,l(s)為地址元素s的級別,Sij二SjnSj。全文摘要本發明提供了一種文本上下文中實體地址信息的提取方法,其通過搜集包含實體名稱的網頁集合,進行初始相關度計算並對初始相關度進行修正得到最終的相關度,最後根據相關度進行排名,將排名前幾個的結果返回給用戶;本發明可以有效地從網頁包含的地址中找出與用戶指定的實體空間相關的地址信息,輔助用戶進行定位。文檔編號G06F17/30GK101110081SQ200710120548公開日2008年1月23日申請日期2007年8月21日優先權日2007年8月21日發明者周曉魯,汪小林,羅英偉,許卓群申請人:北京大學