新四季網

一種從網際網路非結構化文本提取道路交通信息方法

2023-06-12 14:31:51

一種從網際網路非結構化文本提取道路交通信息方法
【專利摘要】本發明提出了一種從網際網路非結構化文本提取道路交通信息的方法。所述方法包括:定義道路交通信息的數據結構和道路交通信息描述特徵詞類型;由少量人工制定的基礎提取模式擴展得到提取模式庫;對輸入的網際網路非結構化文本預處理後生成特徵詞類型序列;根據特徵詞類型序列的相似度獲取輸入文本的匹配提取模式;利用匹配提取模式從網際網路非結構化文本中提取道路交通信息的定位信息元素和類型信息元素;利用正則表達式和判斷規則從輸入文本中提取時間信息元素;由定位信息元素、類型信息元素和時間信息元素組合得到道路交通信息。利用本發明,可以對採集自網際網路的非結構化文本進行實時處理,提取道路交通信息,豐富交通信息採集手段。
【專利說明】一種從網際網路非結構化文本提取道路交通信息方法
【技術領域】
[0001]本發明涉及交通信息領域,特別是一種用於從網際網路非結構化文本提取道路交通信息的方法。
【背景技術】
[0002]城市中機動車數量的不斷增加使城市道路交通問題日益突出,公眾對實時道路交通信息的需求也更加迫切。道路交通信息主要包括道路交通流、道路路況、交通限制、交通管制、交通事件、交通天氣與路面環境信息等。現有的實時道路交通信息採集技術,如固定傳感器技術(感應線圈、視頻監控和微波探測),安裝GPS和無線通訊設備的浮動車技術、移動通訊終端信令分析技術等在獲取實時交通流信息方面得到了廣泛應用,但無法採集突發性交通事件、臨時交通管制、新增交通限制等道路交通信息。與此同時,網際網路作為當今社會一種便捷高效的信息載體,吸引了大量政府機構、專業信息提供商和個人用戶在專業網站、論壇和微博客平臺發布實時道路交通信息。這些信息類型覆蓋豐富、時效性強,其信息量也將隨著用戶數量的增長而不斷增加,因此,網際網路蘊含道路交通信息將成為獲取實時道路交通信息的重要數據來源,與其他交通信息採集技術形成互補,在政府規劃決策、公眾出行服務方面發揮重要作用。
[0003]當前部分網際網路蘊含道路交通信息以非結構化文本形式存在,這些非結構化文本一般通過自然語言的形式對道路交通事件進行描述。然而,現有道路交通信息系統只能處理以二維表形式表達的結構化數據,需要藉助信息抽取技術從網際網路非結構化文本中提取結構化的道路交通信息。現有信息抽取技術沒有考慮道路交通信息描述的特點,無法從網際網路非結構化文本中正確識別基於線性參照方法的道路定位描述信息,以及缺乏處理網際網路非結構化文本描述中的道路交通信息元素隱含和省略現象的能力。

【發明內容】

[0004]本發明技術解決問題:克服現有技術不足,提供一種用於從網際網路非結構化文本中提取道路交通信息的方法,能夠從網際網路非結構化文本中識別基於線性參照方法的道路定位描述信息,並正確處理文本描述中出現的道路交通信息元素隱含和省略現象,可用於交通信息系統和服務平臺,實現網際網路非結構化文本蘊含道路交通信息的自動採集與處理。
[0005]本發明技術解決方案:一種從網際網路非結構化文本提取道路交通信息方法,對採集自網際網路相關網站的實時文本數據進行處理,從中識別和提取道路交通信息應包含的定位信息元素、類型信息元素和時間信息元素,為道路交通信息的融合與發布提供支持。具體步驟如下:
[0006]步驟1.定義道路交通信息的數據結構,便於以二維表的形式組織和管理道路交通信息,所述數據結構由信息元素和信息元素的具體元素屬性組成,所述信息元素包括定位信息元素、類型信息元素和時間信息元素,所述定位信息元素包含的元素屬性有中心線道路、起始道路、終止道路、起始方向和終止方向,所述類型信息元素包含的元素屬性有交通事件類型,所述時間信息元素包含的元素屬性有交通事件開始時間和交通事件結束時間;所述道路交通信息包括道路路況信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路環境信息;
[0007]步驟2.將在描述道路交通信息過程中起關鍵作用的詞彙作為特徵詞,根據這些詞彙在網際網路非結構化文本中起到的語法作用,定義用於填充道路交通信息元素屬性的特徵詞的類型,並按特徵詞類型構建交通專業詞庫,所述特徵詞類型具體包括道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞和一般詞;所述一般詞指不包含在道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞等特徵詞類型中的詞彙;所述網際網路非結構化文本是指網頁新聞、論壇帖子、博文日誌、微博消息;
[0008]步驟3.基於步驟I定義的道路交通信息的數據結構和步驟2定義的特徵詞類型,結合網際網路非結構化文本中描述交通事件的語法結構特徵和句法結構特徵,人工制定基本提取模式,通過規則對基本提取模式進行擴展,得到提取模式庫;所述提取模式包括特徵詞類型序列和元素屬性序列兩個部分;所述特徵詞類型序列是人們在網際網路非結構化文本中描述交通事件時所用特徵詞的類型的先後順序排列,提取模式中特徵詞類型序列的功能是判斷網際網路非結構化文本能否與該提取模式匹配;所述元素屬性序列與特徵詞類型序列長度相同,元素屬性序列中的序列項是特徵詞類型序列中相同位置序列項在道路交通信息中對應的元素屬性,元素屬性序列的功能是指導計算機將網際網路非結構化文本出現的特徵詞映射至道路交通信息對應的元素屬性中;
[0009]步驟4.將採集的網際網路非結構化文本作為輸入文本,對輸入文本進行預處理;所述預處理包括刪除輸入文本中的重複信息和對輸入文本作中文分詞,得到輸入文本的詞彙序列;
[0010]步驟5.利用步驟2的交通專業詞庫識別步驟4所得詞彙序列中出現的特徵詞,並按照特徵詞在輸入文本中的先後順序記錄特徵詞的類型,生成輸入文本的特徵詞類型序列,通過判斷道路交通信息元素屬性所需的特徵詞類型是否完整對輸入文本進行過濾;
[0011]步驟6.對輸入文本斷句,根據斷句得到的句子集合,將步驟5所得輸入文本的特徵詞類型序列分割成與句子集合對應的特徵詞類型序列集合,利用動態時間彎曲DTW(DynamicTime Warping, DTW)距離度量該特徵詞類型序列集合中各特徵詞類型序列與提取模式庫中各提取模式的特徵詞類型序列的相似度,選擇相似度最高且小於給定閾值的提取模式作為該句子的匹配提取模式;
[0012]步驟7.遍歷輸入文本的句子集合,若句子集合中的句子在步驟6取得匹配提取模式,則根據該匹配提取模式的元素屬性序列將該句子中的特徵詞填充至對應的道路交通信息元素屬性,生成該句子對應的道路交通信息;遍歷完成後,判斷所得道路交通信息的定位信息元素中中心線道路屬性和類型信息元素中交通事件類型屬性是否完整,如果不完整,則利用補充規則對道路交通信息缺失的定位信息元素中中心線道路屬性或類型信息元素中交通事件類型屬性進行填補;最後,得到輸入文本已提取定位信息元素和類型信息元素的道路交通信息集合;
[0013]步驟8.根據網際網路非結構化文本中對時間的不同表達形式,人工制定提取年、月、日、時、分、秒時間要素數值的正則表達式集合,結合判斷規則利用該正則表達式集合從輸入文本中提取時間要素數值,將這些時間要素數值組合成交通事件開始時間元素屬性和交通事件結束時間元素屬性,得到道路交通信息的時間信息元素;
[0014]步驟9.將步驟8提取的時間信息元素填充至步驟7得到的道路交通信息集合各條道路交通信息中,得到道路交通信息元素完整的道路交通信息集合。
[0015]所述步驟6中,在利用DTW距離度量各句子的特徵詞類型序列與提取模式庫中各提取模式的特徵詞類型序列的相似度過程中實現為:
[0016]若Ci = tj,令(!(Ci, tj) = O ;
[0017]若Ci關t」,且tj為道路名稱詞、道路事件詞,令d(Ci,tj) = 2 ;
[0018]若Ci關tj,且tj為附屬定位詞、方向描述詞、介詞、一般詞,令(!(Ci, tj) = I ;
[0019]其中,Ci表示輸入文本句子的特徵詞類型序列的第i個序列項,表示提取模式中的特徵詞類型序列的第j個序列項,d(Ci, tj)表示Ci和&間的距離值。
[0020]所述步驟7中,對道路交通信息缺失的類型信息元素中交通事件類型屬性進行填補的補充規則為:
[0021](I)當前待處理道路交通信息對應句子Si, j = i ;
[0022](2)讀取句子Sj (j = j_l),若句子Sj存在,則轉到步驟(3);否則,轉到(6);
[0023](3)若句子S」特徵詞類型序列滿足「類型信息元素定位信息元素」的序列結構,轉到步驟(4);否則,轉到步驟(5);
[0024](4)將句子Sj對應的交通事件類型屬性賦予當前待處理道路交通信息,補充過程結束;
[0025](5)若句子S」特徵詞類型序列滿足「定位信息元素類型信息元素」的序列結構,轉到步驟(6);否則,轉到步驟(2);
[0026](6)句子Sj與句子Si無關,j = i,轉到步驟(7);
[0027](7)讀取句子S」(j = j+1),若句子S」存在,則轉到步驟(8);否則,補充過程結束;
[0028](8)若句子S」特徵詞類型序列滿足「定位信息元素類型信息元素」的序列結構,轉到步驟(4);否則,轉到步驟(9);
[0029](9)若句子S」特徵詞類型序列滿足「類型信息元素定位信息元素」的序列結構,則句子S」與句子Si無關,補充過程結束;否則,轉到步驟(7)。
[0030]所述步驟7中,對道路交通信息缺失的定位信息元素中中心線道路屬性進行填補的補充規則為:
[0031](I)當前待處理道路交通信息對應句子Si, j = i ;
[0032](2)讀取句子Sj (j = j_l),若句子Sj存在,則轉到步驟(3);否則,補充過程結束;
[0033](3)若句子S」特徵詞類型序列滿足「類型信息元素定位信息元素」的序列結構,且含有中心線道路屬性,則轉到步驟(4);否則,轉到步驟(5);
[0034](4)將句子Sj對應的道路交通信息的中心線道路屬性賦予當前待處理道路交通信息,補充過程結束;
[0035](5)若句子S」有對應的道路交通信息,且缺失中心線道路屬性,則轉到步驟(2);否貝U,補充過程結束 。
[0036]本發明與現有技術相比的優點在於:在信息提取過程中充分考慮道路交通信息描述的特點,提取方法能識別網際網路非結構化文本中基於線性參照的定位描述信息,並正確處理文本描述中出現的道路交通信息元素隱含和省略現象,實現從基於自然語言表達的網際網路非結構化文本中提取道路交通信息。提取過程不需要大量人工幹預,便於計算機對實時採集的網際網路非結構化文本進行自動處理。
【專利附圖】

【附圖說明】
[0037]圖1是本發明方法的流程圖;
[0038]圖2是道路交通信息缺失類型信息元素中交通事件類型屬性補充方法的流程圖;
[0039]圖3是道路交通信息缺失定位信息元素中中心線道路屬性補充方法的流程圖;
[0040]圖4是道路交通信息時間信息元素提取方法的流程圖。
【具體實施方式】
[0041]為了使本【技術領域】的人員更好地理解本發明實施例的方案,下面結合附圖和實施方式對本發明實施例作進一步的詳細說明。
[0042]如圖1所示,是本發明實施例一種從網際網路非結構化文本提取道路交通信息方法的流程圖,包括以下步驟:
[0043]步驟1.定義道路交通信息的數據結構,便於以二維表的形式組織和管理道路交通信息,該數據結構由信息元素和信息元素的具體元素屬性組成,能夠用來表達的道路交通信息的類型有道路路況信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路環境信息。具體內容如下:
【權利要求】
1.一種從網際網路非結構化文本提取道路交通信息方法,其特徵在於實現步驟如下:步驟1.定義道路交通信息的數據結構,便於以二維表的形式組織和管理道路交通信息,所述數據結構由信息元素和信息元素的具體元素屬性組成,所述信息元素包括定位信息元素、類型信息元素和時間信息元素,所述定位信息元素包含的元素屬性有中心線道路、起始道路、終止道路、起始方向和終止方向,所述類型信息元素包含的元素屬性有交通事件類型,所述時間信息元素包含的元素屬性有交通事件開始時間和交通事件結束時間;所述道路交通信息包括道路路況信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路環境信息; 步驟2.將在描述道路交通信息過程中起關鍵作用的詞彙作為特徵詞,根據這些詞彙在網際網路非結構化文本中起到的語法作用,定義用於填充道路交通信息元素屬性的特徵詞的類型,並按特徵詞類型構建交通專業詞庫,所述特徵詞類型具體包括道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞和一般詞;所述一般詞指不包含在道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞等特徵詞類型中的詞彙;所述網際網路非結構化文本是指網頁新聞、論壇帖子、博文日誌、微博消息; 步驟3.基於步驟I定義的道路交通信息的數據結構和步驟2定義的特徵詞類型,結合網際網路非結構化文本中描述交通事件的語法結構特徵和句法結構特徵,人工制定基本提取模式,通過規則對基本提取模式進行擴展,得到提取模式庫;所述提取模式包括特徵詞類型序列和元素屬性序列兩個部分;所述特徵詞類型序列是人們在網際網路非結構化文本中描述交通事件時所用特徵詞的類型的先後順序排列,提取模式中特徵詞類型序列的功能是判斷網際網路非結構化文本能否與該提取模式匹配;所述元素屬性序列與特徵詞類型序列長度相同,元素屬性序列中的序列項是特徵詞類型序列中相同位置序列項在道路交通信息中對應的元素屬性,元素屬性序列的功能是指導計算機將網際網路非結構化文本出現的特徵詞映射至道路交通信息對應的元素屬性中; 步驟4.將採集的網際網路非結構化文本作為輸入文本,對輸入文本進行預處理;所述預處理包括刪除輸入文本中的重複信息和對輸入文本作中文分詞,得到輸入文本的詞彙序列; 步驟5.利用步驟2的交通專業詞庫識別步驟4所得詞彙序列中出現的特徵詞,並按照特徵詞在輸入文本中的先後順序記錄特徵詞的類型,生成輸入文本的特徵詞類型序列,通過判斷道路交通信息元素屬性所需的特徵詞類型是否完整對輸入文本進行過濾; 步驟6.對輸入文本斷句,根據斷句得到的句子集合,將步驟5所得輸入文本的特徵詞類型序列分割成與句子集合對應的特徵詞類型序列集合,利用動態時間彎曲DTW (DynamicTime Warping,DTff)距離度量該特徵詞類型序列集合中各特徵詞類型序列與提取模式庫中各提取模式的特徵詞類型序列的相似度,選擇相似度最高且小於給定閾值的提取模式作為該句子的匹配提取模式; 步驟7.遍歷輸入文本的句子集合,若句子集合中的句子在步驟6取得匹配提取模式,則根據該匹配提取模式的元素屬性序列將該句子中的特徵詞填充至對應的道路交通信息元素屬性,生成該句子對應的道路交通信息;遍歷完成後,判斷所得道路交通信息的定位信息元素中中心線道路屬性和類型信息元素中交通事件類型屬性是否完整,如果不完整,則利用補充規則對道路交通信息缺失的定位信息元素中中心線道路屬性或類型信息元素中交通事件類型屬性進行填補;最後,得到輸入文本已提取定位信息元素和類型信息元素的道路交通信息集合; 步驟8.根據網際網路非結構化文本中對時間的不同表達形式,人工制定提取年、月、日、時、分、秒時間要素數值的正則表達式集合,結合判斷規則利用該正則表達式集合從輸入文本中提取時間要素數值,將這些時間要素數值組合成交通事件開始時間元素屬性和交通事件結束時間元素屬性,得到道路交通信息的時間信息元素; 步驟9.將步驟8提取的時間信息元素填充至步驟7得到的道路交通信息集合各條道路交通信息中,得到道路交通信息元素完整的道路交通信息集合。
2.根據權利要求1所述的從網際網路非結構化文本提取道路交通信息方法,其特徵在於:所述步驟6中,在利用DTW距離度量各句子的特徵詞類型序列與提取模式庫中各提取模式的特徵詞類型序列的相似度過程中實現為:
若 Ci = tj,令(!(Ci, tj) = O ; 若Ci關tj,且tj為道路名稱詞、道路事件詞,令d(Ci,tj) = 2 ; 若Ci關\_,且&為附屬定位詞、方向描述詞、介詞、一般詞,令d(Ci,tp = I ; 其中,Ci表示輸入文本句子的特徵詞類型序列的第i個序列項,表示提取模式中的特徵詞類型序列的第j個序列項,d(Ci, tj)表示Ci和&間的距離值。
3.根據權利要求1所述的從網際網路非結構化文本提取道路交通信息方法,其特徵在於:所述步驟7中,對道路交通信息缺失的類型信息元素中交通事件類型屬性進行填補的補充規則為: (O當前待處理道路交通信息對應句子Si, j = i ; (2)讀取句子I(j = j_l),若句子I存在,則轉到步驟(3);否則,轉到(6); (3)若句子S」特徵詞類型序列滿足「類型信息元素定位信息元素」的序列結構,轉到步驟(4);否則,轉到步驟(5); (4)將句子&對應的交通事件類型屬性賦予當前待處理道路交通信息,補充過程結束; (5)若句子S」特徵詞類型序列滿足「定位信息元素類型信息元素」的序列結構,轉到步驟(6);否則,轉到步驟(2); (6)句子Sj與句子Si無關,j= i,轉到步驟(7); (7)讀取句子I(j = j+1),若句子I存在,則轉到步驟(8);否則,補充過程結束; (8)若句子S」特徵詞類型序列滿足「定位信息元素類型信息元素」的序列結構,轉到步驟(4);否則,轉到步驟(9); (9)若句子S」特徵詞類型序列滿足「類型信息元素定位信息元素」的序列結構,則句子Sj與句子Si無關,補充過程結束;否則,轉到步驟(7)。
4.根據權利要求1所述的從網際網路非結構化文本提取道路交通信息方法,其特徵在於:所述步驟7中,對道路交通信息缺失的定位信息元素中中心線道路屬性進行填補的補充規則為: (O當前待處理道路交通信息對應句子Si, j = i ; (2)讀取句子I(j = j_l),若句子I存在,則轉到步驟(3);否則,補充過程結束; (3)若句子S」特徵詞類型序列滿足「類型信息元素定位信息元素」的序列結構,且含有中心線道路屬性,則轉到步驟(4);否則,轉到步驟(5); (4)將句子Sj對應的道路交通信息的中心線道路屬性賦予當前待處理道路交通信息,補充過程結束; (5)若句子S」有對應的道路交通信息,且缺失中心線道路屬性,則轉到步驟(2);否則,補充過程 結束。
【文檔編號】G06F17/30GK103886080SQ201410115332
【公開日】2014年6月25日 申請日期:2014年3月25日 優先權日:2014年3月25日
【發明者】陸鋒, 仇培元, 張恆才 申請人:中國科學院地理科學與資源研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀