新四季網

一種基於網際網路開放信息的事件發生風險預測並預警方法

2023-08-09 08:32:16 1

一種基於網際網路開放信息的事件發生風險預測並預警方法
【專利摘要】本發明公開了一種基於網際網路開放信息的事件發生風險預測並預警方法。本發明為:1)對網頁信息進行垃圾過濾;2)對過濾後的網頁信息中表示處所的詞語進行解析,得到地名詞語;基於所建信息本體對解析後的網頁信息進行處理,將網頁信息歸入匹配區域;3)對網頁信息進行過濾,得到與食品安全相關的網頁信息;然後利用回歸分析模型對過濾後的網頁信息進行處理,判斷每一網頁信息相關的對象類別;4)確定設定區域、對象事件的網頁信息集合,建立事件特徵參數並定期計算參數值,如果某事件的特徵參數值超過設定閾值則對該事件進行預警;5)基於矩陣分析和回歸預測模型對目標區域發生設定事件的風險進行不同預警。本發明提高了風險預警的效率。
【專利說明】—種基於網際網路開放信息的事件發生風險預測並預警方法
【技術領域】
[0001]本發明屬於信息【技術領域】,尤其涉及一種對爬取得到的網際網路信息進行特定處理,之後對特定區域發生特定事件的風險進行預測並進行預警的方法,主要應用於食品安全信息監控、風險預警等非常規突發事件的應急處理工作中。
【背景技術】
[0002]近年來,食品安全事件諸如毒膠囊、回鍋油、瘦肉精、染色饅頭、塑化劑、毒黃瓜等頻頻發生,這既造成了極壞的社會影響,也帶來了大量的經濟損失。為了避免或最大限度的降低這些食品安全事件所帶來的危害,基於事件的風險預警技術開始得到了極大關注。為進行基於事件的風險預警,這就需要提前發現這些事件的信息。
[0003]隨著Internet的迅猛發展,網際網路網民數量越來越龐大,網際網路逐漸成為網民發布信息、獲取信息和傳遞信息的主要載體,而且通過人、組織等之間的交互形成了一個和現實社會有一定的對應、關聯關係的虛擬社會。它已經變成了世界上規模最大的公共數據源,而且其規模還正在不停的增長著。此狀況下,利用網際網路自身的特點,建立起完善的社會信息反饋網絡,提前發現各種可能帶來危機的「未然」因素,為食品安全事件的應急管理提供及時、準確、全面的信息就顯得勢在必行和有著非常重要的意義。
[0004]從現實的角度看,注意到多數食品安全事件發生前,在網際網路上總是已經存在一些零星的線索,為此,可以採取採集、分析網際網路上的相關信息後以預警的方式為這些食品安全事件的應急管理提供直接的信息來源。為及時、準確、全面獲取、掌握所需要的特定網際網路目標信息,就需要用到網際網路信息分析和預警等相關技術。
[0005]比如有研究工作利用網際網路信息進行風險預警,但該研究中對收集的信息如何處理,採取何種措施,都需要人工的參與和決定。也有研究工作可以自動的基於網際網路信息針對添加劑和補充劑等進行食品安全風險預警,但其存在一些不足:過程中沒有考慮信息的質量問題,沒有對採集的垃圾信息進行過濾-這會影響預警的準確性;事件信息發現過程中直接將經過關鍵詞匹配後得到的類別信息作為同一種事件信息的做法中可能存在信息對應的主體不一致等。從實際的測試結果看,其信息分類、預警的準確性、全面性等方面尚存在需要進一步提高的地方。
[0006]同時,在通過事件信息發現方法提取出相關區域所發生的事件信息後,如果能對特定區域(當前未發生)發生特定事件的風險進行預測,即對其是否會發生此種事件,以及多長時間後可能會發生等進行預測並預警,將對特定區域的風險監測和預警有著非常重要的意義。通過查閱文獻,尚未發現此類研究。

【發明內容】

[0007]為解決上述的問題,本發明的目的在於提供一種採取特定步驟對網頁信息的內容進行分析,之後對特定區域發生特定事件的風險進行預測並預警的方法。方法中借鑑智能系統思路,形成的步驟如下所述。[0008]1.網頁信息爬取
[0009]選用網際網路信息爬蟲軟體(比如Heritrix、Nutch等)對信息源中的網頁信息進行爬取,爬取過程中基於有限範圍爬取、垂直爬取等技術儘可能得到所需要的網際網路網頁信息並進行保存。
[0010]2.垃圾信息過濾
[0011]為提高進入後續處理過程中的信息質量,對爬取得到的網頁信息進行垃圾過濾。過濾過程中主要是對通過內容、連結作弊的垃圾信息、以及用戶生成內容中的無關意見、低質量意見和欺騙性垃圾意見通過建立的檢測模型進行過濾。從而保證進入後續過程的信息的質量。
[0012]3.區域信息發現
[0013]在上述垃圾信息過濾基礎上,對爬取的網頁信息的標題、內容等進行地名代詞等解析後,採取模式匹配、基於機器學習判斷模型的判斷識別方法進行信息相關區域的發現確定。
[0014]4.區域事件預警
[0015]對信息進行食品安全信息過濾、對象信息發現後,在建立表示區域事件的特徵參數諸如頁面數、頁面瀏覽數、綜合指數等的基礎上,通過定期計算事件特徵參數值的方法對事件的發展趨勢進行追蹤;並對事件當前的各特徵參數值和其之前一定時期內的均值進行比較,如果差值為正且絕對值持續大於一定的閾值,則進行區域事件預警。
[0016]5.目標區域事件發生風險預測和預警
[0017]基於已經發生特定事件的區域分布,採用矩陣分解和logistic回歸分析的方法,對目標區域是否會發生特定事件以及可能的發生時間等進行分析和預測,並根據預測結果進行不同的風險預警。
[0018]6.結果展示和服務
[0019]在對目標區域特定事件是否發生、何時發生進行預測、預警分析的基礎上,將分析得到的結果通過表格、圖等的方式展示給用戶。並提供簡訊息、郵件等即時送發的服務方式
[0020]本發明為提高事件信息發現的準確度,在對爬取得到的網際網路信息進行後續處理前,首先對其進行了垃圾信息過濾處理。
[0021]本發明為了保證建立欺騙性垃圾意見檢測模型時樣本的代表性,首先建立了意見信息基於內容分布的用於分區的特徵向量,並採用聚類的方法對意見信息進行分區,之後在每個分區中採用隨機抽樣的方法得到了用於建立模型的樣本,保證了樣本的代表性。
[0022]本發明為建立欺騙性垃圾意見檢測模型,在抽取樣本特徵過程中,採用的方法是:首先對每個樣本建立基於內容、連結的初始特徵向量;之後尋找和某一樣本最相似的P個樣本,基於這P個樣本的類別標識以及和該樣本的相似度值得到該樣本的最終特徵向量;依此循環得到每個樣本的最終特徵向量。特徵向量綜合了內容、連結以及相似樣本的類別等,保證了樣本特徵提取的全面、完整。
[0023]本發明在採用模型對意見信息進行欺騙性垃圾意見檢測過程中,以意見信息和各分區的距離為基礎建立加權係數,綜合各分區檢測模型對意見信息的檢測結果,綜合加權得到最終的檢測結果。保證了檢測結果的準確度。
[0024]本發明為了提高網頁信息相關區域識別判斷的準確度,首先對網頁信息進行預處理後對可能是地名的相關詞語進行相關解析以得到明確的詞語,之後通過模式匹配和判斷模型判斷等方式判斷信息是否可歸入目標區域,由此確定網頁信息相關區域。
[0025]本發明在網頁信息相關區域判斷確定過程中,依次採用了針對標題信息的模式匹配方法、針對正文信息的模式匹配方法、基於機器學習的判斷模型進行判斷的方法進行信息相關區域的判斷。其中,在基於機器學習的判斷模型進行判斷的方法中,通過集成的區域判斷模型進行信息相關區域判斷,避免了同名、同詞異義(比如通常詞作為地名)等所帶來的區域判斷不準確問題。
[0026]本發明在對象信息發現過程中,基於事先建立的回歸分析模型,對信息的標題、內容等進行分詞、降維等步驟後針對各對象類別進行回歸分析,以此確定網頁信息分別與哪些對象種類有關係。
[0027]本發明定期計算事件各特徵參數值和其之前一定時間範圍內的均值之間的關係,當差值為正且絕對值持續達到一定程度時(比如3倍的標準差)進行及時的事件預警。
[0028]本發明對預警的事件定期計算其各特徵參數值,並將事件當前的各特徵參數值和其之前一定時期內(自預警日開始)的均值進行比較,如果差值為負且絕對值大於一定的閾值,則結束針對此事件的預警。
[0029]本發明基於已經發生特定事件的區域分布,採用矩陣分解和logistic回歸分析的方法,對目標區域是否會發生特定事件以及可能的發生時間等進行分析和預測,並根據預測結果進行不同的風險預警。
[0030]與現有技術相比,本發明的優點:
[0031]本發明通過對爬取得到的網際網路信息採取垃圾信息過濾、區域信息發現、對象信息發現、區域事件的趨勢追蹤和預警、風險預測並預警等技術進行處理,保證了食品安全事件信息發現和預警、目標區域事件發生風險預測和預警的準確性和全面性,保證了食品安全風險預警的效率。
【專利附圖】

【附圖說明】
[0032]圖1 一種基於網際網路開放信息的事件發生風險預測並預警的方法流程圖;
[0033]圖2欺騙性垃圾意見檢測方法示意圖;
[0034]圖3網頁信息相關地域的識別方法流程圖;
[0035]圖4區域事件預警方法示意圖;
[0036]圖5目標區域事件風險預測、預警方法示意圖。
【具體實施方式】
[0037]本發明的【具體實施方式】如圖1所示,具體步驟敘述如下。
[0038]1.網頁信息爬取
[0039]選用網際網路信息爬蟲軟體(比如Heritrix、Nutch等)對信息源中的網頁信息進行爬取,爬取過程中基於有限範圍爬取、垂直爬取等技術儘可能得到所需要的網際網路網頁信息並進行保存。
[0040]2.垃圾信息過濾
[0041]隨著網際網路的發展,網際網路的網頁數量和內容量越來越多。但同時,網頁中的垃圾信息也越來越多,為保證後續信息處理的準確,就需要進行垃圾信息過濾。垃圾信息過濾環節中具體的可分為Web垃圾頁面過濾和用戶生成內容中的垃圾意見過濾兩個方面。其中,Web垃圾頁面可分為內容作弊頁面、連結作弊頁面;垃圾意見按照其負面影響大小不同,可將其分為不可信意見、低質量意見、無關意見。不可信意見,也就是欺騙性的意見,一方面表現為對特定的對象、事件、人物等給出不符合實際情況的超高評價、恭維等;另一方面也可能表現為對特定的對象、事件、人物等給出不符合實際情況的超低評價、謾罵、攻擊等。低質量意見,此種意見內容一般長度較短,其內容可能是有用的,也可能是無用的,但是由於其內容對特定的話題/產品描述不詳細,不能非常確定其對特定話題/產品的意見挖掘的意義,因此也認為是一種垃圾意見(針對計算機而言)。無關意見,此種意見主要表現為廣告或者和話題無關的內容。
[0042]對一網站中的Web垃圾頁面、用戶生成內容中的低質量意見、無關意見等,考慮到其垃圾特徵相對比較明顯,可以基於事先建立的經過標註的樣本集合,提取樣本的內容、內容分布、連結等緯度的特徵(抽取特徵前需對網頁信息進行元數據提取、正文提取、分詞、句子統計、段落統計、錨文本統計、連結統計等處理)後建立檢測模型進行檢測。關於內容緯度的特徵,本方法中採用了對抽取出來的信息進行分詞、去掉停用詞並經過降維(可採用文檔頻率法、信息增益法等)後形成內容特徵向量-權數為詞語頻率;關於內容分布特徵,本方法中採用了信息的標題長度(字符數)、段落數、句子數、段落長度(均值)、句子長度(均值)、信息長度(字符數)、錨文本數、錨文本長度(字符數-均值)等(建立模型過程中,對特徵進行歸一化處理,過程為y = x/(max+l),其中x、y分別是歸一化前後的特徵值,max為事先對網站信息集合內樣本統計該特徵所得到的最大值;在max參數更新前如果出現X > max時,貝U取X = max+1,即y = I);關於連結糹韋度的特徵,本方法中採用了信息的網站內出鏈數佔總出鏈數比例、信息的網站外出鏈數佔總出鏈數比例、信息連結垃圾頁面集合(事先構建)內的信息數佔總出鏈數比例、垃圾頁面集合(事先構建)內連結此信息的數量佔總頁面數比例等。針對上述三個維度的特徵,基於事先建立的垃圾信息集合和非垃圾信息集合,分別形成特徵向量並採取機器學習的方法(比如支持向量機等)建立垃圾信息檢測模型(三個,基於更新的樣本集合定期更新模型),之後即可對新採集的信息進行過濾(信息被判斷為垃圾信息的規則是至少其中兩個模型的檢測結果為正例)。
[0043]同時,為解決欺騙性垃圾意見的識別問題,借鑑智能系統思路,形成的識別步驟如圖2所示,具體如下所述。
[0044](I)意見集合產生
[0045]對某一特定用戶生成內容信息源中由網際網路信息爬蟲軟體爬取的信息,對其進行預處理(包括網頁信息作者等元數據提取、正文提取、分詞、詞性標註、命名實體抽取、句子統計、段落統計、標點符號統計等)步驟後形成用戶意見信息集合。
[0046](2)欺騙性垃圾意見標註
[0047]考慮到欺騙性垃圾意見的目的是為了不切實際的抬高或降低特定對象比如網站、網頁、產品、人物等的形象,具體的表現為對特定的對象、事件、人物等給出不符合實際情況的超高評價、恭維等;另一方面也可能表現為對特定的對象、事件、人物等給出不符合實際情況的超低評價、謾罵、攻擊等。由此出發,考慮到實際中欺騙性垃圾意見所具有的一些分布特徵,採取啟發式方法對可能是欺騙性垃圾意見的用戶生成內容進行收集。具體的,此過程中主要關注用戶生成內容中內容重複或者近似重複的意見、一定時間範圍內發布意見量最高的top-Nl個作者所發布的意見、一定時間範圍內意見量最高的top-N2個特定對象相關的意見、一定時間範圍內發布意見量最高的top-N3個IP位址相關的意見、針對特定對象發布意見最早的top-M個用戶所發布的意見和針對特定對象的意見修正次數最多的top-N5個用戶所發布的意見。
[0048]依據上述規則,對用戶意見信息集合中符合以上條件的意見信息進行整理,形成候選欺騙性垃圾意見集合。之後,遵循寧缺勿濫的原則(即要保證欺騙性垃圾意見樣本的準確性)並結合審核、排查等方式對候選的欺騙性垃圾意見進行審核確認。具體的採取了兩種方法進行確認,一種是正向確認,一種是反向確認。所謂正向確認,即如果意見信息內容和欺騙性垃圾意見知識庫中的信息描述的是同一件事情,即信息內容與欺騙性垃圾意見知識庫中的某信息描述相匹配,則為欺騙性垃圾意見。欺騙性垃圾意見知識庫中的信息條目增加規則為:對於一條意見信息,經過一段時間的過程或者事後證明,某用戶所發布的信息的確是欺騙性的意見,加入知識庫中。比如在某論壇有人發布信息說某品牌牛奶中含有三聚氰胺,但後來有人舉出種種理由說明這是不可能的,事後證明後者是某品牌牛奶公司的內部員工欺騙所致。由此即可確認此意見信息是欺騙性垃圾信息,加入知識庫中(知識庫事先構建並定期更新)。所謂反向確認,即在現有的正常情況下,出現此類信息是不可能的,從而從反向的角度證明是欺騙性垃圾意見。比如反向確認知識庫(事先構建並定期更新)中的一條規則為:某一用戶id在設定時間中(比如I分鐘)對一種或多種產品發布了多於N(比如10條)條意見信息,則將該用戶所發表的這些意見信息標註為欺騙性垃圾意見信息。能匹配此規則的一個例子是:某一論壇中某一用戶id在不到I分鐘的時間中對3種不同產品發布了 15條評價信息,從一個正常人的角度考慮這是不可能的。因此,從反向的角度證明了此用戶所發布的這些信息的欺騙性。
[0049]將通過上述方法確認的信息進行標註,並形成準確欺騙性垃圾意見集合,同時對於經常發布欺騙性垃圾意見的用戶,即發布欺騙性垃圾意見最多的N個用戶,將其加到黑名單以備後期識別使用;另外,依據準確的欺騙性垃圾意見集合等,總結歸納意見作者的反常行為(比如上述用戶在I分鐘內針對3種產品發布了 15條信息等)形成規則,以備後用。
[0050]注意到明確的確認一意見是非欺騙性垃圾意見也存在相當的困難(對於一條信息,不能明確的表明是欺騙性垃圾意見也可能意味著不能明確的說明其不是欺騙性垃圾意見),考慮到時間、工作量、以及非欺騙性垃圾意見存在的多樣性等因素,這裡沒有對非欺騙性垃圾意見進行標註。
[0051](3)意見信息分區
[0052]對步驟(I)、(2)形成、標註的用戶意見信息集合中的每一個信息,提取其用於分區的特徵向量,進行聚類,得到若干個信息區域,並計算得到每個區域的標誌向量。計算過程如下所述。
[0053]對意見信息集合中每一信息提取用於分區的特徵向量的具體過程如下所述:提取意見信息的字數、詞數、意見段落數、段落長度(均值)、句子數、句子長度(均值)、第一人稱代詞數、第二人稱代詞數、第三人稱代詞數、形容詞數、副詞數、動詞數、人名數、地名數、機構名數、時間數、感嘆號數、問號數、標題字數等(過程中對特徵進行歸一化處理,過程為y = x/(max+1),其中x、y分別是歸一化前後的特徵值,max為事先對用戶意見信息集合內信息統計該特徵所得到的最大值^max參數更新前如果出現X > max時,則取X = max+1,即y = I)形成歸一化的分區特徵向量。
[0054]之後即可對意見信息進行聚類處理,聚類過程中可採用譜系聚類、非譜系聚類等方法完成具體過程。
[0055]通過此過程,基於用戶意見信息用於分區的特徵向量,將原始的用戶意見信息集合分為若干個子區域(分區)。分別計算每一個分區的標誌向量MarkiQ為分區編號)-通過計算該分區中所有信息的特徵向量均值得到。
[0056](4)意見信息抽樣
[0057]對步驟(3)形成的各個用戶意見信息分區,進行樣本抽樣(樣本量事先確定)。採取隨機抽樣的方法,具體過程如下:
[0058]設要抽取的樣本數為S (事先確定),各分區的信息數為Ii,則各分區應抽取的樣本數為Si = S*Ii/ Σ Ii(此數值為大概的數字,在保證每個分區的樣本數都大於事先設定的閾值以及滿足S=E Si的基礎上,各分區的樣本數可以適度調整)。
[0059]對每一分區中的信息進行編號,編號方法是從I開始,依次增長直到所有信息都有一個編號,設最大編號值為MAXi,之後利用隨機函數產生Si個1-MAXi之間的隨機數,則這Si個隨機數對應的意見信息即為相應分區抽中的樣本。
[0060]抽樣過程中,對每一分區按照上述規則進行10次抽取,並選擇所抽取樣本中欺騙性垃圾意見數最多的一次抽取為最終樣本,以保證儘可能多的欺騙性垃圾意見信息能抽取為樣本。
[0061]從而得到每個意見信息分區的抽樣樣本集合。
[0062](5)意見信息樣本二次標註
[0063]對每個分區抽取得到的樣本,進行二次整理、標註,區分為欺騙性垃圾意見、其他意見,從而將每個分區抽取的樣本形成欺騙性垃圾意見、無標註意見信息樣本集合。
[0064](6)樣本特徵抽取
[0065]對每個分區中經過二次標註的樣本進行樣本特徵提取、算法選擇等是建立檢測模型的必須步驟。其中樣本特徵抽取是一個非常關鍵的步驟,本方法中的具體步驟如下所述:
[0066]A)首先對抽取出來的樣本意見信息內容進行分詞,去掉停用詞,並經過降維(可採用文檔頻率法、信息增益法等)後形成內容特徵向量(權數為詞語頻率)Q^j為樣本編號)。
[0067]B)之後計算樣本意見信息的連結特徵包括信息的網站內出鏈數佔總出鏈數比例、信息的網站外出鏈數佔總出鏈數比例、信息連結準確欺騙性垃圾意見集合內的信息數佔總出鏈數比例、準確欺騙性垃圾意見集合內連結信息的數量佔總頁面數比例等,並將各項參數加權(權數事先通過統計分析法確定,但須保證權數之和為I)計算得到總的數值,設為Lj。
[0068]C)最後計算& = ,得到基於內容、連結的表徵樣本意見信息的初始特徵向量Mj。
[0069]D)對分區中的某一個樣本Sample,基於該樣本的初始特徵向量,計算其和各分區中各樣本信息的相似值(採用餘弦函數),並將各樣本信息按照相似值從大到小排序,得到其相似樣本序列。
[0070]E)將序列中前P (事先通過分析確定)個樣本信息的二次標註的類別標識(I表示是欺騙性垃圾意見樣本,-1表示無標註樣本)和相似值(和該樣本之間)分別相乘,並形成一個緯數為P的向量N,作為樣本Sample的最終特徵向量。
[0071]依此循環步驟D)_E),直到計算得到所有樣本的特徵向量。
[0072](7)建立欺騙性垃圾意見檢測模型
[0073]對每個樣本意見信息建立了特徵向量後,從判斷識別欺騙性垃圾意見的角度看,目前需要選擇機器學習方法建立檢測模型。注意到上述過程(步驟(5))中得到的樣本集合中包括經過標註的欺騙性垃圾意見,以及未經標註的意見信息,但沒有經過標註的非欺騙性垃圾意見。這就意味著不能簡單地採用一般的有監督機器學習方法,因為它建立模型需要同時具備正例、反例集合。所以我們這裡採用了一種「從正例和無標註數據中學習」的機器學習方法-偏置SVM(Liu,B.,Y.Dai,X.Li,W.Lee,and P.Yu.Building text classifiersusing positive andunlabeled examples.Proceedings of IEEE InternationalConference on Data Mining,2003.)。
[0074]對每個分區,基於上述計算得到的樣本的特徵向量和所選擇的「從正例和無標註數據中學習」的機器學習方法,即可建立識別檢測欺騙性垃圾意見的檢測模型(每個分區一個模型)。
[0075](8)欺騙性垃圾意見檢測識別
[0076]每個分區的欺騙性垃圾意見檢測模型建立完畢後,即可對網際網路信息爬蟲新爬取的用戶生成內容進行欺騙性垃圾意見的判斷識別。整體上,欺騙性垃圾意見的判斷識別按照三個步驟進行:黑名單識別、反向識別、模型檢測識別。首先進行黑名單識別,對屬於黑名單中用戶發布的信息,直接識別為欺騙性垃圾意見;對於剩餘意見,依據步驟(2)歸納的規則按照反向確認(即在現有的正常情況下,出現此類信息是不可能的,從而從反向的角度證明是欺騙性垃圾意見)的方式進行識別,對於不正常的意見,識別為欺騙性垃圾意見;對於剩餘的意見按照步驟(7)建立的模型進行識別,識別過程為:
[0077]首先計算意見信息的分區用特徵向量(按照步驟(3)所述方法計算),並計算意見信息和各個分區的距離(通過計算意見信息的特徵向量和各分區標誌向量的距離得到)Cii α表示分區編號)。由此,計算得到對此意見信息而言各分區檢測模型的權數ei =(Ii/ Σ (Ii。
[0078]對意見信息分別採用各分區的檢測模型進行檢測識別,得到檢測結果Oi (過程為首先建立意見信息的初始特徵向量,之後尋找和意見信息相似的樣本,得到最終特徵向量-過程同步驟出),之後採用步驟(7)建立的模型得到檢測結果),從而得到最終的檢測結果O = Σ ei*0i,如果最終的檢測結果O大於事先確定的閾值,則對此意見信息識別為欺騙性垃圾意見。
[0079]將經過上述步驟識別為欺騙性垃圾意見的用戶意見信息,按照標準統一標註為欺騙性垃圾意見。
[0080](9)欺騙性垃圾意見檢測模型更新
[0081]考慮到欺騙性垃圾意見、非欺騙性垃圾意見動態變化所帶來的影響,在執行欺騙性垃圾意見的檢測過程中定期執行檢測模型和意見信息集合更新工作(含更新max參數)。過程如下所述:
[0082]將經過步驟(8)識別、標註的欺騙性垃圾意見按照和步驟(2)相同的方式進行審核確認,將通過上述方法確認的信息進行標註,並形成新的準確欺騙性垃圾意見集合(對於經常發布欺騙性垃圾意見的用戶,將其加到黑名單以備後期識別使用;同時對新的準確欺騙性垃圾意見集合中意見作者的行為規律進行總結形成規則,以備後用);同時也形成新的無標註的用戶意見信息集合。
[0083]對於新的用戶意見信息集合,以和原來各分區中標誌向量(為區別,此處的Marki用Marktjldi標識)距離最近的向量作為初始中心,採用非譜系聚類方法執行聚類過程,得到新的用戶意見信息分區,計算各新分區的標誌向量Markmwi,並計算新、老分區標誌向量之間的距離之和Dis = Σ Distance (Marknewi,Markoldi),如果Dis大於事先設定的閾值,則執行模型更新過程(同步驟(3)-(7)),完成模型的更新。
[0084]經過以上過濾步驟後的,參與到後續信息處理過程中的信息(非垃圾信息)相對質量較高,這為後續信息處理的準確提供了基礎。
[0085]3.區域信息發現
[0086]為利用網際網路上的信息進行食品安全事件的風險預警,需要經過一定的過程得到事件相關的信息。其中,獲取網際網路信息中事件的相關區域是一個非常重要的工作-以此為基礎可以確定事件的發生區域-這是食品安全事件預警的基礎,這就需要對網際網路網頁信息中的內容等進行提取、分析以確定食品安全事件信息相關聯的區域。相關步驟如下所述(如圖3所述):
[0087](I)網頁信息預處理
[0088]對爬取得到並經過濾後的網頁信息,提取其標題、來源、作者、發布時間、發布網站所在地等元數據信息並保存,同時提取網頁信息的正文內容進行保存。
[0089]對提取的網頁信息標題、正文內容,採用分詞器對其進行基於統計和詞典(包括依據步驟4(1)建立的本體形成地名詞典)的分詞(並記錄詞語相對信息標題和正文內容構成的文本開始、結束的相對位置、所屬句子、相對句子開始和結束的相對位置等特徵參數),之後採用基於詞表(詞表事先整理形成並定期更新,其中包括同時可作為人名和地名的詞語、有其他特定含義但同時也可能是地名的詞語等;比如吳忠-寧夏回族自治區的一個市,同時可為人名;方正-黑龍江省的一個縣,同時可為方正公司;但注意包含了特定後綴的詞語比如吳忠市則不予排除)的匹配方法對可能不是地名的詞語予以排除。
[0090](2)地名代詞解析
[0091]經過分詞的網頁標題信息、正文信息中可能存在一些表示處所的代詞,比如本省、本市、該省等。由於這些代詞字面本身無法直接表明確切地理位置,因此需要對其進行解析。
[0092]I)為進行地名代詞的解析,首先建立代詞解析的滑動窗口,滑動窗口長度L事先確定(比如通過分析地名代詞和其先行詞之間的詞數分布狀況後確定)。
[0093]2)之後選擇地名代詞前L個詞語內是否存在合理的地理名詞(比如本省對應的遼寧等,基於事先建立的規則判斷),如果存在,則採用下述建立的地理名詞和地名代詞之間是否存在指代關係的判斷模型進行判斷,如果存在指代關係,則根據指代關係確定代詞對應的地理名詞,解析結束(如果存在多個指代關係成立的地理名詞,則選擇距離地名代詞最近的地理名詞),否則進行步驟3)。
[0094]3)如果L個詞語內不存在合理的地理名詞或者模型判斷指代關係不存在,則選擇地名代詞前2L個詞語內(不超出整個句子,比如用句號標識)是否存在合理的地理名詞,如果存在,則採用下述建立的地理名詞和地名代詞之間是否存在指代關係的判斷模型進行判斷,如果存在指代關係,則根據指代關係確定代詞對應的地理名詞,解析結束(如果存在多個指代關係成立的地理名詞,則選擇距離地名代詞最近的地理名詞),否則進行步驟4)。
[0095]4)如果2L個詞語內不存在合理的地理名詞或者模型判斷指代關係不存在,則根據元數據提取過程中得到的信息來源或網站所在地採用抽取或者替換的方法確定地名代詞的指代地名。
[0096]判斷模型的建立方法:收集整理包含地名代詞等的網頁信息形成樣本集合,並對樣本集合信息中每一地名代詞和其之前2L(L長度同步驟I))個詞語內的地理名詞(不超出句子範圍)之間的指代關係進行標註,作為類別變量;對樣本集合信息中每一地名代詞和其之前2L(L長度同步驟I))個詞語內的地理名詞(不超出句子範圍)之間的關係提取相關數據,建立信息樣本關於此對地名代詞和地理名詞之間關係的特徵向量:包括地理名詞後綴(後綴即代表地名或者具有地名特徵,比如「新疆維吾爾自治區」中的「自治區」)長度(後綴字數除以文本長度)、地理名詞和地名代詞之間的距離(詞數除以文本長度)、地理名詞距離文本開始的相對距離(詞數除以文本長度)、地名代詞距離文本開始的相對距離(詞數除以文本長度)、地理名詞距離句子開始的相對距離(詞數除以文本長度)、地名代詞距離句子開始的相對距離(詞數除以文本長度)、地理名詞距離句子結束的相對距離(詞數除以文本長度)、地名代詞距離句子結束的相對距離(詞數除以文本長度)等;之後選擇機器學習方法(比如svm)基於上述的樣本集合、類別變量和特徵向量建立地理名詞和地名代詞之間是否存在指代關係的判斷模型。
[0097]基於判斷模型對地名代詞和地理名詞之間是否存在指代關係進行判斷的方法是:首先提取地理名詞和地名代詞之間關係的相關數據形成特徵向量,提取的數據具體包括地理名詞後綴長度(後綴字數除以文本長度)、地理名詞和地名代詞之間的距離(詞數除以文本長度)、地理名詞距離文本開始的相對距離(詞數除以文本長度)、地名代詞距離文本開始的相對距離(詞數除以文本長度)、地理名詞距離句子開始的相對距離(詞數除以文本長度)、地名代詞距離句子開始的相對距離(詞數除以文本長度)、地理名詞距離句子結束的相對距離(詞數除以文本長度)、地名代詞距離句子結束的相對距離(詞數除以文本長度)等。之後基於上述建立的判斷模型進行識別判斷,並根據判斷結果確定地名代詞和地理名詞之間的指代關係是否存在。
[0098](3)非標準詞解析
[0099]經過分詞的網頁標題信息、正文信息中可能存在一些表示處所的詞語使用了一些非標準的語言形式,如中文文本中出現beijing、bj等。對此,基於建立的標準詞語和非標準詞語對照表(事先建立並定期更新),通過查詢後進行替換的方式對非標準的地名詞語形式進行解析。
[0100](4)相對位置解析
[0101]經過分詞的網頁標題信息、正文信息中可能存在一些表示處所的詞語使用了相對位置的表達方式,比如中國西南部省份等。同樣的,這些語言表達方式也沒有明確的地名名稱。為解決此問題,基於步驟4 (I)中建立的區域信息本體實例及其附加表,對這些相對位置區域信息進行查詢和解析,得到準確的地名詞語(比如對中國西南部省份,結合建立的區域信息本體,首先查找到中國所屬的省份名稱,並對每個所屬的省份查詢其所在方位緯度的附加表,將所有所在方位為西南的省份提取出來,據此替代中國西南部省份,完成解析)。
[0102](5)地域確定
[0103]對網頁信息進行了預處理和相關解析後即可進行信息相關聯區域的確定工作,此過程中主要包括兩個步驟:分別採用模式匹配、機器學習判斷模型進行信息相關區域的判斷。
[0104]區域確定的目標在於識別信息相關區域,為食品安全事件信息的發現提供區域基礎。綜合考慮準確性、計算量和可操作性等問題,此過程中首先採取了模式匹配的方法進行。這裡面需要考慮兩個問題:信息範圍、匹配規則。關於匹配規則,基於步驟4(I)建立的區域信息本體(即本體中區域維度維度),過程中主要考慮部分本體實例名稱、屬性等,具體的通過組合這些本體實例的名稱、屬性等採取模式匹配的方法進行判斷;方法中所採取的模式匹配具體方法包括布爾匹配、頻數匹配、實例名稱間的距離匹配等方式;具體的方式選擇及具體規則建立通過對信息統計分析後確定(事先確定並定期更新)。關於信息範圍的選擇,這裡主要考慮信息的標題、信息內容兩個緯度,考慮到信息標題和信息內容可能存在不匹配的情況,具體處理過程中首先對信息的標題進行處理,如果對信息的標題採用上述的模式匹配方法處理後,信息可以被歸入當前所選的區域(比如北京),則針對此區域的模式匹配處理完畢;否則對該信息的內容採用上述的模式匹配方法針對此區域進行二次模式匹配處理。此過程中遵循寧缺勿濫的原則,儘可能保證識別判斷結果的準確度。
[0105]如果經過上述的模式匹配過程,此信息無法歸入某一區域,則採用基於機器學習方法建立的區域判斷模型進行第三次判斷確定。事先建立區域判斷模型的過程為:基於整理(同步驟(1)-(4))、標註(是否和某區域相關聯)過的網頁信息樣本集合(事先建立並定期更新),將信息樣本的標題、內容詞語(選擇和本體實例名稱、屬性匹配的詞語)綜合在一起-將這些詞語按照行政地名(指省、市等)、電話區號、郵政編碼、簡稱、名勝(山、湖、海、河、島嶼、建築等)五個類別進行歸類組成五個特徵向量(其中向量中詞語權重為詞語頻率,考慮到標題詞語的重要性,對標題詞語的權重乘以事先確定的倍數)。之後,採用機器學習方法(支持向量機等)對每一目標區域建立基於上述五個特徵向量的區域判斷模型(5個,基於更新的樣本集合定期更新模型)。對信息進行第三次判斷確定的過程為:將經過步驟(1)-(4)處理、解析後但無法歸入到某一區域的信息的標題、內容詞語(選擇和本體實例名稱、屬性匹配的詞語)綜合在一起:按照行政地名(指省、市等)、電話區號、郵政編碼、簡稱、名勝(山、湖、海、河、島嶼、建築等)五個類別進行歸類組成五個向量(其中向量中詞語權重為詞語頻率,考慮到標題詞語的重要性,對標題詞語的權重乘以事先確定的倍數),並分別對這五個向量採用前述建立的五個區域判斷模型進行檢測判斷,並對檢測判斷的結果進行加權計算(權數按照網頁信息中每個類別中詞語頻數之和除以五個類別中詞語頻數之和的方法確定),如果加權計算結果大於事先設定的閾值,則此信息即可歸入此區域;否貝U,則此信息不能歸入此區域。
[0106]4.區域事件預警[0107]結合智能系統思路,設計食品安全區域事件信息發現並預警的步驟如圖4所示,具體敘述如下。
[0108](I)建立本體
[0109]考慮到食品安全事件的特點以及事件信息提取、追蹤等分析的需要,在食品安全事件信息本體的構建過程中,主要從對象、區域、時間、結果、關聯者五個緯度考慮建立。比如對象即食品,可分為初產品、加工產品等類別,初產品又可以分為蔬菜、水果等類別,以此類推;比如結果可分為汙染、中毒等類別,汙染又可以分為過期、超標等類別,以此類推;t匕如區域總體上可分為五個類別,分別是亞細亞洲、歐羅巴洲、阿非利加洲、亞美利加洲、大洋洲;對每個類別可以再次進行細分,比如亞細亞洲可分為東亞、西亞、南亞、北亞、中亞、東南亞六個類別,以此類推;直至分類到不能再分為止,即為一個最底層的元素(即實例)。其他類別的構建過程類似。同時,針對本體中的每個實例,分別建立了對應的同義詞、反義詞、別名詞等附加表;此外,針對區域信息本體中的實例,分別建立了電話區號、郵政編碼、簡稱、名勝(山、湖、海、河、島嶼、建築)、鄰近域(東、南、西、北等方向的相鄰同級域)、所在方位(相對上一級而言,比如中部、南部等)六個緯度的附加表,以備信息處理過程中使用。
[0110](2)信息過濾
[0111]考慮到一個網站上可能存在和預定主題不相關的內容的情況,為了提高事件信息發現、預警的準確度,在對信息進行後續處理之前,首先對信息進行過濾-食品安全信息過濾。
[0112]食品安全信息過濾,即判斷所採集的信息是否屬於食品安全相關的信息。這裡面需要考慮兩個問題:信息範圍、過濾規則。關於過濾規則,基於建立的食品安全事件信息本體,過程中主要考慮對象和結果兩個緯度,具體的通過組合這兩個緯度的本體實例的名稱、屬性等採取模式匹配的方法進行過濾;方法中所採取的模式匹配具體方法包括布爾匹配、頻數匹配、實例名稱間的距離匹配、實例名稱同義反義匹配、實例名稱別名匹配等方式;具體的方式選擇及具體規則建立通過對信息統計分析後確定(事先確定並定期更新)。關於信息範圍的選擇,這裡主要考慮信息的標題、信息內容兩個緯度,考慮到信息標題和信息內容可能存在不匹配的情況,具體處理過程中首先對信息的標題進行處理,如果經過對標題信息過濾後,信息可以被歸入食品安全信息類別,則對此信息的處理完畢;否則對信息的內容進行二次判斷處理。
[0113]經過以上過濾步驟後的,參與到後續信息處理過程中的信息(即食品安全相關的非垃圾信息)相對質量較高,這為後續信息處理的準確提供了基礎。
[0114](3)對象信息發現
[0115]網頁信息的對象信息發現即對象種類識別,即確定網頁信息所描述的內容和何種對象有關(以及和何種事件因素有關、造成何種後果)等。其目的是結合網頁信息中發現的區域信息、對象信息等儘可能唯一的確定事件。
[0116]為此,綜合考慮識別的準確性、計算量和可操作性等問題,過程中採取了回歸分析的方法進行。方法中採用的信息範圍,是將每一網頁的信息標題和內容綜合在一起,並進行分詞、去停用詞、降維後形成該網頁的特徵向量(作為自變量)_其中詞語權重為詞語頻率,考慮到標題詞語的重要性,對標題詞語的權重乘以事先確定的倍數;同樣的,對和本體中對象、結果、關聯者實例名稱、屬性匹配的詞語權重乘以事先確定的倍數。針對每一對象種類,將上述網頁的特徵向量數據代入相應的logistic回歸模型(事先以需要區分的種類和建立的樣本集合為基礎建立模型)中,據回歸分析結果進行判斷,此網頁信息是否和此對象種類有關係。
[0117]其中,回歸分析模型的建立方法為:基於整理、標註過的網頁信息樣本集合(事先建立並定期更新),將信息樣本的標題、內容詞語綜合在一起並進行分詞、去停用詞、降維後形成特徵向量(作為自變量)_其中詞語權重為詞語頻率,考慮到標題詞語的重要性,對標題詞語的權重乘以事先確定的倍數;同樣的,對和本體中對象、結果、關聯者實例名稱、屬性匹配的詞語權重乘以事先確定的倍數;同時對網頁信息所屬的對象類別進行標註(I表示屬於此對象類別、O表示不屬於此對象類別,作為因變量),以此為基礎採用logistic方法建立針對各對象類別的回歸分析模型。
[0118](4)趨勢追蹤、事件預警
[0119]從實踐的角度看,結合前述步驟中發現的區域信息、對象種類信息等,即可相對準確的確定發生的事件(即用屬於上述兩個緯度的信息的交集表示事件相關的信息)。
[0120]在網頁信息的區域和對象種類要素識別的基礎上,建立表示事件的特徵參數-具體的採用和事件相關的信息頁面數、頁面瀏覽數、頁面轉發數、特定網站頁面瀏覽數、特定域名下網站頁面瀏覽數以及綜合指數(通過加權的方法綜合上述參數得到,權數通過德爾菲方法確定,但需保證權數之和為I)等表示事件的特徵,並定期(比如每隔I小時)對特徵參數進行計算處理。並根據時間的變化,綜合分析這些事件特徵參數的變化情況。
[0121]在上述事件趨勢追蹤的基礎上,定期(比如每12小時)計算表示事件的各特徵參數(包括綜合指數)數值,並將事件當前的各特徵參數值和其之前一定時期內的均值(目前考慮到網絡事件傳播的特點,選擇了一個月作為計算周期,也可據情況進行調整)進行比較,如果差值為正且絕對值大於一定的閾值(比如3倍的標準差,閾值事先設定),則對此事件進行預警初始化。
[0122]之後對此進行了預警初始化的事件進行追蹤,定期(比如每12小時)計算表示事件的各特徵參數(包括綜合指數)數值,並將事件當前的各特徵參數值和其之前一定時期內的均值(目前考慮到網絡事件傳播的特點,選擇預警初始化之前的一個月作為計算周期,也可據情況進行調整)進行比較,如果差值持續(比如24小時,事先確定)大於一定的閾值(比如3倍的標準差,閾值事先設定),則對此事件進行正式的預警。否則取消對此事件的預警初始化設置。
[0123]其中閾值的確定方法為:在收集事件各特徵參數的歷史(比如一年內)變化數據基礎上,並結合經過確認的歷史食品安全事件的發生時間、區域、規模等資料(可以從食品安全相關管理部門獲得),計算事件各特徵參數值和其之前一定時期內(比如一個月)的均值之間的差值形成變量-作為自變量,將表示特定性質食品安全事件是否發生(I表示發生、O表示未發生)的變量作為因變量,採用logistic回歸分析的方法建立上述自變量、因變量之間的回歸預測模型。基於此模型,結合事件特徵參數的歷史變化趨勢特點,選擇可以使得因變量值為I的合適的自變量值作為閾值。
[0124](6)事件結束判斷
[0125]對正式預警的事件,在上述事件趨勢追蹤的基礎上,定期(比如每12小時)計算表示事件的各特徵參數(包括綜合指數)數值,並將事件當前的各特徵參數值和其之前一定時期內的均值(目前考慮到網絡事件傳播的特點,選擇了從預警開始日開始到計算日前一天為止作為計算周期,也可據情況進行調整)進行比較,如果差值為負且絕對值大於一定的閾值(比如3倍的標準差,閾值事先設定),則認為此事件結束。結束對此事件的預警。
[0126](7)本體補充和修正
[0127]在事件信息發現、預警的整個過程中,構建的食品安全事件信息本體對信息過濾、信息發現等步驟的性能有著重要的影響。因此,考慮到網際網路信息的分布變化特點,從持續提高方法效率的角度出發,需要定期對信息過濾、信息發現等過程的結果進行評估。並對本體中的不足諸如遺漏、錯誤等加以補充、修正,以提高方法後續的效率。
[0128]5.目標區域事件風險預測和預警
[0129]在特定事件出現在某些區域的情況下,定期計算目標區域(當前未發生)發生此事件的可能性以及可能的發生時間,並根據分析計算的結果進行不同級別的預警(如圖5所示)。計算目標區域發生特定事件的可能性及可能的發生時間之前的模型(定期更新)建立過程為:
[0130]選擇和目標區域(比如北京)同行政級別的區域(比如省級區域河北、河南等),在收集這些區域(含目標區域,設總數為R)經過確認的歷史食品安全事件的發生時間、區域、規模等資料(可以從食品安全相關管理部門獲得)基礎上,形成特定食品安全事件在何地、何時發生的數據集合。以此為基礎,按照一個區域是否發生特定事件的不同建立網絡圖,圖的頂點是上述的各個區域、食品安全事件,如果一個區域發生了特定事件,則上述區域、事件標識的頂點之間產生一個邊,並且邊的權重為此種情況發生的次數。進一步,將網絡圖轉換為一個R*S (R為區域數,S為食品安全事件數)的矩陣A (事先形成並定期更新)。
[0131]同時,按照目標區域發生特定事件的時間和最早發生相應事件的區域之間的發生時間之差的不同,設定N個時間範圍(可以設定5個時間段,比如目標區域發生特定事件的時間距離最早發生該事件的時間為I天內、3天內、I周內、2周內、I月內5個時間段),分別對原始的數據集合進行標註(即分別標明在上述時間段中特定事件在各區域是否發生),分別形成N個(設定5個時間段的情況下,形成5個數據集合)數據集合(事先形成並定期更新)。在此基礎上,將數據集合中目標區域在上述的時間範圍內是否發生特定事件作為因變量(I表示發生,O表示未發生),其餘區域是否發生相應事件作為自變量(I表示發生,O表示未發生),採用logistic回歸分析的方法建立上述自變量、因變量之間的回歸預測模型(5個,用(;、(:2、(:3、(:4、(:5表示,事先形成並定期更新)。
[0132]在此基礎上,計算目標區域發生特定事件的可能性及可能的發生時間的過程為:
[0133]根據當前發生特定事件的區域不同,更新矩陣A中的相應元素,之後對矩陣A採用矩陣分解的方法進行處理,形成新的矩陣B(比如採用svd方法,其處理過程為首先將矩陣A進行奇異值分解:A = TySyDy,其中Ty為R*F陣,Sy為F*F對角陣,Dy為F*S陣,F為矩陣A的秩;設定正整數K,O < K < F,僅考慮Sy中值最大的K個奇異值,據此取Sy中相應的K階對角矩陣-設為Sm、Ty中相應的K列-設為Tm、Dy中相應的K行-設為Dm ;之後進行奇異值分解的反運算,B = TmSmDm,完成處理過程)。之後尋找矩陣B中標識目標區域和特定事件相關性的矩陣元素值,如果其大於事先設定的閾值,則即可確定目標區域可能會發生特定事件;否則,可確定目標區域可能不會發生特定事件。
[0134]如果根據上述的判斷過程後確定目標區域會發生特定事件,那麼根據目前發生特定事件的區域形成各自變量的值(I表示發生,O表示未發生),並代入上述的回歸預測模型進行分析判斷,判斷順序為按照C5、C4、C3、C2、C1的順序依次進行。具體做法是如果按照C5判斷的結果為真(會發生),則進行C4的判斷;如果結果為假(不會發生,即I個月後可能發生),則停止判斷。依此類推,直到判斷結果為假或者全部判斷完畢,從而得到目標區域可能發生此事件的時間(即最後一個判斷結果為真的回歸預測模型所代表的時間範圍,比如如果C2模型是最後一個判斷結果為真的模型,則可預測目標區域特定事件的發生時間可能在I天后3天內)。從而,可對目標區域發生特定事件的風險進行不同時間級別的預警。
[0135]6.結果展示和服務
[0136]在對目標區域特定事件是否發生、何時發生進行預測、預警分析的基礎上,將分析得到的結果通過表格、圖等的方式展示給用戶。並提供簡訊息、郵件等即時送發的服務方式。
[0137]由此,完整地實現了從爬取得到的網際網路信息中提取食品安全事件信息,並根據事件發展過程、目標區域的事件風險及時進行預警和為用戶服務的全過程。過程中,通過採取垃圾信息過濾、區域信息發現、對象種類信息發現、趨勢追蹤及預警、風險預測及預警等技術保證了事件信息發現和預警、風險預測和預警的準確。這將為食品安全事件的風險預警、快速應急處理等提供重要的信息基礎。
[0138]值得說明的是,本發明不僅可用於食品安全事件的應急管理,稍加改造,即可應用到其他的、能從網際網路上獲取事件信息的非常規突發事件的風險預警等應急處理工作中。
【權利要求】
1.一種基於網際網路開放信息的事件發生風險預測並預警方法,其步驟為: 1)建立一食品安全事件信息本體,並對本體中的每個實例分別建立一附加表; 2)對爬取的網頁信息進行垃圾過濾,得到非垃圾網頁信息; 3)對過濾後的網頁信息中表示處所的詞語進行解析,得到準確的地名詞語;基於所述食品安全事件信息本體中區域維度的本體實例名稱、屬性採用模式匹配方法對解析後的網頁信息進行處理,將網頁信息歸入匹配成功的區域; 4)對網頁信息進行過濾,得到與食品安全相關的網頁信息;然後針對每一設定的對象類別,利用回歸分析模型對過濾後的網頁信息進行處理,判斷每一網頁信息相關的對象類別; 5)根據步驟3)、4)確定出的網頁信息所屬區域及其相關的對象類別,得到設定區域、對象的事件的網頁信息集合,建立事件的特徵參數並定期計算特徵參數值,如果某事件的特徵參數值持續設定時間超過設定閾值則對該事件進行預警; 6)如果某區域出現一設定對象事件預警,基於矩陣分析和回歸預測模型定期計算目標區域發生該設定事件的可能性以及可能的發生時間,並進行不同級別的風險預警。
2.如權利要求1所述的方法,其特徵在於對爬取的網頁信息中的欺騙性垃圾意見進行過濾的方法為: 21)爬取所選用戶生成內容信息源的網頁,並根據爬取的網頁建立一用戶意見信息集合;對用戶意見信息集合進行聚類,得到若干個信息區域,並計算每一信息區域中所有信息的特徵向量均值,作為該信息區域的標誌向量; 22)對每一信息區域中的用戶意見信息進行樣本抽樣,得到每個信息區域的樣本集 合; 23)對每一信息區域的樣本集合中的樣本進行標註,得到每個信息區域的欺騙性垃圾意見樣本集合和無標註意見信息樣本集合; 24)對每一樣本,尋找各信息區域的樣本集合中與其最相似的P個樣本,基於該P個樣本的類別標識、及其與該樣本之間的相似度值,得到該樣本的最終特徵向量; 25)基於每個樣本的最終特徵向量,選擇機器學習方法針對每個信息區域建立一欺騙性垃圾意見檢測模型; 26)利用欺騙性垃圾意見檢測模型對用戶意見信息集合中的信息進行過濾。
3.如權利要求2所述的方法,其特徵在於得到所述每個信息區域的樣本集合的方法為:先對所述用戶意見信息集合中確定為欺騙性垃圾意見的信息進行標註,建立一準確的欺騙性垃圾意見信息集合;然後對意見信息分區後,在樣本抽樣過程中對每一分區按照隨機抽樣的方法進行多次抽取,並根據所建欺騙性垃圾意見信息集合選擇所抽取樣本中欺騙性垃圾意見數最多的一次抽取為該分區的最終樣本,得到每個信息區域的樣本集合。
4.如權利要求2或3所述的方法,其特徵在於對每一樣本,以樣本的內容和連結緯度的特徵參數形成其初始特徵向量,尋找各信息區域的樣本集合中與其最相似的P個樣本。
5.如權利要求2所述的方法,其特徵在於利用欺騙性垃圾意見檢測模型對用戶意見信息集合中的信息進行過濾過程中,以意見信息和各信息區域的距離為基礎建立加權係數,將每一欺騙性垃圾意見檢測模型對用戶意見信息的檢測結果進行綜合加權,得到最終的檢測結果;根據最終的檢測結果對用戶意見信息進行標註。
6.如權利要求2所述的方法,其特徵在於所述樣本最終特徵向量的計算方法為: A)首先對抽取出來的樣本意見信息內容進行分詞,去掉停用詞,並經過降維後形成內容特徵向量%,j為樣本編號; B)計算樣本意見信息的連結特徵,並將各項連接特徵參數加權計算得到總的數值,設為lJ ; C)計算Mj= Lj*Qj,得到基於內容、連結的表徵樣本意見信息的初始特徵向量Mj ; D)對信息區域中的每一樣本Sample,基於該樣本的初始特徵向量,計算其與各信息區域中每一樣本信息的相似值,並將各樣本信息按照相似值從大到小排序,得到其相似樣本序列; E)將樣本序列中前P個樣本信息的類別標識與對應相似值分別相乘,形成一個緯數為P的向量N,作為樣本Sample的最終特徵向量。
7.如權利要求2所述的方法,其特徵在於定期對準確欺騙性垃圾意見信息集合和無標註的用戶意見信息集合進行補充、更新,然後對更新後的用戶意見信息集合進行聚類,計算每一信息區域當前標誌向量與上一次標誌向量之間的距離並求和得到累加值Dis,當Dis值大於事先設定的閾值時,更新每個信息區域的欺騙性垃圾意見檢測模型。
8.如權利要求2所述的方法,其特徵在於對用戶意見信息集合進行聚類分析的特徵向量為:提取意見信息的字數、詞數、意見段落數、段落長度均值、句子數、句子長度均值、第一人稱代詞數、第二人稱代詞數、第三人稱代詞數、形容詞數、副詞數、動詞數、人名數、地名數、機構名數、時間數、感嘆號數、問號數以及標題字數,並對其進行歸一化得到對用戶意見信息集合進行聚類分析的特徵向量。
9.如權利要求1所述`的方法,其特徵在於對網頁信息中表示處所的詞語進行解析的方法為: a)對於地名代詞,用一判斷模型判斷地名代詞與其前面出現的地理名詞之間是否存在指代關係,如果存在,則將地名代詞替換為相應的地理名詞; b)基於標準詞語和非標準詞語對照表對詞語中非標準地名詞語進行解析,將非標準詞語替換為標準詞語; c)基於所述食品安全事件信息本體中的區域維度,對詞語中的相對位置區域信息進行解析,得到準確的地名詞語; 其中,所述判斷模型的建立方法為:將包含地名代詞的網頁信息形成一樣本集合,並對樣本集合中地名代詞和其之前的地理名詞之間的指代關係進行標註,作為類別變量;建立地名代詞和其之前的地理名詞之間關係的特徵向量:然後選擇機器學習方法基於所述樣本集合、類別變量和特徵向量建立地理名詞和地名代詞之間是否存在指代關係的判斷模型; 其中,判斷地名代詞與其前面出現的地理名詞之間是否存在指代關係的方法為:計算地名代詞和地理名詞之間關係的特徵向量值,利用所述判斷模型對所述特徵向量值進行判斷,確定地名代詞和地理名詞之間的指代關係是否存在。
10.如權利要求9所述的方法,其特徵在於對網頁信息中表示處所的地名代詞進行解析的方法為: 101)建立一代詞解析的長度為L的滑動窗口; 102)選擇地名代詞前L個詞語內是否存在地理名詞,如果存在,則採用判斷模型進行判斷,如果存在指代關係,則根據指代關係確定代詞對應的地理名詞,解析結束,否則進行步驟103); 103)選擇地名代詞前2L個詞語內是否存在地理名詞,如果存在,則採用判斷模型進行判斷,如果存在指代關係,則根據指代關係確定代詞對應的地理名詞,解析結束,否則進行步驟104); 104)根據元數據提取過程中得到的信息來源或網站所在地採用抽取或者替換的方法確定地名代詞的指代地名。
11.如權利要求1或2或10所述的方法,其特徵在於計算目標區域發生該設定事件的可能性以及可能的發生時間,並進行不同級別的風險預警的方法為: 11)選擇與目標區域同行政級別的區域的歷史事件信息集合,基於該歷史事件信息集合建立事件網絡圖;其中,事件網絡圖的頂點標識各個區域、食品安全事件,如果一個區域發生了某一事件,則標識該區域的頂點與標識該事件的頂點之間產生一個邊,並且邊的權重為該事件發生的次數; 12)將該事件網絡圖轉換為一個R*S的矩陣A;其中,R為區域數,S為食品安全事件數; 13)基於上述的歷史事件信息集合,按照目標區域發生設定事件距離最早發生該事件的時間不同,設定N個時間範圍,針對每一時間範圍分別對該歷史事件信息集合進行標註,形成N個數據集合; 14)對上述每一數據集合,將目標區域在相應時間範圍內是否發生設定事件作為因變量,其餘區域是否發生相應事件作為自變量,採用回歸分析方法分別建立自變量、因變量之間的回歸預測模型; 15)更新矩陣A中 的相應元素,對矩陣A採用矩陣分解方法進行處理,形成新的矩陣B; 16)尋找矩陣B中標識目標區域和設定事件相關性的矩陣元素值,如果其大於事先設定的閾值,則確定目標區域可能會發生該設定事件;否則,不會發生該設定事件; 17)如果確定目標區域未來會發生該設定事件,則根據目前發生該設定事件的區域得到自變量的值,代入上述回歸預測模型進行判斷,根據判斷結果得到目標區域可能發生設定事件的時間預測值; 18)根據上述的風險預測結果,對目標區域發生設定事件的風險進行不同級別的預警。
【文檔編號】G06Q50/00GK103854063SQ201210501872
【公開日】2014年6月11日 申請日期:2012年11月29日 優先權日:2012年11月29日
【發明者】楊風雷, 黎建輝 申請人:中國科學院計算機網絡信息中心

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀