一種信訪數據挖掘評分方法及系統與流程
2023-06-01 15:41:46 1

本發明涉及一種信訪數據挖掘評分的方法及系統,屬於計算機技術領域。
背景技術:
信訪,是指公民、法人或者其它組織採用書信、電子郵件、傳真、電話、走訪等形式,向各級人民政府、縣級以上人民政府工作部門反映情況,提出建議、意見或者投訴請求,依法由有關行政機關處理的活動。
信訪是除法律以外的又一種解決問題的辦法,是一種比較直接的利益表達形式。近年來信訪量的激增引發了信訪數據的大量聚集,如何將這些信訪數據轉化成多層次、多維度的信息和知識,揭示數據背後的邏輯關聯,從而為政府從政策層面有效解決信訪突出矛盾,是信訪研究領域所面臨的重要問題。實現對信訪數據的深層分析,是解決這一難題的必要前提。
目前我們對於信訪數據的使用仍然停留在錄入、查詢、簡單統計等表層匯總的層面,無法發現信訪數據中隱藏著的深層次的邏輯關聯。而這些數據背後的邏輯關聯恰是社會矛盾的癥結所在,是引導政策制訂的重要依據。
技術實現要素:
本發明所要解決的技術問題是針對現有技術沒有統一的大資料庫,對於信訪數據無法根據需要調用,並且無法對信訪數據中存在的問題及時解決的不足,提供一種信訪數據挖掘評分的方法及系統。
本發明解決上述技術問題的技術方案如下:一種信訪數據挖掘評分的方 法,包括以下步驟:
步驟1:從大資料庫中抽取符合條件的信訪數據進行處理,得到適合數據挖掘的挖掘數據存入挖掘資料庫中,所述大資料庫中保存所有歷史信訪數據;
步驟2:對挖掘資料庫中的挖掘數據提取至少一個關鍵詞,基於每個關鍵詞對挖掘數據分進行特徵提取,得到針對每個關鍵詞的分析表;
步驟3:根據對至少一個分析表中的挖掘數據進行統計分析,得到針對每個關鍵詞的一個權重值,基於不同關鍵詞各自對應的權重值建立綜合評分標準。
本發明的有益效果是:本發明整合了分散在各個系統並且相互之間孤立的所有信訪數據,從信訪數據中自動抽取模式、關聯、變化、異常和有意義的結構,從越來越大的信訪數據中發掘有價值的知識,從而達到用數字反映矛盾規律,用規律促進科學決策的目的。本發明中的信訪事項綜合評分體系可以預測近期可能會出現的過激信訪事項和過激信訪人,以引起各相關部門的注意,對社會矛盾預防化解非常有益。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步,所述大資料庫中預存的信訪數據包括通過數據採集獲得的信件、電子郵件、語音、視頻及來訪等數據。
進一步,所述步驟1中從大資料庫中抽取信訪數據的過程包括:
在大資料庫中當有數據發生變化時,通過時間戳條件或者更新日誌的方式從大資料庫中提取發生變化的數據,得到的數據為符合條件的信訪數據。
進一步,所述步驟1對信訪數據的處理包括數據清理和數據變換;
所述數據清理將抽取的信訪數據清理獲得無重複的標準信訪數據;
所述數據變換將標準信訪數據從事務性數據轉換成適合數據挖掘的挖掘數據。
進一步,所述數據清理包括去重、標準化數據項和去噪操作,所述去重將信訪數據中重複錄入的數據去除;所述標準化數據項將不同形式錄入的信訪數據按照統一標準排序記錄,使處理後的數據更易統計;所述去噪將信訪數據中的噪聲數據去除。
進一步,所述數據變換的過程包括平滑聚集、數據概化、規範化、概念分層和離散化等操作。
進一步,所述步驟2中的關鍵詞包括過激次數、信訪人數、信訪次數、信訪途徑數和信訪耗時等。
進一步,所述步驟3中不同關鍵詞根據各自對應的權重值獲得與整體評分的百分比,將所有關鍵詞對應的百分比按從大到小排序後建立綜合評分標準;其中所述權重值越大所佔百分比越大。
本發明解決上述技術問題的技術方案如下:一種信訪數據挖掘評分的系統,包括:
抽取模塊,從大資料庫中抽取符合條件的信訪數據進行處理,得到適合數據挖掘的挖掘數據存入挖掘資料庫中,所述大資料庫中保存所有歷史信訪數據;
挖掘模塊,對挖掘資料庫中的挖掘數據提取至少一個關鍵詞,基於每個關鍵詞對挖掘數據分進行特徵提取,得到針對每個關鍵詞的分析表;
標準建立模塊,根據對至少一個分析表中的挖掘數據進行統計分析,得到針對每個關鍵詞的一個權重值,基於不同關鍵詞各自對應的權重值建立綜合評分標準。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步,所述大資料庫中預存的信訪數據包括通過數據採集獲得的信件、電子郵件、語音、視頻及來訪等數據。
進一步,所述抽取模塊中從大資料庫中抽取信訪數據的過程包括:
在大資料庫中當有數據發生變化時,通過時間戳條件或者更新日誌的方式從大資料庫中提取發生變化的數據,得到的數據為符合條件的信訪數據。
進一步,所述抽取模塊對信訪數據的處理包括數據清理和數據變換;
所述數據清理將抽取的信訪數據清理獲得無重複的標準信訪數據;
所述數據變換將標準信訪數據從事務性數據轉換成適合數據挖掘的挖掘數據。
進一步,所述數據清理包括去重、標準化數據項和去噪操作,所述去重將信訪數據中重複錄入的數據去除;所述標準化數據項將不同形式錄入的信訪數據按照統一標準排序記錄,使處理後的數據更易統計;所述去噪將信訪數據中的噪聲數據去除。
進一步,所述數據變換的過程包括平滑聚集、數據概化、規範化、概念分層和離散化等操作。
進一步,所述挖掘模塊中的關鍵詞包括過激次數、信訪人數、信訪次數、信訪途徑數和信訪耗時等。
進一步,所述標準建立模塊中不同關鍵詞根據各自對應的權重值獲得與整體評分的百分比,將所有關鍵詞對應的百分比按從大到小排序後建立綜合評分標準;其中所述權重值越大所佔百分比越大。
附圖說明
圖1為本發明實施例1所述的一種信訪數據挖掘評分的方法流程圖;
圖2為本發明實施例2所述的一種信訪數據挖掘評分的系統結構示意圖。
附圖中,各標號所代表的部件列表如下:
1、抽取模塊,2、挖掘模塊,3、標準建立模塊。
具體實施方式
以下結合附圖對本發明的原理和特徵進行描述,所舉實例只用於解釋本發明,並非用於限定本發明的範圍。
如圖1所示,為本發明實施例1所述的一種信訪數據挖掘評分的方法,包括以下步驟:
步驟1:從大資料庫中抽取符合條件的信訪數據進行處理,得到適合數據挖掘的挖掘數據存入挖掘資料庫中,所述大資料庫中保存所有歷史信訪數據;
步驟2:對挖掘資料庫中的挖掘數據提取至少一個關鍵詞,基於每個關鍵詞對挖掘數據分進行特徵提取,得到針對每個關鍵詞的分析表;
步驟3:根據對至少一個分析表中的挖掘數據進行統計分析,得到針對每個關鍵詞的一個權重值,基於不同關鍵詞各自對應的權重值建立綜合評分標準。
所述大資料庫中預存的信訪數據包括通過數據採集獲得的信件、電子郵件、語音、視頻及來訪等數據。
所述步驟1中從大資料庫中抽取信訪數據的過程包括:
在大資料庫中當有數據發生變化時,通過時間戳條件或者更新日誌的方式從大資料庫中提取發生變化的數據,得到的數據為符合條件的信訪數據。
所述步驟1對信訪數據的處理包括數據清理和數據變換;
所述數據清理將抽取的信訪數據清理獲得無重複的標準信訪數據;
所述數據變換將標準信訪數據從事務性數據轉換成適合數據挖掘的挖掘數據。
所述數據清理包括去重、標準化數據項和去噪操作,所述去重將信訪數據中重複錄入的數據去除;所述標準化數據項將不同形式錄入的信訪數據按照統一標準排序記錄,使處理後的數據更易統計;所述去噪將信訪數據中的 噪聲數據去除。
所述數據變換的過程包括平滑聚集、數據概化、規範化、概念分層和離散化等操作。
所述步驟2中的關鍵詞包括過激次數、信訪人數、信訪次數、信訪途徑數和信訪耗時等。
所述步驟3中不同關鍵詞根據各自對應的權重值獲得與整體評分的百分比,將所有關鍵詞對應的百分比按從大到小排序後建立綜合評分標準;其中所述權重值越大所佔百分比越大。
如圖2所示,為本發明實施例2所述的一種信訪數據挖掘評分的系統,包括:
抽取模塊1,從大資料庫中抽取符合條件的信訪數據進行處理,得到適合數據挖掘的挖掘數據存入挖掘資料庫中,所述大資料庫中保存所有歷史信訪數據;
挖掘模塊2,對挖掘資料庫中的挖掘數據提取至少一個關鍵詞,基於每個關鍵詞對挖掘數據分進行特徵提取,得到針對每個關鍵詞的分析表;
標準建立模塊3,根據對至少一個分析表中的挖掘數據進行統計分析,得到針對每個關鍵詞的一個權重值,基於不同關鍵詞各自對應的權重值建立綜合評分標準。
所述大資料庫中預存的信訪數據包括通過數據採集獲得的信件、電子郵件、語音、視頻及來訪等數據。
所述抽取模塊1中從大資料庫中抽取信訪數據的過程包括:
在大資料庫中當有數據發生變化時,通過時間戳條件或者更新日誌的方式從大資料庫中提取發生變化的數據,得到的數據為符合條件的信訪數據。
所述抽取模塊1對信訪數據的處理包括數據清理和數據變換;
所述數據清理將抽取的信訪數據清理獲得無重複的標準信訪數據;
所述數據變換將標準信訪數據從事務性數據轉換成適合數據挖掘的挖掘數據。
所述數據清理包括去重、標準化數據項和去噪操作,所述去重將信訪數據中重複錄入的數據去除;所述標準化數據項將不同形式錄入的信訪數據按照統一標準排序記錄,使處理後的數據更易統計;所述去噪將信訪數據中的噪聲數據去除。
所述數據變換的過程包括平滑聚集、數據概化、規範化、概念分層和離散化等操作。
所述挖掘模塊2中的關鍵詞包括過激次數、信訪人數、信訪次數、信訪途徑數和信訪耗時等。
所述標準建立模塊3中不同關鍵詞根據各自對應的權重值獲得與整體評分的百分比,將所有關鍵詞對應的百分比按從大到小排序後建立綜合評分標準;其中所述權重值越大所佔百分比越大。
本發明通過提出的一種信訪數據挖掘評分的系統整合了分散在各個系統並且各個業務之間也是相互孤立的所有信訪數據到大資料庫中,包括:北京市信訪綜合辦公系統的來信、到市訪、非正常訪、國家局訪以及市長信箱的電子郵件;通過數據採集平臺從北京市信訪綜合辦公系統、市長信箱系統提取來信、到市訪、非正常訪、國家局訪及市長信箱的信訪件數據,數據採集平臺具備抽取信訪數據、清洗信訪數據、載入信訪數據到數據挖掘庫的功能。
通過對所有信訪數據的整合過程,從中抽取出了一系列新的信訪概念,包括:信訪事項和信訪人、過激信訪事項、過激信訪人、初次過激行為、重複過激行為等。
通過數據挖掘以及智能分析將所有信訪數據之間建立起關聯關係,並從這些紛亂複雜的多業務系統數據中提取相同信訪事項、相同信訪人;識別同 一信訪人的關鍵特徵是姓名、地址、身份證號(可能無),識別同一信訪事項的關鍵特徵是信訪件判重標識、信訪件引用標識、信訪人及內容摘要信息。
針對信訪事項提取關鍵特徵:信訪次數、信訪平均人數、信訪時間、過激行為發生時間、是否存在過激行為、內容分類、信訪目的、所屬地區、平均年齡等,針對信訪人及信訪事項的關鍵特徵先進行數據特徵分析,數據特徵分析主要按照內容分類、熱點問題、所屬地區、平均年齡、收入階層、是否發生過激行為、是否群體信訪、群體信訪等級(按信訪人數分級)、重複信訪等級(按照信訪次數分級)等維度進行組合分析,分析指標主要有信訪量、及時受理率、及時辦結率、及時答覆率,組合多個維度一起分析發現數據特徵,數據挖掘還針對重點關注的群體信訪和過激行為信訪事件進行了深入的數據特徵分析,特徵分析使得我們掌握了信訪數據的基本特徵及相關深層次的數據統計分析結果。
在對信訪數據的數據特徵有了基本的了解後,我們有針對性的對信訪總量、群體信訪量、重複信訪量、過激行為信訪量這幾類重點關注數據的數據特徵做了相關性分析,掌握了這幾類數據量與及時受理率、及時答覆率、辦結率、平均年齡、收入階層(年收入)之間的相關關係。
經過對這些信訪數據的多次比對、抽樣、實驗,建立起了信訪事項綜合評分標準體系,實現對信訪事項和信訪人的一個綜合評分,按照信訪事項的嚴重程度、緊急程度等特點提取出重點需關注的信訪事項、信訪人。
根據前面的數據挖據及智能分析過程及信訪核心業務需求,我們掌握了信訪事項及信訪人的數據特徵及相關統計分析情況,並根據相關性分析了解到信訪事項的是否過激行為、群體信訪級別、重複信訪次數級別、熱點問題與哪些特徵是正相關或者負相關的,從而挖掘出構成信訪事項嚴重程度、緊急程度高度相關的核心特徵,並依據這些特徵的相關度分析得出綜合計算各自權重,最後得出一個計算信訪事項綜合評分體系標準。
如表1所示,以具體示例顯示得到的綜合評分標準,其中每個信訪事項的綜合評分滿分為100分,採用加分算法,基礎分是0分,具體加分項。
以上所述僅為本發明的較佳實施例,並不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。