新四季網

一種獲取信息的方法及裝置的製作方法

2023-11-01 10:46:07

專利名稱:一種獲取信息的方法及裝置的製作方法
技術領域:
本發明涉及數據處理領域,尤其涉及一種獲取信息的方法及裝置。
背景技術:
隨著社會信息化程度不斷提高,信息系統數據量不斷膨脹,不同行業需要處理、分析大量並且不斷更新的數據流。目前,各行業面臨的問題是數據量非常大,但其中真正有價值的信息卻很少,因此,如何從大量並且不斷更新的數據中挖掘出有價值的信息以對後續業務進行指導,成為困擾各行業的難點。數據挖掘就是為順應從大量數據中獲取有價值信息的需要應運而生的數據處理技術。數據挖掘又稱資料庫中的知識發現(knowledge discovery indatabase),是指從大量的不完全的、有噪聲的、模糊的數據中提取隱含的、未知的、非平凡的及有潛在應用價值的信息或模式,融合了資料庫、人工智慧、機器學習、統計學等多個領域的理論和技術。數據挖掘工具能夠對將來的趨勢和行為進行預測,從而很好地支持人們的決策。從大量數據中獲取有價值的信息,目前通用的做法是利用關係資料庫,具體過程為將用於獲取信息的大量數據統一加載到關係資料庫中,然後在此基礎上對加載的數據進行數據挖掘以求發現有用的信息。關係資料庫是以關係模型為基礎的資料庫,該關係模型中定義了各種數據關係,即利用定義的關係來描述數據,其中,一個關係既可以用來描述一個實體及其屬性,也可以用來描述實體間的聯繫。因此,根據關係資料庫對數據進行處理,首先將數據源文件完成完整加載形成滿足關係資料庫範式檢查的數據集合,然後對資料庫表在組合屬性上進行投影計算,得到計算統計值。在實際應用中,採用關係資料庫從大量數據中獲取信息,需要等待用於獲取信息的全部數據產生完畢後再一次性加載到關係資料庫中處理,使得在關係資料庫中需要進行關係計算的數據量聚集,由此導致的問題在於 一方面,需要消耗大量的CPU、I/O、內存等系統資源,系統開銷很大;另一方面,需要一次性處理的數據量龐大,處理過程需要耗費大量的時間,信息獲取效率低。綜上所述,現有技術基於關係資料庫從數據中獲取信息,信息獲取效率低,並且系統開銷大。

發明內容
有鑑於此,本發明實施例提供一種獲取信息的方法及裝置,採用該技術方案,一方面提高了信息獲取的效率,另一方面降低了系統開銷。本發明實施例通過如下技術方案實現根據本發明實施例的一個方面,提供了一種獲取信息的方法。根據本發明實施例提供的獲取信息的方法,預先確定用於獲取信息的數據,並將產生所述數據的時間段劃分為多個子時間段;針對每個子時間段執行加載當前子時間段產生的數據;
確定加載的所述數據中由預先設定的至少一個數據屬性組合得到的各項集對應的第一信息熵;確定在當前子時間段之前的所有子時間段產生的數據中所述各項集對應的第二
信息熵;根據所述各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合。根據本發明實施例的另一個方面,還提供了一種獲取信息的裝置。根據本發明實施例提供的獲取信息的裝置,包括數據加載單元,用於確定用於獲取信息的數據,並將產生所述數據的時間段劃分為多個子時間段,並加載當前子時間段產生的數據;第一信息熵確定單元,用於確定所述數據加載單元加載的所述數據中由預先設定的至少一個數據屬性組合得到的各項集對應的第一信息熵;第二信息熵確定單元,用於確定所述數據加載單元在當前子時間段之前的所有子時間段加載的數據中所述各項集對應的第二信息熵;項集集合更新單元,用於根據所述第一信息熵確定單元確定的各項集對應的第一信息熵以及所述第二信息熵確定單元確定的第二信息熵更新用於標識獲取的信息的項集
皇A
朱口 ο通過本發明實施例提供的上述至少一個技術方案,預先確定用於獲取信息的數據,並將產生數據的時間段劃分為多個子時間段,針對每個子時間段執行加載當前子時間段產生的數據,確定加載的數據中由預先設定的至少一個數據屬性組合得到的各項集對應的第一信息熵,確定在當前子時間段之前的所有子時間段產生的數據中各項集對應的第二信息熵,並根據各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合。採用該技術方案,將用於獲取信息的數據根據其產生時間劃分為多個子時間段,一次只加載一個時間段的數據,基於該時間段內產生的數據更新用於標識獲取的信息的項集集合,與現有技術相比,將從數據中獲取信息的任務分布為多個執行,大大減少了每次處理的數據量,從而提高了信息獲取的效率,並且降低了系統開銷。本發明的其它特徵和優點將在隨後的說明書中闡述,並且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。


附圖用來提供對本發明的進一步理解,並且構成說明書的一部分,與本發明實施例一起用於解釋本發明,並不構成對本發明的限制。在附圖中圖1為本發明實施例一提供的獲取信息的方法流程圖一;圖2為本發明實施例一提供的確定第一信息熵的流程圖;圖3為本發明實施例一提供的確定第二信息熵的流程圖;圖4為本發明實施例一提供的更新用於標識獲取的信息的項集集合的流程圖;圖5為本發明實施例一提供的獲取信息的方法流程圖二 ;圖6為本發明實施例三提供的獲取信息的方法流程圖二 ;
圖7為本發明實施例三提供的獲取信息的方法流程圖三;圖8為本發明實施例三提供的獲取信息的方法流程圖四;圖9為本發明實施例三提供的獲取信息的方法流程圖五;圖10為本發明實施例三提供的獲取信息的方法流程圖六;圖11為本發明實施例三提供的獲取信息的方法流程圖七;圖12為本發明實施例四提供的獲取信息的方法流程圖。
具體實施例方式為了給出提高信息獲取的效率以及減少系統開銷的實現方案,本發明實施例提供了一種獲取信息的方法及裝置,以下結合說明書附圖對本發明的優選實施例進行說明,應當理解,此處所描述的優選實施例僅用於說明和解釋本發明,並不用於限定本發明。並且在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互組合。實施例一根據本發明實施例一,提供了一種獲取信息的方法,該方法將用於獲取信息的數據根據其產生時間劃分為多個子時間段,一次只加載一個時間段的數據,基於該時間段內產生的數據更新用於標識獲取的信息的項集集合,將從數據中獲取信息的任務分布為多個執行以達到提高信息獲取的效率以及降低系統開銷的目的。本發明實施例一提供的獲取信息的方法中,需要預先確定用於獲取信息的數據, 並將產生該數據的時間段劃分為多個子時間段。優選地,可以將產生該數據的子時間段劃分為W個等時間間隔T的多個子時間段,其中,該時間間隔T大於等於估計得到的從每個子時間段中獲取信息所需的時長,即保證在加載當前子時間段產生的數據之前,從上一子時間段產生的數據中獲取信息完畢,根據該優選方式,避免了加載當前子時間段對應的數據後,由於上一子時間段對應的數據還未處理完畢(即還未從數據獲取信息完畢)而導致當前子時間段對應的數據處理滯後的問題,從而能夠保證數據處理的連續性,提高數據處理的效率。應當理解,以上提供的劃分子時間段的方法僅為本發明實施例一提供的優選實施方式,具體應用中,可以考慮系統處理能力以及具體的數據處理量等因素,靈活確定劃分方式,此處不再一一列舉。在確定用於獲取信息的數據以及完成子時間段的劃分以後,本發明實施例一提供的獲取信息的方法如圖1所示,針對劃分得到的每個子時間段執行如下步驟101至步驟 104 步驟101、加載當前子時間段產生的數據。該步驟101中,在確定每個子時間段後,對該子時間段進行計時,當該子時間段結束後,意味著對應該子時間段的數據產生完畢,則記載當前子時間段產生的數據。實際應用中,可以通過時間控制器進行計時,並觸發加載各子時間段產生的數據。步驟102、確定加載的當前子時間段產生的數據中由預先設定的至少一個數據屬性組合得到的各項集對應的第一信息熵。在執行該步驟102之前,預先設定要獲取信息的數據的數據屬性,可以根據實際需要設置一個或多個數據屬性,並由設置的數據屬性組合得到項集。例如,特殊情況下,只設置一個數據屬性,則對應的項集也為一個,該項集對應該數據屬性;若設置N個數據屬性 (N大於等於2),則可對該N個數據屬性進行組合得到多個分別對應不同數據屬性的項集, 例如,有3個數據屬性A、B、C,則可以組合得到7種項集,該7個項集分別為{A}、{B}、{C}、 {A、B}、{B、C}、{A、C}、{A、B、C}。該步驟102中,確定第一信息熵的具體過程將在後續實施例中詳細說明,此處暫不描述。步驟103、確定在當前子時間段之前的所有子時間段產生的數據中各項集對應的
第二信息熵。該步驟103中,若當前子時間段為第一個子時間段,則在當前子時間段之前的所有子時間段產生的數據中各項集對應的第二信息熵均為0。該步驟103中,確定第二信息熵的具體過程將在後續實施例中詳細說明,此處暫不描述。步驟104、根據確定的各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合。該步驟103中,更新用於標識獲取的信息的項集集合的具體過程將在後續實施例中詳細說明,此處暫不描述。至此,根據一個子時間段產生的數據更新用於標識獲取的信息的項集集合的過程結束,即從當前子時間段產生的數據中獲取信息完畢。上述流程中,步驟102和步驟103沒有嚴格的執行順序,實際應用中可以先執行步驟103再執行步驟102,或者並行執行。本發明實施例一中,在確定用於獲取信息的數據後,按照圖1所述的流程依次對各子時間段產生的數據進行處理,從而完成從各子時間段產生的數據中獲取信息的過程。圖1所述流程的步驟102中,確定加載的所述數據中每個項集對應的第一信息熵的過程,如圖2所示,包括如下步驟步驟201、確定加載的數據中符合該項集對應的數據屬性的數據量。步驟202、確定加載的數據的總數據量。步驟203、根據確定的符合該項集對應的數據屬性的數據量以及總數據量,確定該項集對應的第一信息熵。至此,確定一個項集對應的第一信息熵的過程結束。上述流程中,步驟201和步驟 202沒有嚴格的執行順序,實際應用中可以先執行步驟202再執行步驟201,或者並行執行。圖2所示流程的步驟201以及步驟202中,數據的數據量可以為數據記錄的條數, 也可以為數據佔用的存儲空間大小。圖2所示流程的步驟203中,根據確定的符合該項集對應的數據屬性的數據量以及所述總數據量,確定該項集對應的第一信息熵,包括確定符合該項集對應的數據屬性的數據量與所述總數據量的比值;利用該比值乘以對該比值取對數得到的值,將得到的乘積的負值確定為該項集對應的第一信息熵。本發明實施例中,對該比值取對數可認為是運用對數函數進行區段擴散,因為此函數值為負,所以將得到的乘積的負值確定為該項集對應的第一信息熵。圖1所述流程的步驟103中,確定在當前子時間段之前的所有子時間段產生的數據中每個項集對應的第二信息熵的過程,如圖3所示,包括如下步驟步驟301、確定當前子時間段之前的所有子時間段產生的數據中符合該項集對應的數據屬性的數據量。步驟302、確定當前子時間段之前的所有子時間段產生的數據的總數據量。步驟303、根據所述符合該項集對應的數據屬性的數據量以及所述總數據量,確定該項集對應的第二信息熵。至此,確定一個項集對應的第二信息熵的過程結束。上述流程中,步驟301和步驟 302沒有嚴格的執行順序,實際應用中可以先執行步驟302再執行步驟301,或者並行執行。圖3所示流程的步驟301以及步驟302中,數據的數據量可以為數據記錄的條數, 也可以為數據佔用的存儲空間大小。圖3所示流程的步驟303中,根據符合該項集對應的數據屬性的數據量以及所述總數據量,確定該項集對應的第二信息熵,包括確定該符合該項集對應的數據屬性的數據量與所述總數據量的比值;利用該比值乘以對該比值取對數得到的值,將得到的乘積的負值確定為該項集對
應的第二信息熵。本發明實施例中,對該比值取對數可認為是運用對數函數進行區段擴散,因為此函數值為負,所以將得到的乘積的負值確定為該項集對應的第二信息熵。圖1所述流程的步驟104中,根據確定的各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合的過程,如圖4所示,包括如下步驟步驟401、確定對應的第一信息熵以及第二信息熵之和達到第一閾值的第一項集集合,其中第一項集集合中的第一項集通過對應的第一信息熵以及第二信息熵標識;步驟402、利用確定的第一項集集合更新用於標識獲取的信息的項集集合。至此,根據確定的各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合的過程結束。圖4所示流程的步驟402中,利用確定出的第一項集集合更新用於標識獲取的信息的項集集合的過程,具體包括若第一項集集合中的第一項集包含在用於標識獲取的信息的項集集合中,則利用該第一項集集合中通過對應的第一信息熵以及第二信息熵標識的第一項集替換該用於標識獲取的信息的項集集合中的相應項集;若第一項集集合中的第一項集未包含在用於標識獲取的信息的項集集合中,則刪除該用於標識獲取的信息的項集集合中的相應項集。進一步地,若當前子時間段非產生所述數據的時間段中的最後一個子時間段,則上述步驟104中,即根據各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合,還包括確定對應的第一信息熵達到第二閾值的第二項集集合,其中第二項集集合中的第二項集通過對應的第一信息熵標識;利用所述第二項集集合更新用於標識獲取的信息的項集集合。其中利用所述第二項集集合更新用於標識獲取的信息的項集集合,包括將第二項集集合中未包含在用於標識獲取的信息的項集集合中的第二項集,加入所述用於標識獲取的信息的項集集合中。通過以上實施例對本發明提供的技術方案中從數據中獲取信息的過程進行了詳細的描述,為更好地理解本發明實施例,以下進一步結合針對用於獲取信息的數據為用戶話單記錄時的完整處理過程進行說明。在執行本發明實施例一提供的獲取信息的方法之前,進行如下設置設定項集隱含信息熵閾值Eptl,其中,隱含信息熵對應以上所述的第一信息熵,閾值 Eptl對應以上所述的第二閾值;設定項集信息熵閾值&,其中,信息熵即隱含信息熵和累計信息熵之和,累計信息熵對應以上所述的第二信息熵,閾值&對應以上所述的第一閾值;設定時間窗口數Iwl,其中,時間窗口對應以上所述的子時間段,用於對各子時間段進行計時,即時間窗口的滑動時間間隔對應子時間段的時間間隔;設定時間窗口庫表,分別與設定的時間窗口對應,用於加載對應時間窗口內產生的數據;設定輸出潛在頻繁項集集合ITEM,其中,集合中的每個項集可通過三元組{項集、 累計信息熵、隱含信息熵}表示,該潛在頻繁項集集合ITEM對應以上所述的用於標識獲取的信息的項集集合。以上設置過程中,閾值^jtl可以參考如下因素設置1、對項集的所有隱含信息熵的概率分布區間進行分段(p' pi = 1,2,...,n),然後在按照如下公式得到項集隱含信息熵閾值Eptl
處於第/個子區間段的所有項集隱含信息熵個數』 p0r所有項集的隱含信息熵總數x Pi其中項集的所有隱含信息熵的概率分布區間,即表示所有項集的隱含信息熵的分布, 區間的端點分別為項集的所有隱含信息熵的最小值以及最大值;對項集的所有隱含信息熵的概率分布區間進行分段,即將確定的概率分布區間劃分為多個子區間段,子區間段個數可以根據實際的概率分布區間長度確定,例如,概率分布區間為
,則可以將該概率分布區間為劃分為5個子區間段,每個子區間段長度為 0. 1 ;p' i為第i個子區間段的右邊端點,η為子區間段的個數。2、對穩態情況下(各時間窗口均已加載運算),對項集的所有累計信息熵的概率分布區間進行分段(P" i,i = 1,2,. . .,η),然後在按照如下公式得到項集信息熵閾值
y處於第/個子區間段的所有項集累計信息熵個數
權利要求
1.一種獲取信息的方法,其特徵在於,預先確定用於獲取信息的數據,並將產生所述數據的時間段劃分為多個子時間段;針對每個子時間段執行 加載當前子時間段產生的數據;確定加載的所述數據中由預先設定的至少一個數據屬性組合得到的各項集對應的第一信息熵;確定在當前子時間段之前的所有子時間段產生的數據中所述各項集對應的第二信息熵;根據所述各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集皇A朱口 ο
2.如權利要求1所述的方法,其特徵在於,將產生所述數據的時間段劃分為多個子時間段,包括將產生所述數據的時間段劃分為等時間間隔的多個子時間段;其中,所述時間間隔大於等於估計得到的從每個子時間段中獲取信息所需的時長。
3.如權利要求1所述的方法,其特徵在於,確定加載的所述數據中每個項集對應的第一信息熵,包括確定加載的所述數據中符合該項集對應的數據屬性的數據量以及加載的所述數據的總數據量;根據所述符合該項集對應的數據屬性的數據量以及所述總數據量,確定該項集對應的第一信息熵。
4.如權利要求3所述的方法,其特徵在於,根據所述符合該項集對應的數據屬性的數據量以及所述總數據量,確定該項集對應的第一信息熵,包括確定所述符合該項集對應的數據屬性的數據量與所述總數據量的比值; 利用所述比值乘以對所述比值取對數得到的值,將得到的乘積的負值確定為該項集對應的第一信息熵。
5.如權利要求1所述的方法,其特徵在於,確定在當前子時間段之前的所有子時間段產生的數據中每個項集對應的第二信息熵,包括確定當前子時間段之前的所有子時間段產生的數據中符合該項集對應的數據屬性的數據量以及當前子時間段之前的所有子時間段產生的數據的總數據量;根據所述符合該項集對應的數據屬性的數據量以及所述總數據量,確定該項集對應的第二信息熵。
6.如權利要求5所述的方法,其特徵在於,根據所述符合該項集對應的數據屬性的數據量以及所述總數據量,確定該項集對應的第二信息熵,包括確定所述符合該項集對應的數據屬性的數據量與所述總數據量的比值; 利用所述比值乘以對所述比值取對數得到的值,將得到的乘積的負值確定為該項集對應的第二信息熵。
7.如權利要求3或5所述的方法,其特徵在於,所述數據量為 數據記錄的條數;或數據佔用的存儲空間大小。
8.如權利要求1所述的方法,其特徵在於,根據所述各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合,包括確定對應的第一信息熵以及第二信息熵之和達到第一閾值的第一項集集合,其中所述第一項集集合中的第一項集通過對應的第一信息熵以及第二信息熵標識;利用所述第一項集集合更新用於標識獲取的信息的項集集合。
9.如權利要求8所述的方法,其特徵在於,利用所述第一項集集合更新用於標識獲取的信息的項集集合,包括若第一項集集合中的第一項集包含在用於標識獲取的信息的項集集合中,則利用所述第一項集集合中通過對應的第一信息熵以及第二信息熵標識的第一項集替換所述用於標識獲取的信息的項集集合中的相應項集;若第一項集集合中的第一項集未包含在用於標識獲取的信息的項集集合中,則刪除所述用於標識獲取的信息的項集集合中的相應項集。
10.如權利要求8所述的方法,其特徵在於,若當前子時間段非產生所述數據的時間段中的最後一個子時間段,則根據所述各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合,還包括確定對應的第一信息熵達到第二閾值的第二項集集合,其中所述第二項集集合中的第二項集通過對應的第一信息熵標識;利用所述第二項集集合更新用於標識獲取的信息的項集集合。
11.如權利要求10所述的方法,其特徵在於,利用所述第二項集集合更新用於標識獲取的信息的項集集合,包括將第二項集集合中未包含在用於標識獲取的信息的項集集合中的第二項集,加入所述用於標識獲取的信息的項集集合中。
12.如權利要求1所述的方法,其特徵在於,分別根據所述各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合後,還包括根據設定的待提取數據屬性以及所述用於標識獲取的信息的項集集合中各項集對應的數據屬性,對所述用於標識獲取的信息的項集集合中保存的項集進行分組處理。
13.一種獲取信息的裝置,其特徵在於,包括數據加載單元,用於確定用於獲取信息的數據,並將產生所述數據的時間段劃分為多個子時間段,並加載當前子時間段產生的數據;第一信息熵確定單元,用於確定所述數據加載單元加載的所述數據中由預先設定的至少一個數據屬性組合得到的各項集對應的第一信息熵;第二信息熵確定單元,用於確定所述數據加載單元在當前子時間段之前的所有子時間段加載的數據中所述各項集對應的第二信息熵;項集集合更新單元,用於根據所述第一信息熵確定單元確定的各項集對應的第一信息熵以及所述第二信息熵確定單元確定的第二信息熵更新用於標識獲取的信息的項集集合。
14.如權利要求13所述的裝置,其特徵在於,所述數據加載單元,包括時間段劃分模塊,用於確定用於獲取信息的數據,將產生所述數據的時間段劃分為等時間間隔的多個子時間段;其中,所述時間間隔大於等於估計得到的從每個子時間段中獲取信息所需的時長;加載模塊,用於對所述時間段劃分模塊劃分的各個子時間段進行計時,在當前子時間段結束後,加載當前子時間段產生的數據。
15.如權利要求13所述的裝置,其特徵在於,所述第一信息熵確定單元,包括第一數據量確定模塊,用於確定加載的所述數據中符合該項集對應的數據屬性的數據量以及加載的所述數據的總數據量;第一信息熵確定模塊,用於根據所述第一數據量確定模塊確定的符合該項集對應的數據屬性的數據量以及所述總數據量,確定該項集對應的第一信息熵。
16.如權利要求15所述的裝置,其特徵在於,所述第一信息熵確定模塊,具體用於確定所述符合該項集對應的數據屬性的數據量與所述總數據量的比值;利用所述比值乘以對所述比值取對數得到的值,將得到的乘積的負值確定為該項集對應的第一信息熵。
17.如權利要求13所述的裝置,其特徵在於,所述第二信息熵確定單元,包括第二數據量確定模塊,用於確定當前子時間段之前的所有子時間段產生的數據中符合該項集對應的數據屬性的數據量以及當前子時間段之前的所有子時間段產生的數據的總數據量;第二信息熵確定模塊,用於根據所述第二數據量確定模塊確定的符合該項集對應的數據屬性的數據量以及所述總數據量,確定該項集對應的第二信息熵。
18.如權利要求17所述的裝置,其特徵在於,所述第二信息熵確定模塊,具體用於確定所述符合該項集對應的數據屬性的數據量與所述總數據量的比值;利用所述比值乘以對所述比值取對數得到的值,將得到的乘積的負值確定為該項集對應的第二信息熵。
19.如權利要求13所述的裝置,其特徵在於,所述項集集合更新單元,包括第一項集集合確定模塊,用於確定對應的第一信息熵以及第二信息熵之和達到第一閾值的第一項集集合,其中所述第一項集集合中的第一項集通過對應的第一信息熵以及第二信息熵標識;第一更新模塊,用於利用所述第一項集集合確定模塊確定的第一項集集合更新用於標識獲取的信息的項集集合。
20.如權利要求19所述的裝置,其特徵在於,所述第一更新模塊,具體用於在第一項集集合中的第一項集包含在用於標識獲取的信息的項集集合中時,利用所述第一項集集合中通過對應的第一信息熵以及第二信息熵標識的第一項集替換所述用於標識獲取的信息的項集集合中的相應項集;在第一項集集合中的第一項集未包含在用於標識獲取的信息的項集集合中時,刪除所述用於標識獲取的信息的項集集合中的相應項集。
21.如權利要求19所述的裝置,其特徵在於,所述項集集合更新單元,還包括第二項集集合確定模塊,用於在當前子時間段非產生所述數據的時間段中的最後一個子時間段時,確定對應的第一信息熵達到第二閾值的第二項集集合,其中所述第二項集集合中的第二項集通過對應的第一信息熵標識;第二更新模塊,用於利用所述第二項集集合確定模塊確定的第二項集集合更新用於標識獲取的信息的項集集合。
22.如權利要求21所述的裝置,其特徵在於,所述第二更新模塊,用於將第二項集集合中未包含在用於標識獲取的信息的項集集合中的第二項集,加入所述用於標識獲取的信息的項集集合中。
23.如權利要求13所述的裝置,其特徵在於,還包括分組處理單元,用於在分別根據所述各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合後,根據設定的待提取數據屬性以及所述用於標識獲取的信息的項集集合中各項集對應的數據屬性,對所述用於標識獲取的信息的項集集合中保存的項集進行分組處理。
全文摘要
本發明公開了一種獲取信息的方法及裝置,主要技術方案包括預先確定用於獲取信息的數據,並將產生所述數據的時間段劃分為多個子時間段;針對每個子時間段執行加載當前子時間段產生的數據;確定加載的所述數據中由預先設定的至少一個數據屬性組合得到的各項集對應的第一信息熵;確定在當前子時間段之前的所有子時間段產生的數據中所述各項集對應的第二信息熵;根據所述各項集對應的第一信息熵以及第二信息熵更新用於標識獲取的信息的項集集合。採用該技術方案,一方面提高了信息獲取的效率,另一方面降低了系統開銷。
文檔編號G06F17/30GK102411594SQ201010292828
公開日2012年4月11日 申請日期2010年9月25日 優先權日2010年9月25日
發明者李少年, 蔡俊 申請人:中國移動通信集團湖南有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀