廣播電視用戶收視行為預測方法及系統與流程

2023-10-09 00:12:44 7

本發明涉及廣播電視
技術領域：
，更為具體地，涉及一種廣播電視用戶收視行為預測方法及系統。
背景技術：
：如今，傳統電視媒體同網際網路等新媒體一樣，對自身平臺的節目收視情況都格外看重。由於收視結果是海量用戶行為的累積，所以對用戶收視行為進行預測，將會從源頭解釋收視成因，也便於進一步採取措施吸引、培養、穩固住忠實用戶，以守住盈利底線、製造更多潛在的營收途徑。speed算法(加強片段挖掘的序列預測)是以數據壓縮領域的ppm型算法為基礎、歷經leziupdate算法和alz(activelezi)算法改進而成的序列預測算法，其原理是對歷史數據建立前綴樹和有限階馬爾可夫模型，並利用ppm算法計算可能組合的預測概率，概率最大的組合即作為預測結果。現有技術中，沒有將speed算法應用到廣播電視收視行為的預測，更加沒有通過廣播電視用戶對節目或頻道的收聽情況，預測未來用戶最喜愛的收視節目或頻道組合。技術實現要素：鑑於上述問題，本發明的目的是提供一種基於speed算法對廣播電視用戶的收視行為進行預測的廣播電視用戶收視行為預測方法及系統。根據本發明的一個方面，提供一種廣播電視用戶收視行為預測方法，包括：步驟1，採集廣播電視用戶設定時間段內收視行為數據組成第一收視行為序列，所述收視行為包括收視指標、收聽節目的標示符和收聽頻道的標示符中的一種或多種；步驟2，採用至少一種序列長度將所述第一收視行為序列劃分為多個第二收視行為序列，所述第二收視行為序列的序列長度短於所述第一收視行為序列的序列長度；步驟3，根據第二收視行為序列構建第一收視行為序列的前綴樹，包括：設定所述前綴樹的最高層數，以第一收視行為序列中出現的每一個收視行為作為一個根節點，不大於所述最高層數的各第二收視行為序列中各種收視行為組合作為各分支，每一根節點與該根節點相連的各分支構成每一個子樹，根節點代表的收視行為在第一收視行為序列中出現的頻數為所述根節點的節點值，從根節點到子節點代表的收視行為組合在各第二收視行為序列中出現的頻數之和為所述子節點的節點值；步驟4，將上述前綴樹的子樹裡每一個分支的根節點代表的收視行為與除去底層子節點的各子節點代表的收視行為按照層順序組成不同序列長度的多個第三收視行為序列；步驟5a，預測每一個第三收視行為序列下一次序的收視行為為所述第一收視行為序列中任一個收視行為的內部概率，所述內部概率按照下面的公式(1)和(2)計算，其中，i表示所述第一收視行為序列的前綴樹的層數索引也表示第三收視行為序列的次序索引，y1表示所述第一收視行為序列的前綴樹的子樹的根節點，y2,...,yi表示所述子樹的根節點y1的一個分支的第2層到第i層的子節點，y1y2...yi表示所述分支對應的序列長度為i的第三收視行為序列，1≤i≤n-1，n表示所述分支的最高層數，x表示要預測的收視行為，pint(x)表示所述第一收視行為序列的前綴樹的根節點為x的內部概率，n(y1＝x)表示所述第一收視行為序列的前綴樹的子樹的第一層中根節點為x的節點值，∑n(y1)表示所述第一收視行為序列的前綴樹第一層的各子樹根節點的節點值之和，pint(x|y1y2...yi)表示所述第三收視行為序列次序為i+1的收視行為為x的內部概率，n(yi+1＝x)表示所述分支第i層節點yi的第i+1層的子節點為x的節點值，n(yi)表示所述分支的第i層的節點yi的節點值；步驟5b，根據與第三收視行為序列中每一個收視行為對應節點的節點值以及屬於所述節點的下一層的子節點的節點值之和預測所述收視行為對應的節點從所在層逃逸的逃逸概率，所述逃逸概率按照下面的公式(3)計算，其中，pesc(i,yi)表示所述第三收視行為序列所在分支第i層節點yi的逃逸概率，表示所述第三收視行為序列所在分支第i層節點yi的第i+1層所有子節點的節點值的加和；步驟6，根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率，所述預測概率按照公式(4)和(5)計算p(x|y1y2...yi)＝p(i+1,x)＝pint(x|y1y2…yi)+pesc(i,yi)*p(i,x)(4)p(x)＝pint(x)(5)其中，p(x|y1y2…yi)和p(i+1,x)表示序列長度為i的所述第三收視行為序列次序i+1的收視行為是x的預測概率，p(i,x)表示所述第三收視行為序列次序為i的收視行為是x預測概率，p(x)表示所述第三收視行為序列次序為1的收視行為是x預測概率；步驟7，上述各第三收視行為序列的下一次序收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。根據本發明的另一個方面，提供一種廣播電視用戶收視行為預測方法，包括：步驟10-步驟50a與上述廣播電視用戶收視行為預測方法相同，不同之處在於：根據與第三收視行為序列中每一個收視行為對應節點的下一層的子節點的節點值之和和所述下一層的子節點中收視行為的不同種類數預測所述收視行為對應的節點從所在層逃逸的逃逸概率，所述逃逸概率按照下面的公式(6)計算，其中，pesc′(i,yi)表示第三收視行為序列所在分支第i層節點為yi的逃逸概率，表示第三收視行為序列所在分支第i層節點為yi的第i+1層所有子節點中收視行為的不同種類數，表示所述第三收視行為序列所在分支第i層節點為yi的第i+1層所有子節點的節點值的加和；步驟60，根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述每一個第一收視行為序列中每一個收視行為的預測概率，所述預測概率按照公式(7)和(8)計算p′(x|y1y2…yi)＝p′(i+1,x)＝pint(x|y1y2…yi)+pesc′(i,yi)*p′(i,x)(7)p′(x)＝pint(x)(8)其中，p′(x|y1y2…yi)和p′(i+1,x)表示序列長度i為的所述第三收視行為序列次序i+1的收視行為為x的預測概率，p′(i,x)表示所述第三收視行為序列次序為i的收視行為為x預測概率，p′(x)表示所述第三收視行為序列次序為1的收視行為為x預測概率；步驟70，上述各第三收視行為序列的下一次序收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。根據本發明的第三個方面，提供一種廣播電視用戶收視行為預測方法包括：步驟100-步驟400，與上述兩種廣播電視用戶收視行為預測方法的對應步驟相同，不同之處在於：預測每一個第三收視行為序列下一次序的收視行為為所述第一收視行為序列中任一個收視行為的內部概率，所述內部概率按照下面的公式(9)計算，其中，i表示所述第一收視行為序列的前綴樹的層數索引也表示第三收視行為序列的次序索引，1≤i≤n-1，n表示所述第三收視行為序列所在分支的最高層數，x表示要預測的收視行為，y1y2…yi表示根節點為y1，子節點依次為y2，…，yi的分支對應的序列長度為i的第三收視行為序列，pint′(x|y1y2…yi)表示所述序列長度為i的第三收視行為序列y1y2…yi下一次序收視行為為x的內部概率，pint′(x|y2…yi)表示根節點為y2，子節點依次為y3，…，yi的分支對應的序列長度為i-1的第三收視行為序列下一次序的收視行為為x的內部概率，pint′(x)表示根節點為x的內部概率，n(y1＝x)表示所述第一收視行為序列的前綴樹的子樹的第一層中根節點為x的節點值，∑n(y1)表示所述第一收視行為序列的前綴樹第一層的各子樹根節點的節點值之和，n′(yi+1＝x)表示各分支的底層的子節點為x的節點值，n′(yi)表示各分支的底層的上一層的節點yi的節點值；步驟500b，根據與第三收視行為序列中每一個收視行為作為根節點的各分支的底層子節點的節點值之和和所述底層子節點中收視行為的不同種類數預測所述每一個收視行為對應的節點從所在層逃逸的逃逸概率，所述逃逸概率按照下面的公式(10)計算，其中，pesc″(i,yi)表示根節點y1的分支y1y2...yi逃到根節點為y2的另一分支y2...yi的逃逸概率，表示根節點y1的分支y1y2...yi底層所有子節點中收視行為的不同種類數，表示根節點y1的分支y2...yi底層所有子節點的節點值的加和；步驟600，根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率，所述預測概率按照公式(11)和(12)計算p″(x|y1y2...yi)＝pint′(x|y1y2...yi)+pesc″(i,yi)*p″(x|y2y3...yi)(11)p″(x)＝pint′(x)(12)其中，p″(x|y1y2...yi)表示根節點y1的分支y1y2...yi對應的第三收視行為序列下一次序的收視行為為x的預測概率，p″(x|y2y3...yi)表示根節點為y2的分支y2...yi對應的第三收視行為序列下一次序的收視行為為x的預測概率，p″(x)表示根節點為x的預測概率；步驟700，上述各第三收視行為序列的下一次序的收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。根據本發明的第四個方面，提供一種廣播電視用戶收視行為預測系統包括採集部、序列劃分部、前綴樹構建部、第一預測序列構建部、第一內部概率預測部、第一逃逸概率預測部、第一預測概率預測部和第一最佳收視行為序列確定部，其中，採集部執行上述步驟1的功能形成第一收視行為序，並將其發送給序列劃分部和前綴樹構建部；序列劃分部執行上述步驟2的功能將第一收視行為序列劃分成多個第二收視行為序列並發送給前綴樹構建部；前綴樹構建部執行步驟3的功能，根據劃分部劃分的多個第二收視行為序列構建對應的採集部形成的第一收視行為序列的前綴樹；第一預測序列構建部執行步驟4的功能，調用前綴樹構建部構建的前綴樹形成多個第三收視行為序列，作為預測序列發送給第一內部概率預測部和第一逃逸概率預測部；第一內部概率預測部執行步驟5a的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的內部概率，並將所述內部概率發送到第一預測概率預測部；第一逃逸概率預測部執行步驟5b的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的逃逸概率，並將所述逃逸概率發送到第一預測概率預測部；第一預測概率預測部執行步驟6的功能，根據第一內部概率預測部預測的上述內部概率和第一逃逸概率預測部預測的上述逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率，並將所述預測概率發送到第一最佳收視行為序列確定部；第一最佳收視行為序列確定部執行步驟7的功能，篩選出最佳收視行為序列。根據本發明的第五個方面，提供一種廣播電視用戶收視行為預測系統包括採集部、序列劃分部、前綴樹構建部、第一預測序列構建部、第一內部概率預測部、第二逃逸概率預測部、第二預測概率預測部和第二最佳收視行為序列確定部，其中，採集部執行上述步驟10的功能形成第一收視行為序，並將其發送給序列劃分部和前綴樹構建部；序列劃分部執行上述步驟20的功能將第一收視行為序列劃分成多個第二收視行為序列並發送給前綴樹構建部；前綴樹構建部執行步驟30的功能，根據劃分部劃分的多個第二收視行為序列構建對應的採集部形成的第一收視行為序列的前綴樹；第一預測序列構建部執行步驟40的功能，調用前綴樹構建部構建的前綴樹形成多個第三收視行為序列，作為預測序列發送給第一內部概率預測部和第二逃逸概率預測部；第一內部概率預測部執行步驟50a的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的內部概率，並將所述內部概率發送到第二預測概率預測部；第二逃逸概率預測部執行步驟50b的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的逃逸概率，並將所述逃逸概率發送到第二預測概率預測部；第二預測概率預測部執行步驟60的功能，根據第一內部概率預測部預測的上述內部概率和第二逃逸概率預測部預測的上述逃逸概率確定每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的預測概率，並將所述預測概率發送到第二最佳收視行為序列確定部；第二最佳收視行為序列確定部執行步驟70的功能，篩選出最佳收視行為序列。根據本發明的第六個方面，提供一種廣播電視用戶收視行為預測系統包括採集部、序列劃分部、前綴樹構建部、第一預測序列構建部、第二內部概率預測部、第三逃逸概率預測部、第三預測概率預測部和第三最佳收視行為序列確定部，其中，採集部執行上述步驟100的功能形成第一收視行為序列，並將其發送給序列劃分部和前綴樹構建部；序列劃分部執行上述步驟200的功能將第一收視行為序列劃分成多個第二收視行為序列並發送給前綴樹構建部；前綴樹構建部執行步驟300的功能，根據劃分部劃分的多個第二收視行為序列構建對應的採集部形成的第一收視行為序列的前綴樹；第一預測序列構建部執行步驟400的功能，調用前綴樹構建部構建的前綴樹形成多個第三收視行為序列，作為預測序列發送給第二內部概率預測部和第三逃逸概率預測部；第二內部概率預測部執行步驟500a的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的內部概率，並將所述內部概率發送到第三預測概率預測部；第三逃逸概率預測部執行步驟500b的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的逃逸概率，並將所述逃逸概率發送到第三預測概率預測部；第三預測概率預測部執行步驟600的功能，根據第二內部概率預測部預測的上述內部概率和第三逃逸概率預測部預測的上述逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列每一收視行為的預測概率，並將所述預測概率發送到第三最佳收視行為序列確定部；第三最佳收視行為序列確定部執行步驟700的功能，篩選出最佳收視行為序列。本發明所述廣播電視用戶收視行為預測方法即系統將電視用戶收視行為數據看作是序列，採用內部概率和逃逸概率確定各預測序列組合的預測概率，基於speed算法以及改進的speed算法對用戶的收視偏好進行預測，能夠根據用戶的收視數據對其未來的收視偏好進行預測。附圖說明通過參考以下結合附圖的說明及權利要求書的內容，並且隨著對本發明的更全面理解，本發明的其它目的及結果將更加明白及易於理解。在附圖中：圖1是本發明所述廣播電視用戶收視行為預測方法的一個實施例的流程圖；圖2是本發明所述前綴樹的示意圖；圖3是本發明所述廣播電視用戶收視行為預測系統的一個實施例的構成框圖；圖4是本發明所述廣播電視用戶收視行為預測方法的另一個實施例的流程圖；圖5是本發明所述廣播電視用戶收視行為預測系統的另一個實施例的構成框圖；圖6是本發明所述廣播電視用戶收視行為預測方法的第三實施例的流程圖；圖7是本發明所述廣播電視用戶收視行為預測系統的第三實施例的構成框圖；圖8是本發明多種廣播電視用戶收視行為預測方法的預測準確率的比較圖。在所有附圖中相同的標號指示相似或相應的特徵或功能。具體實施方式在下面的描述中，出於說明的目的，為了提供對一個或多個實施例的全面理解，闡述了許多具體細節。然而，很明顯，也可以在沒有這些具體細節的情況下實現這些實施例。以下將結合附圖對本發明的具體實施例進行詳細描述。以下將結合附圖對本發明的具體實施例進行詳細描述。圖1是本發明所述廣播電視用戶收視行為預測方法的一個實施例的流程圖，如圖1所示，所述廣播電視用戶收視行為預測方法是基於speed算法的收視行為預測方法，包括：步驟1，採集廣播電視用戶設定時間段內收視行為數據組成第一收視行為序列，所述收視行為包括收視指標、收聽節目的標示符和收聽頻道的標示符中的一種或多種，收視指標可以是收視率、收視頻次等，例如，某一個廣播電視用戶的第一收視行為序列為ebacbcabcdegfabcbacbg；步驟2，採用至少一種序列長度將所述第一收視行為序列劃分為多個第二收視行為序列，所述第二收視行為序列的序列長度短於所述第一收視行為序列的序列長度，例如，上例中廣播電視用戶的第一收視行為序列劃分成的第二收視行為序列包括ebacbc、abcde、gfab、cbacbg；步驟3，根據第二收視行為序列構建第一收視行為序列的前綴樹，包括：設定所述前綴樹的最高層數，以第一收視行為序列中出現的每一個收視行為作為一個根節點，不大於所述最高層數的各第二收視行為序列中各種收視行為組合作為各分支，每一根節點與該根節點相連的各分支構成每一個子樹，根節點代表的收視行為在第一收視行為序列中出現的頻數為所述根節點的節點值，從根節點到子節點代表的收視行為組合在各第二收視行為序列中出現的頻數之和為所述子節點的節點值，例如，上例中第一收視行為序列的前綴樹如圖2所示；步驟4，將上述前綴樹的子樹裡每一個分支的根節點代表的收視行為與除去底層子節點的各子節點代表的收視行為按照層順序組成不同序列長度的多個第三收視行為序列，例如，一個第三收視行為序列bacb；步驟5a，預測每一個第三收視行為序列下一次序的收視行為為所述第一收視行為序列中任一個收視行為的內部概率，所述內部概率按照下面的公式(1)和(2)計算，其中，i表示所述第一收視行為序列的前綴樹的層數索引也表示第三收視行為序列的次序索引，y1表示所述第一收視行為序列的前綴樹的子樹的根節點，y2,...,yi表示所述子樹的根節點y1的一個分支的第2層到第i層的子節點，y1y2...yi表示所述分支對應的序列長度為i的第三收視行為序列，1≤i≤n-1，n表示所述分支的最高層數，x表示要預測的收視行為，pint(x)表示所述第一收視行為序列的前綴樹的根節點為x的內部概率，n(y1＝x)表示所述第一收視行為序列的前綴樹的子樹的第一層中根節點為x的節點值，∑n(y1)表示所述第一收視行為序列的前綴樹第一層的各子樹根節點的節點值之和，pint(x|y1y2...yi)表示所述第三收視行為序列次序為i+1的收視行為為x的內部概率，n(yi+1＝x)表示所述分支第i層節點yi的第i+1層的子節點為x的節點值，n(yi)表示所述分支的第i層的節點yi的節點值；步驟5b，根據與第三收視行為序列中每一個收視行為對應節點的節點值以及屬於所述節點的下一層的子節點的節點值之和預測所述收視行為對應的節點從所在層逃逸的逃逸概率，所述逃逸概率按照下面的公式(3)計算，其中，pesc(i,yi)表示所述第三收視行為序列所在分支第i層節點yi的逃逸概率，表示所述第三收視行為序列所在分支第i層節點yi的第i+1層所有子節點的節點值的加和；步驟6，根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率，所述預測概率按照公式(4)和(5)計算，p(x|y1y2...yi)＝p(i+1,x)＝pint(x|y1y2…yi)+pesc(i,yi)*p(i,x)(4)p(x)＝pint(x)(5)其中，p(x|y1y2…yi)和p(i+1,x)表示序列長度為i的所述第三收視行為序列次序i+1的收視行為是x的預測概率，p(i,x)表示所述第三收視行為序列次序為i的收視行為是x預測概率，p(x)表示所述第三收視行為序列次序為1的收視行為是x預測概率，例如，第三收視行為序列bacb後為a的預測概率為：p(a|bacb)＝pint(a|bacb)+pesc(4,b)*p(a|bac)＝pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*p(a|ba)}＝pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*{pint(a|ba)+pesc(2,a)*p(a|b)}}＝pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*{pint(a|ba)+pesc(2,a)*[pint(a|b)+pesc(1,b)*p(a)]}}＝pint(a|bacb)+pesc(4,b)*{pint(a|bac)+pesc(3,c)*{pint(a|ba)+pesc(2,a)*[pint(a|b)+pesc(1,b)*pint(a)]}}＝0；步驟7，上述各第三收視行為序列的下一次序收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。圖3示出本發明所述廣播電視用戶收視行為預測系統的一個實施例，如圖3所示，所述廣播電視用戶收視行為預測系統100包括採集部110、序列劃分部120、前綴樹構建部130、第一預測序列構建部140、第一內部概率預測部150、第一逃逸概率預測部160、第一預測概率預測部170和第一最佳收視行為序列確定部180，其中，採集部110執行上述步驟1的功能形成第一收視行為序列，並將其發送給序列劃分部120和前綴樹構建部130；序列劃分部120執行上述步驟2的功能將第一收視行為序列劃分成多個第二收視行為序列並發送給前綴樹構建部130；前綴樹構建部130執行步驟3的功能，根據劃分部120劃分的多個第二收視行為序列構建對應的採集部110形成的第一收視行為序列的前綴樹；第一預測序列構建部140執行步驟4的功能，調用前綴樹構建部130構建的前綴樹形成多個第三收視行為序列，作為預測序列發送給第一內部概率預測部和第一逃逸概率預測部；第一內部概率預測部150執行步驟5a的功能，預測每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的內部概率，並將所述內部概率發送到第一預測概率預測部170；第一逃逸概率預測部160執行步驟5b的功能，預測每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的逃逸概率，並將所述逃逸概率發送到第一預測概率預測部170；第一預測概率預測部170執行步驟6的功能，根據第一內部概率預測部150預測的上述內部概率和第一逃逸概率預測部160預測的上述逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率，並將所述預測概率發送到第一最佳收視行為序列確定部180；第一最佳收視行為序列確定部180執行步驟7的功能，篩選出最佳收視行為序列。上述基於speed算法的收視行為預測方法及系統，體現了長上下文會比短上下文帶來更準確的預測結果，在計算預測概率時，賦予長上下文大權重、短上下文小權重，提高了預測準確率。在另一實施例中，如圖4所示，另一廣播電視用戶收視行為預測方法是基於speed-c算法(「基於優化逃逸概率的speed算法」)的收視行為預測方法，步驟10-步驟50a與圖1示出的廣播電視用戶收視行為預測方法的步驟1-步驟5a相同，不同之處在於：在步驟50b，根據與第三收視行為序列中每一個收視行為對應節點的下一層的子節點的節點值之和和所述下一層的子節點中收視行為的不同種類數預測所述收視行為對應的節點從所在層逃逸的逃逸概率，所述逃逸概率按照下面的公式(6)計算，其中，pesc′(i,yi)表示第三收視行為序列所在分支第i層節點為yi的逃逸概率，表示第三收視行為序列所在分支第i層節點為yi的第i+1層所有子節點中收視行為的不同種類數，表示所述第三收視行為序列所在分支第i層節點為yi的第i+1層所有子節點的節點值的加和；步驟60，根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率，所述預測概率按照公式(7)和(8)計算，p′(x|y1y2…yi)＝p′(i+1,x)＝pint(x|y1y2…yi)+pesc′(i,yi)*p′(i,x)(7)p′(x)＝pint(x)(8)其中，p′(x|y1y2…yi)和p′(i+1,x)表示序列長度i為的所述第三收視行為序列次序i+1的收視行為為x的預測概率，p′(i,x)表示所述第三收視行為序列次序為i的收視行為為x預測概率，p′(x)表示所述第三收視行為序列次序為1的收視行為為x預測概率，例如，圖1的例子中第三收視行為序列後為a的預測概率為：其中，pesc′(4,b)表示分支bacb第4層子節點b的逃逸概率，也是分支bacb跳到低階bac的逃逸概率；步驟70，上述各第三收視行為序列的下一次序收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。圖5示出本發明所述廣播電視用戶收視行為預測系統的另一個實施例，如圖5所示，所述廣播電視用戶收視行為預測系統100＇包括採集部110、序列劃分部120、前綴樹構建部130、第一預測序列構建部140、第一內部概率預測部150、第二逃逸概率預測部160＇、第二預測概率預測部170＇和第二最佳收視行為序列確定部180＇，其中，採集部110執行上述步驟10的功能形成第一收視行為序，並將其發送給序列劃分部120和前綴樹構建部130；序列劃分部120執行上述步驟20的功能將第一收視行為序列劃分成多個第二收視行為序列並發送給前綴樹構建部130；前綴樹構建部130執行步驟30的功能，根據劃分部120劃分的多個第二收視行為序列構建對應的採集部110形成的第一收視行為序列的前綴樹；第一預測序列構建部140執行步驟40的功能，調用前綴樹構建部130構建的前綴樹形成多個第三收視行為序列，作為預測序列發送給第一內部概率預測部150和第二逃逸概率預測部160＇；第一內部概率預測部150執行步驟50a的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列的每一個收視行為的內部概率，並將所述內部概率發送到第二預測概率預測部170＇；第二逃逸概率預測部160＇執行步驟50b的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列的每一個收視行為的逃逸概率，並將所述逃逸概率發送到第二預測概率預測部170＇；第二預測概率預測部170＇執行步驟60的功能，根據第一內部概率預測部150預測的上述內部概率和第二逃逸概率預測部160＇預測的上述逃逸概率確定每一個第三收視行為序列下一次序為第一收視行為序列的每一個收視行為的預測概率，並將所述預測概率發送到第二最佳收視行為序列確定部180＇；第二最佳收視行為序列確定部180＇執行步驟70的功能，篩選出最佳收視行為序列。圖1和圖3示出的基於speed算法的廣播電視用戶收視行為預測方法及系統未能充分利用電視用戶收視行為的種類數據特點，在電視用戶收視行為序列預測上精度不高，圖4和圖5示出的基於speed-c算法的廣播電視用戶收視行為預測方法及系統通過逃逸概率的計算方法，在逃逸概率中體現用戶收視行為種類，對量級較大的序列具有更好的適應性，更能體現出「長上下文賦予大權重，短上下文賦予小權重」核心思想，提高了收視行為序列預測精度。在上述兩個實施例中，將短序列y1…yi-2yi-1yi依次刪除尾項所得各序列的預測概率加權求和值作為其後緊跟x的預測概率，並結合電視用戶收視行為序列的數據特點，在第三實施例中，如圖6所示，所述廣播電視用戶收視行為預測方法對短序列y1…yi-2yi-1yi依次刪除首項所得各序列的預測概率加權求和值作為其後緊跟x的預測概率，是基於speed-cr算法(「基於優化逃逸概率和後綴匹配的speed算法」)的廣播電視用戶收視行為預測方法，包括：步驟100-步驟400，與圖1和圖4示出的廣播電視用戶收視行為預測方法步驟1-4和步驟10-40相同，不同之處在於：步驟500a，預測每一個第三收視行為序列下一次序的收視行為為所述第一收視行為序列中任一個收視行為的內部概率，所述內部概率按照下面的公式(9)計算，其中，i表示所述第一收視行為序列的前綴樹的層數索引也表示第三收視行為序列的次序索引，1≤i≤n-1，n表示所述第三收視行為序列所在分支的最高層數，x表示要預測的收視行為，y1y2…yi表示根節點為y1，子節點依次為y2，…，yi的分支對應的序列長度為i的第三收視行為序列，pint′(x|y1y2…yi)表示所述序列長度為i的第三收視行為序列y1y2…yi下一次序收視行為為x的內部概率，pint′(x|y2…yi)表示根節點為y2，子節點依次為y3，…，yi的分支對應的序列長度為i-1的第三收視行為序列下一次序的收視行為為x的內部概率，pint′(x)表示根節點為x的內部概率，n(y1＝x)表示所述第一收視行為序列的前綴樹的子樹的第一層中根節點為x的節點值，∑n(y1)表示所述第一收視行為序列的前綴樹第一層的各子樹根節點的節點值之和，n′(yi+1＝x)表示各分支的底層的子節點為x的節點值，n′(yi)表示各分支的底層的上一層的節點yi的節點值；步驟500b，根據與第三收視行為序列中每一個收視行為作為根節點的各分支的底層子節點的節點值之和和所述底層子節點中收視行為的不同種類數預測所述每一個收視行為對應的節點從所在層逃逸的逃逸概率，所述逃逸概率按照下面的公式(10)計算，其中，pesc″(i,yi)表示根節點y1的分支y1y2…yi逃到根節點為y2的另一分支y2…yi的逃逸概率，表示根節點y1的分支y1y2…yi底層所有子節點中收視行為的不同種類數，表示根節點y1的分支y1y2…yi底層所有子節點的節點值的加和；步驟600，根據上述內部概率和逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率，所述預測概率按照公式(11)和(12)計算p″(x|y1y2…yi)＝pint′(x|y1y2…yi)+pesc″(i,yi)*p″(x|y2y3…yi)(11)p″(x)＝pint′(x)(12)其中，p″(x|y1y2…yi)表示根節點y1的分支y1y2…yi對應的第三收視行為序列下一次序的收視行為為x的預測概率，p″(x|y2y3…yi)表示根節點為y2的分支y2…yi對應的第三收視行為序列下一次序的收視行為為x的預測概率，p″(x)表示根節點為x的預測概率，例如，圖1的例子中第三收視行為序列後為a的預測概率為：其中，pesc″(5,b)表示從該分支bacb跳到低階acb的逃逸概率，另外，在圖2中採用細實線標出了計算上述第三收視行為序列設計到的各分支，從圖2中可以看出，speed-cr算法的內部概率、逃逸概率和預測概率都是在不同分支(分支bacb、分支acb、分支cb和分支b)上進行的，相對於speed和speed-c算法內部概率、逃逸概率和預測概率都是在同一分支(分支bacb)的不同層上進行，更符合按照後綴去預測下一個字符的思路，可以有效提高預測精度；步驟700，上述各第三收視行為序列的下一次序的收視行為的各預測概率的最大值對應的第三收視行為序列和下一次序收視行為組合成的第四收視行為序列為最佳收視行為序列。圖7示出本發明所述廣播電視用戶收視行為預測系統的第三實施例，如圖7所示，所述廣播電視用戶收視行為預測系統100＂包括採集部110、序列劃分部120、前綴樹構建部130、第一預測序列構建部140、第二內部概率預測部150＂、第三逃逸概率預測部160＂、第三預測概率預測部170＂和第三最佳收視行為序列確定部180＂，其中，採集部110執行上述步驟100的功能形成第一收視行為序，並將其發送給序列劃分部120和前綴樹構建部130；序列劃分部120執行上述步驟200的功能將第一收視行為序列劃分成多個第二收視行為序列並發送給前綴樹構建部130；前綴樹構建部130執行步驟300的功能，根據劃分部120劃分的多個第二收視行為序列構建對應的採集部110形成的第一收視行為序列的前綴樹；第一預測序列構建部140執行步驟400的功能，調用前綴樹構建部140構建的前綴樹形成多個第三收視行為序列，作為預測序列發送給第二內部概率預測部150＂和第三逃逸概率預測部160＂；第二內部概率預測部150＂執行步驟500a的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的內部概率，並將所述內部概率發送到第三預測概率預測部170＂；第三逃逸概率預測部160＂執行步驟500b的功能，預測每一個第三收視行為序列下一次序為第一收視行為序列每一收視行為的逃逸概率，並將所述逃逸概率發送到第三預測概率預測部170＂；第三預測概率預測部170＂執行步驟600的功能，根據第二內部概率預測部150＂預測的上述內部概率和第三逃逸概率預測部160＂預測的上述逃逸概率確定每一個第三收視行為序列下一次序為所述第一收視行為序列中每一個收視行為的預測概率，並將所述預測概率發送到第三最佳收視行為序列確定部180＂；第三最佳收視行為序列確定部180＂執行步驟700的功能，篩選出最佳收視行為序列。在第二和第三實施例中的廣播電視用戶收視行為預測方法及系統逃逸概率是防止了零概率字符的出現，同時減小低階短上下文概率對預測概率的影響，相對於第一實施例中的廣播電視用戶收視行為預測方法及系統具有更高的預測準確率。在上述三個實施例中，通過speed算法、speed-c算法或者speed-cr算法建立了了一個有限階的馬爾科夫模型，其上下文之間的數學關係也維持在一定距離內，且其統計結果會受到局部某些頻繁出現的字符的影響。為了將用戶收視行為序列的長期習慣特徵引入預測過程，優選地，所述廣播電視用戶收視行為預測方法採用「s-markov方法」(「簡化馬爾可夫方法」)來對預測結果進行輔助性判斷，以便進一步提高預測精度，具體地，所述步驟4或步驟40或步驟400還包括：將第一收視行為序列中每一個收視行為作為一個狀態，即將每一個根節點作為一個狀態，根據一個狀態轉移到另一個狀態的轉移概率構建建立馬爾科夫模型，其中，所述轉移概率按照公式(13)計算其中，amn表示由狀態m到狀態n的轉移概率也是根節點m到根節點n的轉移概率，表示根節點為m的第二層子節點n的節點值也是第三收視序列mn在各第二收視頻道序列中出現的頻數之和，n(f2)表示所有只有二層的分支f2的個數也是所有序列長度為2的第三收視序列的個數；選定任一個狀態為起始狀態q1，從所述起始狀態位於馬爾科夫模型的狀態轉移矩陣的第hq1行中找到起始狀態q1的最大轉移概率值對應的狀態q2；從所述狀態位於所述馬爾科夫模型的狀態轉移矩陣的第hq2行找到狀態q2的最大轉移概率值對應的狀態q3，依次循環，當其中任一個狀態第二次出現時，將所述任一個狀態第二次出現前各不同狀態組成第五收視行為序列{q1,q2,q3,...}；判斷第五收視行為序列是否是非空集；如果是非空集，將所述第五收視行為序列作為最佳收視行為序列；如果是空集，則各第三收視行為序列執行步驟5a至步驟7或者步驟50a至步驟70或者步驟500a至步驟700，將所述第四收視行為序列作為最佳收視行為序列。另外，優選地，在步驟3或步驟30或步驟300中，還包括：設定頻數閾值，將節點值小於所述頻數閾值的節點從前綴樹中去除。相應地，圖3、圖5和圖7示出的廣播電視用戶收視行為預測系統還包括：模型構建部190-1，將第一收視行為序列中每一個收視行為作為一個狀態，即將每一個根節點作為一個狀態，根據一個狀態轉移到另一個狀態的轉移概率構建馬爾科夫模型，其中，所述轉移概率按照公式(13)計算其中，amn表示由狀態m到狀態n的轉移概率也是根節點m到根節點n的轉移概率，表示根節點為m的第二層子節點n的節點值也是第三收視序列mn在各第二收視頻道序列中出現的頻數之和，n(f2)表示所有只有二層的分支f2的個數也是所有序列長度為2的第三收視序列的個數；第二預測序列構建部190-2，選定任一個狀態為起始狀態q1，從所述起始狀態位於模型構建部構建的馬爾科夫模型的狀態轉移矩陣的第hq1行中找到起始狀態q1的最大轉移概率值對應的狀態q2，從所述狀態位於所述馬爾科夫模型的狀態轉移矩陣的第hq2行找到狀態q2的最大轉移概率值對應的狀態q3，依次循環，當其中任一個狀態第二次出現時，將所述任一個狀態第二次出現前各不同狀態組成第五收視行為序列作為{q1,q2,q3,...}預測序列；判斷部190-3，判斷第五收視行為序列是否是非空集，如果是非空集，將第五收視行為序列發送給第一最佳收視行為序列確定部、第二最佳收視行為序列確定部或第三最佳收視行為序列確定部作為最佳收視行為序列，否則，將第三收視行為序列發送給第一內部概率預測部、第一逃逸概率預測部、第一預測概率預測部和第一最佳收視行為序列確定部或者第一內部概率預測部、第二逃逸概率預測部、第二預測概率預測部和第二最佳收視行為序列確定部或者第二內部概率預測部、第三逃逸概率預測部、第三預測概率預測部和第三最佳收視行為序列確定部，進行內部概率、逃逸概率和預測概率分析，得到最大預測概率對應的將所述第四收視行為序列作為最佳收視行為序列。另外，優選地，上述廣播電視用戶收視行為預測系統還包括：閾值設定部190-4，設定頻數閾值，將節點值小於所述頻數閾值的節點從前綴樹構建部構建的前綴樹中去除。上述speed、speed-c、speed-cr以及與s-markov方法相結合的述廣播電視用戶收視行為預測方法及系統，依次進行逃逸概率、預測概率計算過程、添加習慣列表判斷這三個角度的改進對電視用戶收視行為序列進行預測分析，提高了預測精度。在上述第一實施例至第三實施例中示出了將設定時間段內的收視收據組成一個第一收視行為序列，但是本發明並不限於此，當序列長度較大，為了加快運算速度或者預測設定時間段內不同單位時間的收視偏好時，可以將設定時間段劃分成多個單位時間段，構建多個第一收視行為序列，每一個第一收視行為序列有一個總節點，總節點的節點值為其下一層根節點的節點值之和，如圖2中的ω(21)，又如，設定時間段為一星期，單位時間段為星期一至星期日，通過構建7個如圖2中的前綴樹，可以同時分析多個前綴樹，得到用戶星期一至星期日每天的收視偏好。本發明可以採用speed算法、speed算法和s-markov方法結合、speed-c算法、speed-c算法和s-markov方法結合、speed-cr算法或者speed-cr算法和s-markov方法結合的廣播電視用戶收視行為預測方法及系統預測廣播用戶的收視偏好，在本發明的一個具體實施例中，通過預測準確率來說明上述基於speed、speed-c、speed-cr及speed-cr+s-markov的四種收視行為預測方法的預測準確性，其中，所述預測準確率按照下面的公式(14)計算，其中，n表示某方法得到最佳收視行為組合與實際結果相符的數目，n表示第二收視行為序列的總數。選取2014年8月1日至2016年2月29日共18個月的機頂盒尾號為714的用戶收視頻道序列作為數據源，選取2016年3月1日至2016年4月30日共兩個月的數據作為預測準確率的驗證數據。上述數據源可以按照自然日或者小時或者星期等劃分成多個第一收視頻道序列，從而得到用戶在每一個自然日或者每一個小時或者每一個星期對頻道的收視偏好，例如，按自然日將一星期內的收視數據劃分為七組，選取星期一的這一組連續頻道序列形成一個第一收視頻道序列，如下所示：8,33,22,159,156,33,84,64,13,15,19,17,19,24,19,20,22,27,9...對上述第一收視頻道序列進行分解得到多個第二收視頻道序列，可以通過建立合適大小的滑動窗口來對第一收視頻道序列進行分解，在已確定大小的窗口向前滑動的同時，將每次移動後窗口內的第二收視頻道序列進行記錄，直到窗口滑到第一收視頻道序列末尾，則所記錄的一連串第二收視頻道序列便是第一收視序列的分解結果，其中，根據不同的實際問題，可選取適當的滑動窗口大小。使用定長的滑動窗口將會得到長度相同的許多第二收視頻道序列，其格式較為規整；使用變長的滑動窗口將會得到長度不同的多種第二收視頻道序列，對複雜序列的研究有較大意義，例如，當第一收視頻道序列是「8,33,22,159,156」，則按照不同序列長度經過序列分解過程後，得到的眾多第二收視頻道序列如表1所示：表1滑動窗口大小分解出的第二收視頻道序列18,33,22,159,1562833,3322,22159,159156383322,3322159,22159156483322159,3322159156583322159156在上述表1中，每個第二收視頻道序列的內部頻道按其在原序列中的前後順序排列，可以發生頻道空缺，如原序列「8,33,22,159,156」分解出了「8,22」，但不能發生順序顛倒的情況，如分解出了「8,22,33」。另外，還可以設置合適的頻數閾值，將其與第一收視頻道序列的前綴樹中各節點的出現頻次比較，來決定是否保留該節點，如本例中默認閾值為1，即出現頻數至少1次的節點都將被保留。本實例分別基於speed、speed-c、speed-cr及speed-cr+s-markov的四種收視頻道預測方法將上述收視用戶18個月的數據源按照設定時間段組成多個第一收視頻道序列，按照序列長度為5將每一個第一收視頻道序列劃分成多個第二收視頻道序列(如第一收視頻道序列abcdefg分解成abcde、bcdef、cdefg這三種第二收視頻道序列)，構建每一個第一收視頻道序列的前綴樹，將節點值小於頻數閾值的節點進行刪除，得到每一個第一收視頻道序列的序列長度不大於4的多個第三收視頻道序列，預測各第三收視頻道序列後緊跟下一次序頻道的預測概率，得到最佳收視頻道序列，並與後兩個月的實際結果對比，得到預測準確率，表2示出了部分第一收視頻道序列的上述四種預測方法的預測精度，表2如圖8所示，橫軸代表每一條第一收視頻道序列按序列長度為5劃分後第二收視頻道序列總數目，縱軸代表預測準確率，圖中曲線a代表對頻道收視數據基於speed的收視頻道預測方法進行預測的預測準確率，曲線b代表對頻道收視數據基於speed-c的收視頻道預測方法進行預測的預測準確率，曲線c代表對頻道收視數據基於speed-cr的收視頻道預測方法進行預測的預測準確率，曲線d代表基於speed-cr和s-markov的收視頻道預測方法進行預測的預測準確率，可以看出，隨著實驗數據短序列數目的增加，預測精度也有增加的趨勢，曲線b、c和d代表的預測方法的預測精度要高於曲線a代表的預測方法，且曲線b、c和d代表的預測方法的平均預測精度相對於曲線a代表的預測方法的平均預測精度依次有1.2％、11.8％和17.9％的提升。綜上所述，參照附圖以示例的方式描述了根據本發明提出的廣播電視用戶收視行為預測方法及系統。但是，本領域技術人員應當理解，對於上述本發明所提出的系統及方法，還可以在不脫離本
發明內容的基礎上做出各種改進。因此，本發明的保護範圍應當由所附的權利要求書的內容確定。當前第1頁12

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

廣播電視用戶收視行為預測方法及系統與流程

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法