新四季網

一種實現收視信息處理的方法及裝置與流程

2023-12-04 21:32:12 1


本文涉及但不限於數據處理技術,尤指一種實現收視信息處理的方法及裝置。



背景技術:

隨著支持雙向通信的智能電視技術的發展,對智能電視數據的採集和分析的需求變得越來越多。一般來說,智能電視的數據採集系統只能獲取如機頂盒標識、智能電視標識等代表以戶為單位的家庭屬性信息,具體收視行為涉及到的具體收視人員無法直接通過電視機或機頂盒獲取。當在進行收視率分析、受眾屬性分析、節目推薦等需求分析時,往往需要具體的收視人員及其人口屬性、興趣愛好等信息。

目前,對每一戶家庭具體收視人員的信息分析主要可以分為以下幾種:

(1)通過帶有用戶識別按鈕的特殊遙控器或特定智能終端來識別唯一收視人員。每個家庭的收視人員在觀看電視時,通過按下特殊遙控器或特定智能終端上的特定按鈕表明身份才可以使用電視,由此記錄此次收視行為對應的收視人員。這種方法大大影響了用戶觀看電視的體驗,且調研成本很昂貴、無法獲得大量的樣本;而樣本量少時,不僅在數據分析時容易出現較大的方差,也更容易被汙染。另外,收視人員在觀看電視時也可能存在忘記操作或誤操作特定按鈕等情況,影響獲取的信息的準確性。

(2)通過在電視機或機頂盒上安裝特殊的識別設備,如攝像頭、紅外模塊等,對觀看電視的收視人員進行識別。這種方法成本較高,並且涉及收視人員的用戶隱私,因此還沒有完善的應用方案。

(3)對一部分樣本戶進行調研,將歷史數據中每個家庭的收視人員的收視習慣作為其在未來的收視行為的參照。例如某樣本戶在調研中回答該戶在晚上觀看體育節目的人員為父親和兒子,母親不觀看。那麼之後該戶每次在晚上發生體育節目的收視行為時,都認為對應的收看人員為父親和兒子。這種方法沒有考慮到每個家庭成員每天的具體收視行為的變化,因此跟真實情況具有不可避免的偏差。

(4)直接對當前用戶行為數據進行分析,例如申請號為CN201510890345中公開了基於影片主題判斷收視人員的方法。但專利中僅僅給出了根據影片主題來確定特定收視人群的舉例,即「古裝戰爭劇是年輕男性觀看,當紅明星古裝劇是年輕女性觀看」,沒有給出完整的從主題推導收視人群的方法。該方法中也未考慮同一節目被不同收視人群觀看的客觀情況,因此跟實際情況很可能具有較大的出入。

綜上,上述對收視人員的信息分析方法存在成本、誤差、隱私等問題,無法對收視成員的信息進行有效分析。



技術實現要素:

以下是對本文詳細描述的主題的概述。本概述並非是為了限制權利要求的保護範圍。

本發明實施例提供一種實現收視信息處理的方法及裝置,能夠對收視人員的信息進行有效分析。

本發明實施例提供了一種實現收視信息處理的方法,包括:

以戶為單位統計預設數值戶家庭的收視樣本信息;

根據統計的所述收視樣本信息統計每一個收視成員的收視情況;

根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;

採集需要進行收視分析的每一戶家庭的收視源信息;

根據統計的收視成員的收視情況及收視習慣概率信息對採集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況;

其中,所述收視樣本信息包括:第一預設時長內每一戶家庭中的每一個收視成員的人口屬性,及按照預設時段統計的每一個收視成員的收視信息。

可選的,所述預設時段包括:工作日中以第一預設時長劃分的第一時段和節假日時以第二預設時長劃分的第二時段,所述收視信息包括:

每一個第一時段中每一個收視成員的收視節目類別;

每一個第二時段中每一個收視成員的收視節目類別。

可選的,所述統計收視樣本信息中的每一個收視成員的收視情況包括:

按照預設時段統計所述收視樣本信息中的每一個收視成員收看每一種收視節目類別的收視頻次,並根據統計的收視頻次計算每一個收視人員在每一個預設時段收視每一收視節目類別的概率;

其中,在第i個所述預設時段裡觀看收視節目類別為第j類節目的頻次記為count(時段=i,類型=j);

收視成員在時段下i觀看每一種收視節目類別的節目的概率為:

其中,T是收視節目類別的個數。

可選的,所述擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息包括:

根據統計獲得的所述收視情況匯聚具有相同人口屬性的收視成員,在相同的預設時段收看所有收視節目類別的概率後,使用最大似然估計法擬合出對應的超分布參數;

其中,所述超分布參數包括狄利克雷Dirichlet分布,超參數分布的計算公式為:

其中,為計算獲得的所有收視成員收視各個收視節目類別的節目的平均概率;N為收視樣本信息中滿足一種人口屬性的收視成員總數,pk(類型=j,時段=i)為第k個收視成員在第i個預設時段收看收視節目類別為j的概率,T是收視節目類別的個數;

根據擬合出的超分布參數獲得具有相同人口屬性的收視成員的收視習慣概率信息;其中,收視習慣概率信息的計算公式包括:

其中,為Beta函數,pl表示收視成員在第i個預設時段觀看收視節目類別l的概率,l=1、2、3……T。

可選的,所述收視源信息包括以下任意組合:收視設備身份標識號ID、收視行為時間、收看的節目、收視節目類別。

可選的,所述根據統計的收視成員的收視情況及收視習慣概率信息對採集每一戶家庭的收視源信息進行分析包括:

對第二預設時長內採集的每一戶家庭的所述收視源信息,按照預設時段和收視節目類別統計每一戶家庭的待分析特徵向量;其中,待分析特徵向量V={v1×1,v1×2,…,vM×N},M表示預設時段的個數,N是收視節目類別的個數,該收視設備在第i個預設時段觀看第j個收視節目類別的頻次為向量V的第k維vk,k=(i-1)×N+j;

從收視樣本信息截取第二預設時長的收視信息,獲得所述收視樣本信息中每一戶家庭的樣本特徵向量;其中,基於收視樣本信息計算的樣本特徵向量可以記為V1、V2、……Vi……、VL;其中,L是收視樣本集合裡的家庭總戶數;

對統計的每一戶家庭的待分析特徵向量,分別與所述收視樣本信息中每一戶家庭的樣本特徵向量進行相似度計算,將相似度最高的樣本特徵向量對應的家庭的收視成員數作為該待分析特徵向量對應的家庭的收視成員數;其中,進行相似度計算的計算公式為:

根據確定的所述收視成員數、及根據所述收視樣本信息統計的每一個收視成員的所述收視情況及所述收視習慣概率信息,對採集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。

可選的,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況後,所述方法還包括:

對各收視源信息對應的家庭中收視在相同預設時段同時收視相同電視節目的用戶進行統計。

另一方面,本發明實施例還提供一種實現收視信息處理的裝置,包括:統計樣本單元、統計收視情況單元、擬合單元、採集單元、分析單元;其中,

統計樣本單元用於,以戶為單位統計預設數值戶家庭的收視樣本信息;

統計收視情況單元用於,根據統計的所述收視樣本信息統計每一個收視成員的收視情況;

擬合單元用於,根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;

採集單元用於,採集需要進行收視分析的每一戶家庭的收視源信息;

分析單元用於,根據統計的收視成員的收視情況及收視習慣概率信息對採集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況;

其中,所述收視樣本信息包括:第一預設時長內每一戶家庭中的每一個收視成員的人口屬性,及按照預設時段統計的每一個收視成員的收視信息。

可選的,所述預設時段包括:工作日中以第一預設時長劃分的第一時段和節假日時以第二預設時長劃分的第二時段,所述收視信息包括:

每一個第一時段中每一個收視成員的收視節目類別;

每一個第二時段中每一個收視成員的收視節目類別。

可選的,所述統計收視情況單元具體用於:

按照所述預設時段統計所述收視樣本信息中的每一個收視成員收看每一種收視節目類別的收視頻次,並根據統計的收視頻次計算每一個收視人員在每一個預設時段收視每一收視節目類別的概率;

其中,在第i個所述預設時段裡觀看收視節目類別為第j類節目的頻次記為count(時段=i,類型=j);

收視成員在時段下i觀看每一種收視節目類別的節目的概率為:

其中,T是收視節目類別的個數。

可選的,所述擬合單元擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息包括:

根據統計獲得的所述收視情況匯聚具有相同人口屬性的收視成員,在相同的預設時段收看所有收視節目類別的概率後,使用最大似然估計法擬合出對應的超分布參數;

其中,所述超分布參數包括狄利克雷Dirichlet分布,超參數分布的計算公式為:

其中,為計算獲得的所有收視成員收視各個收視節目類別的節目的平均概率;N為收視樣本信息中滿足一種人口屬性的收視成員總數,pk(類型=j,時段=i)為第k個收視成員在第i個預設時段收看收視節目類別為j的概率,T是收視節目類別的個數;

根據擬合出的超分布參數獲得具有相同人口屬性的收視成員的收視習慣概率信息;其中,收視習慣概率信息的計算公式包括:

其中,為Beta函數,pl表示收視成員在第i個預設時段觀看收視節目類別l的概率,l=1、2、3……T。

可選的,所述收視源信息包括以下任意組合:收視設備身份標識號ID、收視行為時間、收看的節目、收視節目類別。

可選的,所述分析單元具體用於,

對第二預設時長內採集的每一戶家庭的所述收視源信息,按照預設時段和收視節目類別統計每一戶家庭的待分析特徵向量;其中,待分析特徵向量V={v1×1,v1×2,…,vM×N},M表示預設時段的個數,N是收視節目類別的個數,該收視設備在第i個預設時段觀看第j個收視節目類別的頻次為向量V的第k維vk,k=(i-1)×N+j;

從收視樣本信息截取第二預設時長的收視信息,獲得所述收視樣本信息中每一戶家庭的樣本特徵向量;其中,基於收視樣本信息計算的樣本特徵向量可以記為V1、V2、……Vi……、VL;其中,L是收視樣本集合裡的家庭總戶數;對統計的每一戶家庭的待分析特徵向量,分別與所述收視樣本信息中每一戶家庭的樣本特徵向量進行相似度計算,將相似度最高的樣本特徵向量對應的家庭的收視成員數作為該待分析特徵向量對應的家庭的收視成員數;其中,進行相似度計算的計算公式為:

根據確定的所述收視成員數、及根據所述收視樣本信息統計的每一個收視成員的所述收視情況及所述收視習慣概率信息,對採集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。

可選的,所述分析單元還用於,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況後,對各收視源信息對應的家庭中收視在相同預設時段同時收視相同電視節目的用戶進行統計。

與相關技術相比,本申請技術方案包括:包括:以戶為單位統計預設數值戶家庭的收視樣本信息;根據統計的所述收視樣本信息統計每一個收視成員的收視情況;根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;採集需要進行收視分析的每一戶家庭的收視源信息;根據統計的收視成員的收視情況及收視習慣概率信息對採集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。本發明實施例在克服成本、隱私等問題的前提下,實現了對收視成員的信息進行有效分析。

在閱讀並理解了附圖和詳細描述後,可以明白其他方面。

附圖說明

圖1為本發明實施例實現收視信息處理的方法的流程圖;

圖2為本發明實施例實現收視信息處理的裝置的結構框圖。

具體實施方式

為使本發明的目的、技術方案和優點更加清楚明白,下文中將結合附圖對本發明的實施例進行詳細說明。需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互任意組合。

圖1為本發明實施例實現收視信息處理的方法的流程圖,如圖1所示,包括:

步驟100、以戶為單位統計預設數值戶家庭的收視樣本信息;

本發明實施例,收視樣本信息可以包括:第一預設時長內每一戶家庭中的每一個收視成員的人口屬性,及按照預設時段統計的每一個收視成員的收視信息;這裡,人口屬性可以包括性別、年齡、收入等、其中,年齡可以根據年齡區間進行區分,例如、每5歲設置一個區間,收入可以按照區間值進行設定,例如、參考納稅的分段標準設置區分不同的收入人群。

需要說明的是,本發明預設數值可以根據收視信息處理的精度要求及統計收視樣本信息的成本進行設置,精度要求越高,成本也就越高;因此根據精度及成本,本領域技術人員可以確定預設數值的取值大小。

可選的,本發明實施例預設時段包括:工作日中以第一預設時長劃分的第一時段和節假日時以第二預設時長劃分的第二時段,收視信息包括:

每一個第一時段中每一個收視成員的收視節目類別;

每一個第二時段中每一個收視成員的收視節目類別。

需要說明的是,本發明實施例第一預設時長一般可以設置為1個小時,也可以根據收看節目的時長進行設定;例如、45分鐘,或90分鐘;第二預設時長可以和第一預設時長相同,也可以根據第一預設時長進行設置,例如、設置第二預設時長大於第一預設時長。本發明實施例還可以根據收視信息處理的精度要求,可以對預設時段進行調整,例如、為了獲得更高的精度,可以將節假日區分為一般節假日和較長節假日,每一個工作日可以區分為活動時間和休息時間,每一個節假日可以區分為室外活動時間和室內活動時間;活動時間的第一預設時長可以根據收看節目的時長進行設定,休息時間可以長於第一預設時長。基於上述定義,收視信息可以是形如「工作日時,一戶家庭中的一個收視成員A在晚上7點-8點會觀看新聞類節目」的信息;如果將工作日和節假日均按照1小時作為預設時段,則本發明實施例可以劃分出包括工作日24個時段和節假日24個時段在內的48個預設時段。

另外,本發明實施例收視節目類別包括體育、軍事、女性、新聞等;收視節目類別可以根據實際分類設置進行調整。對於每一戶家庭裡的每一個收視成員,將其在第i個預設時段裡觀看收視節目類別為第j類節目的頻次記為count(時段=i,類型=j)。本發明實施例還可以將未觀看節目的收視情況記錄為:count(時段=i,類型=0),記錄類型=0也可以通過其他種類的信息進行表示,例如、類型=X、或類型=未觀看。

步驟101、根據統計的收視樣本信息統計每一個收視成員的收視情況;

可選的,本發明實施例統計收視樣本信息中的每一個收視成員的收視情況包括:

按照預設時段統計收視樣本信息中的每一個收視成員收看每一種收視節目類別的收視頻次,並根據統計的收視頻次計算每一個收視人員在每一個預設時段收視每一收視節目類別的概率。

根據調研數據,本發明實施例可以計算出收視成員在時段下i觀看各種類節目的概率:

其中,計算公式中:類型為收視節目類別的縮寫,時段為預設時段的縮寫,T是收視節目類別的個數,所有收視節目類別的概率組成了該收視成員在一個預設時段的偏好收視節目類別的多項式分布。

步驟102、根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;

可選的,本發明實施例,擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息包括:

根據統計獲得的收視情況匯聚具有相同人口屬性的收視成員,在相同的預設時段收看所有收視節目類別的概率後,使用最大似然估計法擬合出對應的超分布參數;

可選的,本發明實施例超分布參數為狄利克雷(Dirichlet)分布,在最大似然估計方法可求出該Dirichlet分布對應第j個類型的參數αj。超參數分布的計算公式為:

其中,為計算獲得的所有收視成員收視各個收視節目類別的節目的平均概率;N為收視樣本信息中滿足一種人口屬性的收視成員總數,pk(類型=j,時段=i)為第k個收視成員在第i個預設時段收看收視節目類別為j的概率,T是收視節目類別的個數;

a為配置參數,默認a=1。

需要說明的是,對於一個收視成員在一個預設時段的偏好收視節目類別的多項式分布應該服從Dirichlet分布;

根據擬合出的超分布參數獲得具有相同人口屬性的收視成員的收視習慣概率信息。

需要說明的是,對於每一種人口屬性的收視用戶,在時段i偏好收視節目類別的多項式分布應該服從Dirichlet分布。記收視成員在第i個預設時段觀看各收視節目類別的概率的分布為pl,則一個分布(p1,p2,…,pT)出現的概率等於其在Dirichlet分布上的密度,即收視習慣概率信息的計算公式包括:

其中,為Beta函數,pl表示收視成員在第i個預設時段觀看收視節目類別l的概率,l=1、2、3……T。

步驟103、採集需要進行收視分析的每一戶家庭的收視源信息;

可選的,本發明實施例,收視源信息包括以下任意組合:收視設備身份標識號(ID)、收視行為時間、收看的節目、收視節目類別。

需要說明的是,採集收視源信息的方法可以是本領域技術人員的慣用技術手段,例如、在每一戶家庭的收視設備上設置採集裝置,通過採集裝置獲得收視源信息,由於收視設備(包括機頂盒和智能電視)具備雙向交互功能,因此在對用戶進行操作時,可以對收視源信息包含的內容進行解析和收集;採集的收視源信息可以以日誌的方式進行存儲。另外,收視設備ID可以包括:機頂盒設備ID、網絡電視帳戶ID、物理地址(MAC)地址等,這裡信息可以區分不同的家庭;收看的節目、收視節目類別包括收看的節目的具體名稱和節目所屬類型。收視行為時間可以包括收看每一個節目的時間。

步驟104、根據統計的收視成員的收視情況及收視習慣概率信息對採集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況;

可選的,本發明實施例根據統計的收視成員的收視情況及收視習慣概率信息對採集每一戶家庭的收視源信息進行分析包括:

對第二預設時長內採集的每一戶家庭的收視源信息,按照預設時段和收視節目類別統計每一戶家庭的待分析特徵向量;

這裡,以第二預設時長(例如一個月)採集的每一戶家庭的收視源信息,按照預設時段和收視節目類別統計,得到收視源信息對應的收視設備(通過收視設備ID區分)在每一個預設時段觀看各收視節目類別節目的頻次,組成表示該戶家庭的待分析特徵向量,待分析特徵向量可以通過V={v1×1,v1×2,…,vM×N}。其中,M表示預設時段的個數,N是收視節目類別的個數,該收視設備在第i個預設時段觀看第j個收視節目類別的行為頻次即為向量V的第k維vk,這裡k=(i-1)×N+j。

從收視樣本信息截取第二預設時長的收視信息,獲得收視樣本信息中每一戶家庭的樣本特徵向量;這裡,基於收視樣本信息計算的樣本特徵向量可以記為V1、V2、……Vi……、VL;其中,L是收視樣本集合裡的家庭總戶數;

對統計的每一戶家庭的待分析特徵向量,分別與收視樣本信息中每一戶家庭的樣本特徵向量進行相似度計算,將相似度最高的樣本特徵向量對應的家庭的收視成員數作為該待分析特徵向量對應的家庭的收視成員數;

可選的,本發明實施例可以通過下式進行相似度計算:

這裡,Vi表示基於收視樣本信息計算的樣本特徵向量。

需要說明的是,本發明實施例還可以通過預先存儲的調研數據直接獲得收視成員數。例如、在按照機頂盒或智能電視時,直接統計獲得,由於每一戶家庭的收視成員數一般比較穩定,無需通過統計更新,維護成本低。

根據確定的收視成員數、及根據收視樣本信息統計的每一個收視成員的收視情況及收視習慣概率信息,對採集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。

對於一個已獲知收視成員數的收視設備(與一戶家庭的收視源信息對應),通過根據收視樣本信息統計的每一個收視成員的收視情況及收視習慣概率信息可以實現該戶家庭收視成員的人口屬性,及在收視源信息對應的時間段內各個收視成員的收視情況;

如果其中一戶家庭的收視源信息的一個收視成員符合人口屬性A,例如人口屬性A為:女性25到29歲、收入3000-5000,那麼該收視成員的行為模式同時滿足:

(1)在收視樣本信息統計獲得的屬性A的收視習慣概率信息;

(2)可以解釋該收視源信息中記錄的收視行為。

具體地,對於收視成員數為Q的收視設備ID(記為F),記收視成員分別為P1、P2、…、PQ,對應的人口屬性為A1、A2、…、AQ。根據收視樣本信息分析,可以得到P1在一個預設時段ti觀看不同類型的節目的多項式分布(記為D(P1,ti))應服從人口屬性A1在預設時段ti對應的Dirichlet分布(記為Dirichlet(A1,ti))。對於收視源信息F的發生在預設時段ti的觀看類型j的收視行為a,P1的收視習慣概率為該收視成員的收視節目類別分布在人口屬性對應的Dirichlet分布下的收視習慣概率乘以該收視行為被這個收視節目類別分布產生的概率,即P(a|P1)=P(D(P1,ti)|Dirichlet(A1,ti))*P(j|D(P1,ti));將一個收視源信息對應的所有收視成員的收視習慣概率匯總,那麼這一次收視行為a被Q個收視成員裡的至少一個產生的概率等於1-Q個收視成員都不產生的概率,即

將D(P1,ti)作為模型中待估計的參數,通過概率統計學裡的最大似然法即可計算出:滿足情況下的D(P1,ti),這個參數表示的分布即為該設備ID下每個具體用戶在不同時段觀看不同收視節目類別的多項式分布。

通過遍歷不同人口屬性組成的所有組合,可以得到各個人口屬性組合下使得的的D(P1,ti),即:在不同人口屬性的組合下,每個人口屬性組合產生收視設備ID的日誌的概率。而使得這個概率最大化的人口屬性組合就是該收視設備ID對應的最可能的人口屬性組合。而這個組合下的每個具體收視成員在不同預設時段觀看不同收視節目類別的節目的多項式分布,就可以作為各個收視成員的具體收視習慣概率。

獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況後,本發明實施例方法還包括:

對各收視源信息對應的家庭中收視在相同預設時段同時收視相同電視節目的用戶進行統計。

對於一個待分析戶的收視設備ID在時段i觀看收視節目類別j的行為,此概率可以基於收視樣本信息的統計分析,例如:

節目的總觀看人次等於其中,N是採集到的收視行為的日誌個數,Li是第i次收視行為對應的收視設備ID的收視成員數,P(i,j)是其中第j個收視成員參與該次收視行為的概率。又例如:

節目的總女性觀看人次等於其中,指示函數在第j個用戶是女性時取值為1,否則取值為0。

本發明實施例在克服成本、隱私等問題的前提下,實現了對收視成員的信息進行有效分析。

圖2為本發明實施例實現收視信息處理的裝置的結構框圖,如圖2所示,包括:統計樣本單元、統計收視情況單元、擬合單元、採集單元、分析單元;其中,

統計樣本單元用於,以戶為單位統計預設數值戶家庭的收視樣本信息;

統計收視情況單元用於,根據統計的收視樣本信息統計每一個收視成員的收視情況;

擬合單元用於,根據統計獲得的收視情況擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息;

採集單元用於,採集需要進行收視分析的每一戶家庭的收視源信息;

分析單元用於,根據統計的收視成員的收視情況及收視習慣概率信息對採集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況;

其中,收視樣本信息包括:第一預設時長內每一戶家庭中的每一個收視成員的人口屬性,及按照預設時段統計的每一個收視成員的收視信息。

可選的,本發明實施例預設時段包括:工作日中以第一預設時長劃分的第一時段和節假日時以第二預設時長劃分的第二時段,收視信息包括:

每一個第一時段中每一個收視成員的收視節目類別;

每一個第二時段中每一個收視成員的收視節目類別。

可選的,本發明實施例,統計收視情況單元具體用於:

按照預設時段統計收視樣本信息中的每一個收視成員收看每一種收視節目類別的收視頻次,並根據統計的收視頻次計算每一個收視人員在每一個預設時段收視每一收視節目類別的概率;

其中,在第i個預設時段裡觀看收視節目類別為第j類節目的頻次記為count(時段=i,類型=j);

收視成員在時段下i觀看每一種收視節目類別的節目的概率為:

其中,T是收視節目類別的個數。

可選的,本發明實施例擬合單元擬合獲得具有相同人口屬性的收視成員的收視習慣概率信息包括:

根據統計獲得的收視情況匯聚具有相同人口屬性的收視成員,在相同的預設時段收看所有收視節目類別的概率後,使用最大似然估計法擬合出對應的超分布參數;

其中,所述超分布參數包括狄利克雷Dirichlet分布,超參數分布的計算公式為:

其中,為計算獲得的所有收視成員收視各個收視節目類別的節目的平均概率;N為收視樣本信息中滿足一種人口屬性的收視成員總數,pk(類型=j,時段=i)為第k個收視成員在第i個預設時段收看收視節目類別為j的概率,T是收視節目類別的個數;

根據擬合出的超分布參數獲得具有相同人口屬性的收視成員的收視習慣概率信息;其中,收視習慣概率信息的計算公式包括:

其中,為Beta函數,pl表示收視成員在第i個預設時段觀看收視節目類別l的概率,l=1、2、3……T。

可選的,本發明實施例收視源信息包括以下任意組合:收視設備身份標識號ID、收視行為時間、收看的節目、收視節目類別。

可選的,本發明實施例,分析單元具體用於,

對第二預設時長內採集的每一戶家庭的收視源信息,按照預設時段和收視節目類別統計每一戶家庭的待分析特徵向量;其中,待分析特徵向量V={v1×1,v1×2,…,vM×N},M表示預設時段的個數,N是收視節目類別的個數,該收視設備在第i個預設時段觀看第j個收視節目類別的頻次為向量V的第k維vk,k=(i-1)×N+j;

從收視樣本信息截取第二預設時長的收視信息,獲得收視樣本信息中每一戶家庭的樣本特徵向量;其中,基於收視樣本信息計算的樣本特徵向量可以記為V1、V2、……Vi……、VL;其中,L是收視樣本集合裡的家庭總戶數;

對統計的每一戶家庭的待分析特徵向量,分別與收視樣本信息中每一戶家庭的樣本特徵向量進行相似度計算,將相似度最高的樣本特徵向量對應的家庭的收視成員數作為該待分析特徵向量對應的家庭的收視成員數;其中,進行相似度計算的計算公式為:

根據確定的收視成員數、及根據收視樣本信息統計的每一個收視成員的收視情況及收視習慣概率信息,對採集每一戶家庭的收視源信息進行分析,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況。

可選的,本發明實施例分析單元還用於,獲得每一戶家庭的收視源信息對應的收視成員構成和每一個收視成員的收視情況後,對各收視源信息對應的家庭中收視在相同預設時段同時收視相同電視節目的用戶進行統計。

以下通過具體應用示例對本發明進行清楚詳細的說明,應用示例僅用於陳述本發明,並不用於限定本發明的保護範圍。

應用示例

本應用示例按照收視信息處理過程對收視分析進行整理,包括:

(1)收視樣本信息

通過對選擇的家庭進行調研獲得包括收視成員組成、人口屬性和收視信息的收視樣本信息,表1為收視樣本信息的示例:

從表中可以得到對應戶1收視成員1,其人口屬性是:男性30到34歲,在工作日晚上8-9點,他收看體育類節目,因此平時晚上8點的他的收視行為分布是{體育類:1},類似的可以得到:

戶1人員1在工作日晚上9-10點收看行為分布是{金融:1};

戶1人員2在工作日晚上8-9點收看行為分布是{古裝劇:0.5,情感劇:0.5};

戶2人員1在工作日晚上8-9點收看行為分布是{體育:0.5,實事:0.5};

戶2人員1在工作日晚上9-10點收看行為分布是{不看;1};

戶2人員1在工作日晚上10-11點收看行為分布是{古裝劇:1};

表1

進一步的,將所有相同人口屬性的收視成員在同一個預設時段的收視行為分布進行整合。在上例中,男性30-34歲對應有兩個收視成員:戶1收視成員1和戶2收視成員1。那麼,男性30-34歲在工作日晚上8-9點的Dirichlet分布的參數為這兩個收視成員的收視習慣概率平均後加1,即體育類為:(0.5+1)/2+1=1.75,實事類為:(0.5+0)/2=1.25。類似的,還可以得到:

男性30-34歲在工作日晚上9-10點的Dirichlet分布的參數為{金融:1.5,不看:1.5};

男性30-34歲在工作日晚上10-11點的Dirichlet分布的參數為{古裝劇:1.5,不看:1.5};

實際中需要使用男性30-34歲的所有樣本來得到更合理的分布,而這些分布就代表著這個人口屬性的收視成員的一個平均收視習慣。

(2)採集收視源信息;

本發明實施例收視源信息的採集可以理解為日誌採集,以一個家庭的收視源信息為例,表2為某一個收視設備ID的日誌:

表2

(3)收視源信息對應的家庭的收視習慣分析

通過調研或相似度計算來得到每個收視設備ID的收視成員數。這裡,假設已經得到收視設備ID1的的收視成員總數為2。且收視成員1的人口屬性為男性30-34歲,收視成員2的人口屬性為女性25-29歲。那麼這兩個收視成員在不同預設時段的各個收視節目類別的收視習慣概率即為需要估計的參數。

將第一個收視成員信息在平時晚上8-9點的收看各個收視節目類別的概率記為p(類別),本例中男性30-34在工作日晚上8-9點的Dirichlet分布為{體育類:0.75,實事類:0.25},所以第一個收視成員的特定分布的概率為:

例如,如果第一個收視成員的多項式分布為{體育類:0.5,實事類:0.25,不看0.25},那對應的多項式分布的概率是:

另一方面,第一條日誌的收視源信息為工作日晚上8-9點觀看體育類節目,那麼他被第一個收視成員(男性30-34歲)生成多項式分布的概率為0.5。因此,在這種情況下第一個收視成員能產生這條日誌的概率為:

同樣的,可得到日誌1被第二個收視成員生成的概率,從而得到日誌1至少一個收視成員生成的概率p(日誌1)。然後,將所有日誌的概率相乘得到,即最後的總概率Πp(日誌1)。然後,通過概率統計中的最大似然法和梯度下降法,找出使得這個總概率最大的分布。進行運算後,可以得到的第一個收視成員在工作日晚上8點的p(體育)=0.7,p(實事)=0.25,p(情感劇)=0.05。

然後遍歷人口屬性,這裡,如果第一個收視成員的人口屬性為男性30-34歲,第二個收視成員的人口屬性為女性30-34歲,計算得到一個最大的總概率,本發明實施例假設計算出來為0.331;如果第一個收視成員的人口屬性為男性25-29歲,第二個收視成員的人口屬性為女性25-29歲,計算得到一個最大的總概率,這裡設計算出來為0.115;如果第一個收視成員的人口屬性為男性25-29歲,第二個人的人口屬性為女性30-34歲,計算得到一個最大的總概率,這裡設計算出來為0.023;……

從這些人口屬性組合裡面,取出總概率最大的那個組合,作為實際的家庭組合。在上面設的結果中,應該選擇男性30-34歲和女性25-29歲這個組合。得到這個組合後,這個組合中的概率就被認為是每個收視成員在每個預設時段的看每個收視節目類別的概率,例如、第一個收視成員在工作日晚上8-9點觀看體育類節目的概率=0.7。

(4)實時日誌分析

在上一步中得到了家庭組成中第一個收視成員的人口屬性為男性30-34,第二個收視成員的人口屬性為女性25-29。設計算出來的概率為:第一個收視成員在工作日晚上8點的分布為p(體育)=0.7,p(實事)=0.2,p(情感劇)=0.1,第二個人在平時晚上8點的分布為p(實事)=0.2,p(古裝劇)=0.3,p(情感劇)=0.5。

那麼對於上例中的日誌1,即平時8-9點的體育觀看行為,這次觀看行為的4種可能為1和2都觀看、只有1觀看、只有2觀看、1和2都不觀看。注意實際中第4種情況不會發生,因為這次收視行為已經發生了,所以一定有人觀看。計算可得前三種情況的概率分別為0.7×0=0,0.7×(1-0)=0.7,(1-0.7)×0=0,因此本次節目一定是第一個收視成員自己觀看。

對於上例中的日誌4,即平時8-9點的情感劇觀看行為,4種情況的概率計算為0.1*0.5,0.1*(1-0.5),(1-0.1)*0.5,(1-0.1)*(1-0.5),去掉最後一種情況後,得到3種情況的概率分別是0.05,0.05,0.45,因此可認為該次觀看有3種可能;其中,

兩個收視成員一起觀看的概率為

第一個收視成員自己觀看的概率為

第二個收視成員自己觀看的概率為

根據這個結果,即可以得到每個只有收視設備ID的日誌中不同收視成員的收視情況,從而實現從收視戶到收視人的轉化,並進行各種後續的數據統計。

本領域普通技術人員可以理解上述方法中的全部或部分步驟可通過程序來指令相關硬體(例如處理器)完成,所述程序可以存儲於計算機可讀存儲介質中,如只讀存儲器、磁碟或光碟等。可選地,上述實施例的全部或部分步驟也可以使用一個或多個集成電路來實現。相應地,上述實施例中的每個模塊/單元可以採用硬體的形式實現,例如通過集成電路來實現其相應功能,也可以採用軟體功能模塊的形式實現,例如通過處理器執行存儲於存儲器中的程序/指令來實現其相應功能。本發明不限制於任何特定形式的硬體和軟體的結合。

雖然本發明所揭露的實施方式如上,但所述的內容僅為便於理解本發明而採用的實施方式,並非用以限定本發明。任何本發明所屬領域內的技術人員,在不脫離本發明所揭露的精神和範圍的前提下,可以在實施的形式及細節上進行任何的修改與變化,但本發明的專利保護範圍,仍須以所附的權利要求書所界定的範圍為準。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀