從百度視頻看大數據與人工智慧
2023-09-21 16:47:43
近日,了解到百度視頻在升級迭代上利用大數據做了很多事情,這讓我真實的感受到了大數據的價值。其中我將大數據的應用決策拆解成兩種層面,第一種是利用個體數據為個體進行決策,第二種是利用群體數據為群體進行決策。
以下,結合百度視頻已經實現以及將要實現的案例,來看下大數據與人工智慧是具體如何應用的。
大數據個性化決策
個性化決策無疑是難度最高的,因為個性化決策是根據用戶行為記錄來為用戶做出相應的推薦。
百度在無線端有大量的產品,其中用戶數過億的 APP 就多達 14 款。百度內部有專門的團隊,分析用戶在這些 APP 中的行為,利用算法估算用戶的年齡、性別、職業、興趣等特徵。
這一技術在百度工程師那裡稱為用戶建模,這些數據來自於用戶手機裡安裝的百度應用如「百度地圖」、「百度貼吧」、「百度魔圖」外加一些使用百度開放接口的應用諸如「糗事百科」等等,百度是能夠通過這些數據進而來為用戶建立動態模型。
百度視頻的個性化推送是典型的利用群體智慧來解決個體需求的例子。傳統的視頻 APP 通常以廣播的方式為用戶推送視頻,即每個用戶收到的消息內容是一樣的,無法滿足用戶個性化的需求。百度視頻的做法是,分析用戶的歷史觀看記錄,同時結合用戶的性別、年齡、地域等特徵,為用戶建立興趣模型,將用戶可能感興趣但卻未觀看過的視頻推送給用戶。
比如一個經常上動漫貼吧的用戶,百度通過搜集大數據後判斷其是 20 歲左右的大學生,在個性化推送上就和其他人群就有所不同,可能就會推送一些大學生圈子裡比較流行的動漫以及韓劇之類。
簡而言之,用戶使用的百度系以及帶有百度接口產品的產品越多,百度就能越能為用戶建立個人模型,所有使用過的產品的數據會匯聚到百度雲端,人工智慧最後再繪製出一個人的畫像,百度再根據這個畫像再為每個應用進行大數據決策推送,再根據用戶的反饋結果進行迭代試錯,當然這是機器學習的部分,不必要再深入討論下去。我畫了一個簡單的百度個性化推薦原理。
大數據群體化決策
個體與群體的價值思辨
之前我對百度個性化推送提出過缺陷的質疑,一旦當用戶更換手機之後,百度就無法再次為其建立個人畫像模型,進而也就失去了對於個人的意義,百度又要重新建立個人數據,十分麻煩。
而深入了解百度的大數據之後讓我感到更有一番深度,百度的大數據並非只為個體用戶服務,更重要的是建立群體宏觀行為模型,通過這一整套模型為群體進行宏觀決策,而群體決策部分的重要戰略意義遠遠大於個體意義。
我對此的理解為:如果我們將人類整體行為看做為個體行為,那麼同樣的作為個人總有一些誤操作,一些隨機的非主流的邊緣操作,而這些邊緣操作對於機器學習來說只是噪聲而非信號,是需要進行過濾的,那麼機器就需要過濾掉這些沒有價值的數據,將有價值的信號數據沉澱與固定下來,為整體行為進行決策。
所以在某種程度上,我們都會陷入個性化至上的錯覺,而忽略群體數據決策的價值。再回到百度之前的個性化推送功能,這些推送一定是事先經過群體過濾過後的信號,再向用戶推送後才會更戳中人心。比如百度通過數據判斷出最新流行的韓劇是《來自星星的你》,而不是過氣的《大長今》,繼而向用戶推薦《星星》,這些都不是人工的,完全是自動生成的。
也就是,這場思辨中我得出了一個關於大數據的重要結論,機器為個人的數據提供個人喜好的小範圍數據,而群體大數據決策後的結果在為個體擴大範圍。
個性化推送為個人提供確定性,為群體提供不確定性。而群體決策為個人提供不確定性,為群體提供確定性。
二者的噪聲互為價值,二者的信號互為幹擾。
人工智慧或許永遠無法超越人類
上次我和趙雲峰還有劉峰老師在 3W 咖啡裡討論了人工智慧的未來,其中我們談論到了圖靈測試,我們分析到圖靈測試的程序雖然越來越厲害了,但這依然是工具而已,本質上人與人的博弈罷了,機器永遠無法脫離人類進行自學習。
那麼這裡回到百度視頻上來,百度目前做到了平均給每部視頻貼上上百個標籤,而且這些標籤根據時間還在不斷的更新與迭代,不僅如此,這些標籤還在不斷的自行關聯。所以百度視頻能夠做到,搜索諸如「高智商電影」會出現《盜夢空間》、《禁閉島》、《原始碼》等等這樣的關聯。
有人問,這些成百上千的標籤都是人工匹配的嗎?如果這樣,百度人力需要很多啊。實際上標籤是機器全自動做好的。但制定標籤還是需要人,機器應當是通過用戶先搜索到某個關鍵詞然後經過一系列的行為判斷該關鍵詞與某電影的關係,通過大量用戶的反覆出現的數據,機器再建立出這些關聯。
假如有一天機器能夠完全通過獨立的自我學習,通過自身而不藉助人類去關聯這些標籤詞彙與電影的關係。那一刻才能算是真正實現了人工智慧。
這只能說明我和趙雲峰還有劉老師在 3W 咖啡的談話是多麼無聊的正確,對於機器來說,人類就像他們的發動機,他們無法做到產生真正的意識,他們無法像人類一樣進行自我追問一切的起源,0 與 1 的結構。
是啊,人類是多麼孤獨,因為只有人類才會意識到自己的孤獨,而機器不會。但又或許,是我們正在共同創造機器的意識吧,這個超級有機體將會成為我們。
最後奉上,根據理論,未來的大數據的群體與個人結合的私人定製圖。