新四季網

從百度視頻看大數據與人工智慧

2023-09-21 16:47:43

  

  近日,了解到百度視頻在升級迭代上利用大數據做了很多事情,這讓我真實的感受到了大數據的價值。其中我將大數據的應用決策拆解成兩種層面,第一種是利用個體數據為個體進行決策,第二種是利用群體數據為群體進行決策。

  以下,結合百度視頻已經實現以及將要實現的案例,來看下大數據與人工智慧是具體如何應用的。

  大數據個性化決策

  個性化決策無疑是難度最高的,因為個性化決策是根據用戶行為記錄來為用戶做出相應的推薦。

  百度在無線端有大量的產品,其中用戶數過億的 APP 就多達 14 款。百度內部有專門的團隊,分析用戶在這些 APP 中的行為,利用算法估算用戶的年齡、性別、職業、興趣等特徵。

  這一技術在百度工程師那裡稱為用戶建模,這些數據來自於用戶手機裡安裝的百度應用如「百度地圖」、「百度貼吧」、「百度魔圖」外加一些使用百度開放接口的應用諸如「糗事百科」等等,百度是能夠通過這些數據進而來為用戶建立動態模型。

  

  百度視頻的個性化推送是典型的利用群體智慧來解決個體需求的例子。傳統的視頻 APP 通常以廣播的方式為用戶推送視頻,即每個用戶收到的消息內容是一樣的,無法滿足用戶個性化的需求。百度視頻的做法是,分析用戶的歷史觀看記錄,同時結合用戶的性別、年齡、地域等特徵,為用戶建立興趣模型,將用戶可能感興趣但卻未觀看過的視頻推送給用戶。

  比如一個經常上動漫貼吧的用戶,百度通過搜集大數據後判斷其是 20 歲左右的大學生,在個性化推送上就和其他人群就有所不同,可能就會推送一些大學生圈子裡比較流行的動漫以及韓劇之類。

  簡而言之,用戶使用的百度系以及帶有百度接口產品的產品越多,百度就能越能為用戶建立個人模型,所有使用過的產品的數據會匯聚到百度雲端,人工智慧最後再繪製出一個人的畫像,百度再根據這個畫像再為每個應用進行大數據決策推送,再根據用戶的反饋結果進行迭代試錯,當然這是機器學習的部分,不必要再深入討論下去。我畫了一個簡單的百度個性化推薦原理。

  

  大數據群體化決策

  個體與群體的價值思辨

  之前我對百度個性化推送提出過缺陷的質疑,一旦當用戶更換手機之後,百度就無法再次為其建立個人畫像模型,進而也就失去了對於個人的意義,百度又要重新建立個人數據,十分麻煩。

  而深入了解百度的大數據之後讓我感到更有一番深度,百度的大數據並非只為個體用戶服務,更重要的是建立群體宏觀行為模型,通過這一整套模型為群體進行宏觀決策,而群體決策部分的重要戰略意義遠遠大於個體意義。

  我對此的理解為:如果我們將人類整體行為看做為個體行為,那麼同樣的作為個人總有一些誤操作,一些隨機的非主流的邊緣操作,而這些邊緣操作對於機器學習來說只是噪聲而非信號,是需要進行過濾的,那麼機器就需要過濾掉這些沒有價值的數據,將有價值的信號數據沉澱與固定下來,為整體行為進行決策。

  

  所以在某種程度上,我們都會陷入個性化至上的錯覺,而忽略群體數據決策的價值。再回到百度之前的個性化推送功能,這些推送一定是事先經過群體過濾過後的信號,再向用戶推送後才會更戳中人心。比如百度通過數據判斷出最新流行的韓劇是《來自星星的你》,而不是過氣的《大長今》,繼而向用戶推薦《星星》,這些都不是人工的,完全是自動生成的。

  也就是,這場思辨中我得出了一個關於大數據的重要結論,機器為個人的數據提供個人喜好的小範圍數據,而群體大數據決策後的結果在為個體擴大範圍。

  個性化推送為個人提供確定性,為群體提供不確定性。而群體決策為個人提供不確定性,為群體提供確定性。

  二者的噪聲互為價值,二者的信號互為幹擾。

  人工智慧或許永遠無法超越人類

  上次我和趙雲峰還有劉峰老師在 3W 咖啡裡討論了人工智慧的未來,其中我們談論到了圖靈測試,我們分析到圖靈測試的程序雖然越來越厲害了,但這依然是工具而已,本質上人與人的博弈罷了,機器永遠無法脫離人類進行自學習。

  

  那麼這裡回到百度視頻上來,百度目前做到了平均給每部視頻貼上上百個標籤,而且這些標籤根據時間還在不斷的更新與迭代,不僅如此,這些標籤還在不斷的自行關聯。所以百度視頻能夠做到,搜索諸如「高智商電影」會出現《盜夢空間》、《禁閉島》、《原始碼》等等這樣的關聯。

  有人問,這些成百上千的標籤都是人工匹配的嗎?如果這樣,百度人力需要很多啊。實際上標籤是機器全自動做好的。但制定標籤還是需要人,機器應當是通過用戶先搜索到某個關鍵詞然後經過一系列的行為判斷該關鍵詞與某電影的關係,通過大量用戶的反覆出現的數據,機器再建立出這些關聯。

  假如有一天機器能夠完全通過獨立的自我學習,通過自身而不藉助人類去關聯這些標籤詞彙與電影的關係。那一刻才能算是真正實現了人工智慧。

  這只能說明我和趙雲峰還有劉老師在 3W 咖啡的談話是多麼無聊的正確,對於機器來說,人類就像他們的發動機,他們無法做到產生真正的意識,他們無法像人類一樣進行自我追問一切的起源,0 與 1 的結構。

  是啊,人類是多麼孤獨,因為只有人類才會意識到自己的孤獨,而機器不會。但又或許,是我們正在共同創造機器的意識吧,這個超級有機體將會成為我們。

  最後奉上,根據理論,未來的大數據的群體與個人結合的私人定製圖。

  

同类文章

搜狗團購導航 情人節電影攻略

    作為熱門電影檔期,今年情人節檔期依舊延續春節檔火熱氣勢。搜狗團購導航精心為用戶整理2014年情人節上映電影,為大家提供特別準備的情人節電影攻略。   由同名熱播電視劇升級而成的《北京愛情故事》;陳坤、劉嘉玲組成影帝影后陣容的《過界男女》;情人節唯一3D愛情片《江南愛情故事》;「型男組合」杜淳

思科發布2014財年第二季度業績報告

    ·第二季度銷售額:112億美元(與上財年同期相比降低8%)   ·第二季度每股收益:根據GAAP計算為0.27美元;非GAAP每股收益為0.47美元  CTI論壇(ctiforum)2月13日消息(記者 李文杰):全球領先的致力於改進人們聯絡、溝通和協作方式的網絡解決方案提供商思科公司今天發

情人節臨近 1號店巧克力等商品銷量激增

    2月14日情人節馬上就要到了,鮮花、巧克力等應景商品走俏市場,商家們也看準時機,各種促銷精彩紛呈。1號店相關負責人透露,目前1號店最熱銷的情人節產品是巧克力,從10號以來,巧克力的銷量就不斷攀升,「兩種商品的單日銷售額可以達到日常的4倍左右,並且還有上升的趨勢」。     據悉,1號店從2月

當"湯圓"邂逅"玫瑰"樂語通訊邀您盡享雙重約"惠"

    馬年春節在一片「馬上發紅包,馬上有禮錢」的呼聲中熱熱鬧鬧地走到了尾聲。元宵節作為最後的重頭戲,歡樂不減更增妙趣——因為今年元宵節甜蜜偶遇情人節,上演了「湯圓」邂逅「玫瑰」的浪漫一幕。雙節當天,國內領先的電信零售服務企業樂語通訊特意奉上雙重約惠,為消費者傾情打造一份專屬的浪漫。  2月14日,

全品類讓利助陣 1號店火爆開年送好運

    新年新氣象,開年迎好運。2月11日,1號店推出「今年你要火」開年大促,活動期間,除了豐富多彩的促銷活動,1號店還為消費者準備了面值從15—50元不等的抵用券,所有登陸1號店的消費都可以參與抽獎,賺好運。   據悉,1號店「今年你要火」將從2月11日持續到16日。1號店特意為活動挑選了數百款熱

做男神還是做孝子? 1號店214消費支招

    泡泡網資訊頻道2月10日 再過一周,就是2月14日情人節了,正好今年元宵也在這一天。許多人開始好奇,當元宵節擁抱情人節,當溫馨親情遇上浪漫愛情,情侶們會做出哪種選擇:是回家陪伴老人吃元宵,做個孝子呢?還是與愛人相約,度過一個浪漫夜晚?還在犯愁的消費者不如上1號店看看。「雙節」將至,1號店推出

1號店"以舊換新"再升級筆記本平板電腦納入回收範圍

    近日,一項關於「我們淘汰的手機去哪了」的公益調查顯示,70%的網友都把自己淘汰的手機、舊電腦給了父母。春節期間,更是有不少網友在回家過年期間將舊手機送給父母視為貼心之舉。這一話題在網絡上迅速引發熱議,不少人認為舊手機存在安全、健康隱患,雖說棄之可惜,但用「以舊換新」的方式換購一臺新的智能機給

春晚打造"舌頭"新搭檔 地板劇側躺劇掀新潮

    隨著農曆新年假期的結束,馬年春節漸行漸遠,但人們對於春晚的討論依舊不絕於耳。在今年馬年春晚的舞臺上,一對新搭檔吸引了大眾的關注,就是堪稱「毒舌王后」的蔡明與「中國好舌頭」華少,二人的「唇槍舌戰」讓小品《擾民了您》受到觀眾們的一致好評,成為新一年極具潛力的一對歡喜搭檔。   不過,兩大「舌頭」

帝度隨雪龍號共度世界最南端春節

   隨著春節長假結束,各行業工作者經過與親朋好友相聚的短暫休憩,紛紛返回工作崗位,以積極心態應對新一年的工作。而在地球最南端的南極,帝度冰箱與搭乘「雪龍」號的中國第30次南極科學考察隊,分別在中山站、長城站、泰山站,以及「雪龍」號破冰船上度過了整個春節。雖然春節期間無法與親人相聚,但科考隊員們仍然
「不限量」流量只是幌子 流量卡到底哪家最划算?

「不限量」流量只是幌子 流量卡到底哪家最划算?

      為了能使用到更為實惠的移動流量,相信不少人都會有購買流量卡的打算,而如果是流量需求比較大的用戶,則還有不限量流量套餐和日租卡可以選擇。筆者最近正好也有辦流量卡的需求,於是便研究了下目前主要的幾家流量卡、日租卡和不限量流量套餐,一起來看看那家的流量服務最適合你吧!1、米粉卡      小米