大數據時代讀後感
2023-09-22 13:28:50
《大數據時代》講述了大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。下面是《大數據時代》讀後感,希望對你有幫助。
《大數據時代》讀後感一:
通過讀ViktorMayer-Schonberger的《大數據時代》重新認真思考了大數據,全書以數據為核心,引導人們用數據的思維去理解世界,用數據的思維去解決問題,是推薦讀物。但個人認為本書叫《數據時代》更為合適,因其講了不少統計學、數據收集的故事,「大數據」的故事只佔一小部分。
維基百科說大數據由巨型數據集組成,這些數據集大小常超出常用軟體在可接受時間下的收集、庋用、管理和處理能力,或稱巨量數據、海量數據、大資料,大數據的常見特點是3V:Volume、Velocity、Variety。
規模巨大的數據未必是大數據,需滿足她的三個特點。以研究擲硬幣概率的實驗為例,當傳統實驗次數達到一定規模後就能幫助實驗者分析正反面出現的概率,隨著實驗次數的增加,數據大量積累可能越來越支持這一結論,數據達到一定量,它的邊際效應就出現了,數據繼續增加對分析概率還有多少意義呢?按照現代概率學伯努利試驗去帶入函數計算就好了,這僅算是概率學或者是統計學吧。故大數據不是因為單純體積大而大,是因為雜而大,研究硬幣正反面的概率如引入天文學、心理學、材料學、物理學等領域的數據而使之變大,進而研究關聯關係(或因果關係,註:本書不認同因果關係的重要性),從而得出概率的分布,然而大量相關數據的引入,按照傳統分析過程的時間是不可接受的,需利用高效計算資源,迅速把雜而大的處理結果呈現出來,並且實驗者對結果的預期不能要求100%的精確。大數據並不是數據本身,而是一種思維方式。
大數據令人著迷的地方在於用「科學」的辦法挑戰了「預測學」,幫助人們發現未知,幫忙人們進行決策。然而本書作者ViktorMayer-Schonberger強調「大數據不是因果關係,而是相關關係,相關關係比因果關係更重要」,此觀點不能認同,因果關係是宇宙的基本定律,且不說種瓜得瓜、善有善報之類哲學命題,若商家在發現電容器、釘子、高壓鍋有關聯購買關係而去做大量營銷的話豈不是有可能發生更多的波士頓爆炸案①。關聯關係在大數據中被提取出來使用,而不去關心因果關係是一種粗暴的、倒退的處理方式,是作者理解的現代社會浮躁的心裡體現。我認為的大數據應該是把看起來不相干的數據放到一起分析,找到某些跨領域的關聯關係,進而推論因果關係,發現其中價值。作者引用了安德森的觀點「現在已經是一個有海量數據的時代,應用數學已經取代了其他的所有學科工具,而且只要數據足夠,就能說明問題」,數據和所有科學的關係,我覺得有點像現在網際網路和其他所有行業的關係一樣,網際網路終究還是一個工具。作者舉了沃爾瑪「尿布與啤酒」③的故事,這也是大家熟知的一個數據分析的故事,但是沃爾瑪真的是這麼做的嗎?大家可以去沃爾瑪的時候留意一下。一家大型的超市,如果為了這種所謂相關關係,所有商品用這種關聯關係去擺放,天哪,這將是一家多麼混亂的超市,顧客進去將難以區分食品在哪、生活用品在哪!有人可能說這種關聯關係更適合電子商務,是的,但是我還是比較看好已知原因的關聯關係,比如嬰幼兒智力玩具和孕婦減肥放到一起,比如在線播放器旁邊放衛生紙的廣告(哈哈哈,你懂的)。本書用美國折扣零售店塔吉特與懷孕預測②來佐證他的觀點,但恰恰是知道因果關係後商業價值才能更多的體現出來,未知因果關係前顧客的父親生氣並要求賠償,知道因果關係後才使得這種廣告理所應當並讓客戶接受。
網際網路資訊時代數據的積累以及BI、數據倉庫、人工智慧、HADOOP、NOSQL等技術的流行,使得人們考慮問題的方式已經發生變化,接下來我們要做的只有接受擁抱數據時代、大數據時代。軟體行業程序上線的變更差錯率是一個考核IT水平的指標,為此很多公司引進了CMMI體系,以求他保障軟體的質量,為此也收集了大量的過程數據。若用數據的思維,是否可能根據之前的各種相關數據預測下次投產變更的成功率?若用大數據的思維,是否可以根據CMMI數據以及程式設計師開發期間上下班考勤數據、工資發放時間、上線當天天氣情況來綜合預測投產變更的成功率?用大數據的思維,訂餐網站不僅根據之前你定的是鹹的還是辣的來給你推薦菜單,可能因為你微博上發了一句「每個月總有那麼幾天」修改了訂餐的推薦菜單(哈哈)!故在數據時代,提議童鞋們檢查公司的信息系統,是否有定期刪除「垃圾」日誌、數據的機制(Viktor說,即使最平凡的信息業可以具有特殊的價值),為了日益廉價的存儲而刪除日益昂貴的數據,請三思後行吧。
《大數據時代》讀後感二
《大數據時代》確實是一本當下應該看的書,書中用大量的例子闡明了幾個關鍵的觀點:
1.我們應該且可以關注數據的全部而不是局部的抽樣
2.由於數據量極大,我們可以容忍更大程度的不精確
3.我們由關注事物的因果變為關注事物的相關性
同時作者對大數據時代中價值鏈三個環節即數據,技術和思維(可以理解為商業模式)之間的關係進行了剖析,得出了大公司小公司都可能如魚得水,而中等體量的公司,可能會遭遇滅頂之災。對這個預言,我拭目以待,至少目前,我從事和了解的信息服務行業(包括企業級市場研究,消費類市場研究,諮詢)體現出了大公司獲取數據的力量,中等規模公司在被不斷甩開距離,而新興的小公司還沒有特別的嶄露頭角。
作者對大數據時代對商業和管理帶來的變革也進行了解讀,但是沒有給我留下太多的印象。
最後作者也強調了大數據可能帶來的風險,包括數據的濫用,數據的獨裁,侵犯個人隱私等。在這個部分我發現了作者的一個瑕疵。作者所舉的例子包括越戰的傷亡數字,採集災後地圖和農業信息等,說明數字被人為的放大或修改,造成依據數據所作出的決策出現偏差。這裡不知作者有有意還是無意,忽視了信息的來源。絕大多數商業/政治的決策者,如果面對真實,準確和及時的信息都可以做出正確的決策,而獲得真實,準確和及時的信息不僅成本高昂,甚至無法做到。獲得高質量的信息源也是長期困擾信息服務行業的瓶頸問題。而在大數據時代,個人認為只有不是為了收集而收集到的數據才具備了「高質量」數據的特點,例如,個人的信用卡刷卡行為,上網搜索的行為等,這些是人自然行為產生的數據與那些填寫調查問卷,向上級匯報所產生的數據是截然不同的。前者是自然形成的數據,而後者是為了收集而收集的數據。作者在風險部分舉得例子都是後者。如果是依據自然形成的數據,那麼數據獨裁和濫用(應該換為褒義詞了)幾乎不會造成非常錯誤的結果,我們恰恰期待一些和我們常識有衝突的結果,來糾正我們的經驗主義錯誤。但侵犯個人隱私則是不可避免的風險。