機器學習入門自學(零基礎學習機器學習該怎麼入門)
2023-05-30 13:48:00
什麼是機器學習?機器學習是一門多領域交叉學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
簡單來說,就是計算機從數據中學習出規律和模式,以應用在新數據上做預測的任務。
近幾年來網際網路數據大爆炸,數據的豐富程度和覆蓋面也遠遠超出了人工可以觀察和總結的範疇,而機器學習的算法能指引計算機在海量數據中,挖掘出最有用的價值,這樣使得無數的數據學習者為之著迷。
學習機器學習需要關注的問題其實並非所有的問題都適合用機器學習來解決,像很多邏輯清晰的問題用規則就可以很高效準確地處理。那麼機器學習,到底關心和解決什麼樣的問題呢?
從功能的角度來分類,機器學習是在一定量級的數據上,可以解決以下的問題:
1.分類問題:根據數據的樣本抽取出的特徵,判定其屬於有限個類別中的哪一個。比如:垃圾郵件識別哪些是垃圾郵件。
2.回歸問題:根據數據樣本上抽取出的特徵,預測出一個連續值的結果。比如:漫威《復聯3》的票房。(多麼希望每天下班時間在地鐵上來個響指~)
3.聚類問題:根據數據樣本上抽取出的特徵,讓樣本抱抱團。比如:google的新聞分類。
如果你是混跡IT行業的,你會發現機器學習在以下熱點問題中有廣泛應用。
計算機視覺:人臉識別、車牌識別、掃描文字識別、圖片內容識別、圖片搜索。自然語言處理:搜尋引擎智能匹配、文本內容理解、文本情緒判斷、語音識別、機器識別。社會網絡分析:用戶分析、網絡關係畫像、作弊發現、熱門發現。喜好推薦:音樂平臺、視頻平臺的喜好推薦、購物平臺的的猜你喜歡。入門方法與學習路徑其實機器學習對大多數入門者也是有一個通用的學習路徑的,這樣可以降低大家的學習門檻,同時激發我們的學習樂趣。
那我們說一下這個學習路徑:
先從基礎部分:數學基礎、典型機器學習算法、編程基礎學起。因為機器學習是一個將數學/算法理論和工程實踐緊密結合在一起的領域,需要紮實的理論基礎幫助引導數據分析與模型調優,同時也需要精湛的工程開發能力去高效化地訓練和部署模型和服務。
接下來就上述圖中的部分,展開分別來介紹一下:
數學基礎
機器學習之所以相對於其他開發工作,更有門檻的根本就是數學。每一個算法,要在訓練集上最大程度擬合同時又保證泛化能力,需要不斷分析結果和數據、調優參數,這就需要我們要對數據分布和模型底層的數學原理有一定的理解了。所幸的是如果只是想合理的應用機器學習,而不是做相關方向高端的research,需要的數學知識只要肯用功學一學還是可以理解下來的。
基本所有常見機器學習算法需要的數學基礎,也都集中在微積分、線性代數和概率與統計當中。
典型的算法
絕大多數的問題用典型機器學習的算法都能解決,下面簡單地列舉了一些方法:
程式語言、工具和環境
我們說了很多的理論知識,現在要落到實際動手實現解決問題上了。對大多數初學者而言,Python語言是很好的入門語言,很容易上手,同時又活躍的社區支持,豐富的工具包幫助我們完成想法。相對而言,似乎計算機相關的同學用Python多一些,而數學統計出身的同學更喜歡R一些。資深程式設計師則更偏向java和C 相關機器學習package。
基本工作流程
學到這裡我們基本具備了機器學習的必要條件,接下來就是怎麼去運用它們去做一個完整的機器學習的項目了。技術學派為大家畫了一個工作流程圖方便大家更好的學習。
這個工作流程主要是在工程實踐上總結出的一些經驗。並不是說每個項目都包含完整的一個流程。這裡的部分只是一個指導性的說明,只有大家自己多去實踐,多積累項目經驗,就會讓自己有個更深刻的認識。
分享 IT 技術和行業經驗,請關注-技術學派。
,