1,編程語言
目前業界有很多機器學習編程語言。根據壹些簡單的工作經驗,發現Python和SQL是常用的編程語言。需要掌握的內容有:聚合函數、數學函數、字符串函數、表連接函數、條件語句等。
2.機器學習
推薦教材《實戰中的機器學習》作者是彼得·哈靈頓。閱讀本書需要讀者掌握Python語言,加上Numpy、Scipy、matplotlib函數庫的壹些基本內容。
3.數理統計
還有壹些東西是數理統計中相當常用的。比如時間序列模型ARMA模型等等。壹些數據指標,如均值、方差、標準差、變異系數、相關系數、ROC曲線和AUC、召回率和準確率、交叉驗證等。
數據挖掘和機器學習的區別
數據挖掘不太關註算法的細節,而更關註結果的解釋和統計意義;相反,機器學習似乎更關心算法的設計和優化,對分類、聚類或某些給定問題的效果,而較少考慮統計意義。
具體來說,壹個數據挖掘專家可能會使用線性回歸甚至相關分析,這些被機器學習學者認為是上世紀初的產物,用來完成壹些非常有趣的實際工作,並得到壹定的統計意義。