bicomb數據清洗教程

來源:魅力女性吧 2.66W
bicomb數據清洗教程

數據清洗是將重複、多餘的數據篩選清除,將缺失的數據補充完整,將錯誤的數據糾正或者刪除,最後整理成為我們可以進一步加工、使用的數據。

所謂的數據清洗,也就是ETL處理,包含抽取Extract、轉換Transform、加載load這三大法寶。在大數據挖掘過程中,面對的至少是G級別的數據量,包括用户基本數據、行為數據、交易數據、資金流數據以及第三方的數據等等。選擇正確的方式來清洗特徵數據極為重要,除了讓你能夠事半功倍,還至少能夠保證在方案上是可行的。

數據清洗的一般步驟:分析數據、缺失值處理、異常值處理、去重處理、噪音數據處理。在大數據生態圈,有很多來源的數據ETL工具,但是對於公司內部來説,穩定性、安全性和成本都是必須考慮的。

熱門標籤