首頁技術文章正文

什么是數據預處理?【python數據分析】

更新時間:2022-07-27 來源:黑馬程序員 瀏覽量:

IT培訓班

  隨著大數據技術掀起的計算機領域的新浪潮,無論是數據分析、數據挖掘還是機器學習、人工智能,都離不開數據這一主題。

  在實際應用中,初始數據一般是多數據源且格式多樣化的數據,這些數據的質量通常是良莠不齊的,或多或少存在問題,不能直接被使用到數據分析或數據挖掘工作中,直接使用會造成低質量的分析或挖掘結果。

初始數據

  初始數據在進行分析或挖掘之前需要經過一定的處理,調整成符合分析或挖掘需求的數據。而從初始數據到得出分析或挖掘結果的整個過程中對數據經過的一系列操作稱為數據預處理。

  數據預處理是數據分析或數據挖掘前的準備工作,也是數據分析或數據挖掘中必不可少的一環(huán),它主要通過一系列的方法來處理“臟”數據、精準地抽取數據、調整數據的格式,從而得到一組符合準確、完整、簡潔等標準的高質量數據,保證該數據能更好地服務于數據分析或數據挖掘工作。

  據統(tǒng)計發(fā)現,數據預處理的工作量占據整個數據挖掘工作的60%,由此可見,數據預處理在數據挖掘中扮演著舉足輕重的角色。

  舉一個簡單的例子,摩拜單車在經過數據預處理前。戶編號、單車編號、單車類型是一些冗余的屬性,對分析目標而言沒有任何意義;騎行時長是對分析目標起關鍵作用的屬性,但該列中有若干個空缺。

  經過預處理后,城市和騎行時長列的數據比較完整,也根據城市名稱進行了歸類,方便用戶快速地得出各城市用戶的平均騎行時長。

數據預處理

  顯而易見若使用預處理前的摩拜單車數據對各城市用戶的平均騎行時長進行分析,會導致分析結果存在一些偏差,相反地,使用預處理后的摩拜單車數據進行分析,會得到一個較為準確的分析結果。

分享到:
在線咨詢 我要報名
和我們在線交談!