首頁常見問題正文

Python數(shù)據(jù)預(yù)處理前,初始數(shù)據(jù)通常存在哪些問題?

更新時間:2023-07-25 來源:黑馬程序員 瀏覽量:

在實(shí)際業(yè)務(wù)中,從各渠道獲取的初始數(shù)據(jù)大多是“臟”數(shù)據(jù)。“臟”數(shù)據(jù)是指源系統(tǒng)中不屬于給定范圍、對實(shí)際業(yè)務(wù)無意義、格式非法、編碼不規(guī)范、業(yè)務(wù)邏輯模糊的數(shù)據(jù)。這種數(shù)據(jù)是低質(zhì)量的數(shù)據(jù),存在著一系列的問題。下面為大家介紹一些常見的數(shù)據(jù)問題。

1.數(shù)據(jù)缺失

數(shù)據(jù)缺失是指屬性值為空的一類問題。這類問題主要是由采集、傳輸與存儲設(shè)備故障,數(shù)據(jù)延遲獲取或人為因素造成的。例如,用戶在參與問卷調(diào)研時,未婚用戶未填寫配偶姓名一欄的信息,學(xué)生用戶未填寫月收入一欄的信息,介意填寫個人隱私信息的用戶未上傳照片信息等。

2.數(shù)據(jù)重復(fù)

數(shù)據(jù)重復(fù)是指同一條數(shù)據(jù)多次出現(xiàn)的一類問題。這類問題主要是由人為重復(fù)錄人或傳輸設(shè)備故障造成的。例如,某平臺系統(tǒng)中錄入了兩個ID相同的用戶。

3.數(shù)據(jù)異常

數(shù)據(jù)異常是指個別數(shù)據(jù)遠(yuǎn)離數(shù)據(jù)集的一類問題。這類問題主要是由隨機(jī)因素或不同機(jī)制造成的,需要先經(jīng)過判定再進(jìn)行相應(yīng)的處理。

4.數(shù)據(jù)冗余

數(shù)據(jù)冗余是指數(shù)據(jù)中存在一些多余的、無意義的屬性。這些屬性可以根據(jù)另一組屬性推導(dǎo)出來,或者蘊(yùn)含在另一組屬性中,又或者超出業(yè)務(wù)需求。例如,一組數(shù)據(jù)中同時包含月收入和年收入,而年收入可以直接根據(jù)月收入推導(dǎo)出來。

5.數(shù)據(jù)值沖突

數(shù)據(jù)值沖突是指同一屬性存在不同值的一類問題。此類問題常見于多源數(shù)據(jù)合并的場景。例如,身高屬性在一個數(shù)據(jù)源中對應(yīng)一組以cm為單位的數(shù)值,而在另一數(shù)據(jù)源中對應(yīng)一組以m為單位的數(shù)值。

1690269537501_python大數(shù)據(jù)常見問題.jpg

6.數(shù)據(jù)噪聲

數(shù)據(jù)噪聲是指屬性值不符合常理的一類問題。這類問題主要是由硬件故障、編程錯誤、語音或光學(xué)字符識別程序識別錯誤等造成的。例如,一份顧客數(shù)據(jù)中記錄的用戶年齡為負(fù)數(shù)。

上述問題是數(shù)據(jù)分析或數(shù)據(jù)挖掘時比較常見的一些數(shù)據(jù)問題,這些數(shù)據(jù)問題會對數(shù)據(jù)分析或數(shù)據(jù)挖掘結(jié)果產(chǎn)生一定的影響,這些數(shù)據(jù)只有被處理成“干凈”的數(shù)據(jù)之后,才可以應(yīng)用到數(shù)據(jù)分析或數(shù)據(jù)挖掘中。

除處理“臟”數(shù)據(jù)之外,初始數(shù)據(jù)的形式或內(nèi)容也需要做一些調(diào)整,以保證數(shù)據(jù)更加符合數(shù)據(jù)分析或數(shù)據(jù)挖掘的需求,為數(shù)據(jù)分析或數(shù)據(jù)挖掘做好準(zhǔn)備工作。

分享到:
在線咨詢 我要報名
和我們在線交談!