所謂的“髒數據”指的是:接收到的數據還沒預先處理好,數據資料還處於原始狀態,無法直接對數據資料進行相對應的分析處理。
髒數據指的像是:數據資料格式不正確、不一致、重覆或是分散等等,因此,我們得先處理好這些問題,才能將資料進行分析。
接下來,我整理一些企業最常遇到的髒數據,並說明如何解決這些問題。
1.數據資料編碼錯誤
會發生這樣的狀況,通常是因為數據資料從原始系統匯出成.CSV或是.TXT時其檔案編碼便發生錯誤,最終造成以Excel 開啟時,以亂碼方式呈現資料。解決的方式便是在檔案原點處重新指定資料編碼。
2.不完整的數據,造成數據格式錯誤
這是髒數據最常見的情況,可能像是在輸入資料時,因為數據資料不清楚所以留白。然而,這樣的行為有可能會造成系統在判斷該欄位的屬性時發生錯誤,例如:把日期判斷為文字,或是把數字判斷文字等等。
如果我們使用Excel來解決這個問題,最常用的方式是撰寫函數,以便重新定義該欄位的屬性,方法十分麻煩,同時,一旦來源資料變更,函數可能還需要撰寫,下圖則是透過Power Query輕易修正各欄位的屬性快速解決這個問題。(在解決後的右上方可以掌握每個欄位的屬性)
3.不一致的資料格式
同樣輸入日期資訊,有些企業會用中華民國歷(如:政府單位),另外,有些企業的日期格式則是用DD/MM/YYYY 的輸入方式(如:香港地區),如果數據資料輸入時不一致便會造成日期屬性的錯誤,最終將無法進行後續的數據分析。
下圖透過Power Query修正各欄位的屬性解決這個問題,解決後的右上方可以掌握每個欄位已正確成為日期的屬性。
4.重複的數據,造成分析結果錯誤
髒數據常見的罪魁禍首之一便是重複數據。
問題來源可能是系統匯出資料時為避免覆蓋,資訊人員每間隔一段時間便會產生不同的檔案名稱。
(有些可能會用日期來區分版本,但由於新的檔案包含舊的資料,資料處理人員如果將舊的檔案與新的檔案合併在一起便會發生數據重複的問題,解決的方式則透過移除重複數據來避免問題發生。)
5.同一個欄位中放入多筆資料
這類的問題最常發生在填寫問卷調查或是工作日誌時,由於欄位設定為開放式,用戶可以自行輸入資料,便有可能發生在同一個欄位中輸入多筆有價值的資訊,後續處理數據分析時,往往該欄位的內容便以文字型式保留不做進一步分析,但也有可能會遺失了重要的資訊。
解決的方式則透過資料分割,找出該欄位中有價值的內容,再將這些內容以資料庫的型式來呈現,以便在後續可以進一步的進行分析。
作者:游振昌
●專案管理顧問有限公司 執行長
●中華國際專案經理人協會 理事長
●Project Club 發起人暨資深顧問