摘要:數據質量是影響開放數據價值生成的關鍵因素。本文采用網絡調查和數據分析方法, 對13個開放數據平臺中的數千個數據集進行分析, 歸納出29類“臟數據”, 統計了北京、上海和哈爾濱三地的數據質量問題分布情況。文章建議在引進“數據清洗”和“質量檢查”環節、采用標準規范等方面借鑒先進經驗, 提升和保障數據質量。
“開放政府數據” (Open Government Data, OGD) 運動能夠釋放數據價值, 產生積極的社會和經濟效益, 在世界范圍得到了快速發展。2013年10月, 麥肯錫研究院的報告預測[1], 在教育、交通、能源及醫療等七個領域, 開放數據每年將為全球釋放約3萬億至5萬億美元的潛在經濟價值;報告同時指出, 在一些領域 (如交通) 使用開放數據的最大障礙之一是“數據質量”。經合組織 (OECD) 認為, 為確保OGD創造價值, 政府面臨的最重要任務是[2]: (1) 識別高價值的數據; (2) 保障數據質量; (3) 培育需求及促進數據使用?!伴_放政府合作組織” (Open Government Partnership, OGP) 對各成員國2012—2015年行動計劃的評估發現, 低價值和低質量數據引發了數據供給與需求之間的“鴻溝”[3]。
提高數據質量, 避免因劣質數據而帶來的消極影響, 始終是數據管理領域最嚴峻的挑戰之一[4]。據估算, 美國每年因劣質數據造成的損失高達6千億美元[5,6], 包括數據錯誤引起的醫療事故及電信設備故障排除引發的延誤等, 零售業標價錯誤造成的損失及公司缺陷數據引起的財政損失等。OGD領域的數據質量問題也日益凸顯, 澳大利亞昆士蘭大學S.Sadiq等的研究發現, 美國數據門戶Data.Gov上的槍支犯罪者數據集曾存在數據不完整、不一致和記錄重復等問題[7]。巴西學者M.I.S.Oliveira等對巴西13個數據門戶的分析發現, CSV數據文件中有記錄重復、字段定義不一致等問題[8]。英國開放知識國際 (Open Knowledge International) 的網站開辟專欄Okfnlabs.org/bad-data/展示了“壞數據” (Bad Data) 的實例[9]。
在我國, “政府數據資源共享開放工程”位列國務院《促進大數據發展行動綱要》規劃的十大數據工程之首[10]。從2012年開始, 已有20多個地方政府建設和發布了數據開放網站 (或欄目) , 隨著數據量的增加, 數據質量也日益得到關注[10,11]。目前, 數據質量管理面臨的問題和挑戰主要有錯誤發現、錯誤修復和近似查詢處理等[6]。在此背景下, 我國開放政府數據是否存在“臟數據”, 有哪些主要的質量問題及如何應對, 就成為本文要回答的問題。
1 臟數據的分類
數據質量 (Data Quality) 是“數據滿足任務需求的程度”, 數據質量問題指“給使用這些數據的應用帶來潛在影響的一系列數據表現”[12], 那些不符合要求或標準規范的質量差的數據常常被稱為“臟數據” (Dirty Data) 或“壞數據” (Bad Data) [13]。
“臟數據”的分類可以幫助人們更好地理解和發現數據質量問題, 相關學者從不同視角研究取得了一系列成果。Rahm等[14,15]分別從模式層和實例層分析了單源/多源數據常見的9類質量問題, 如糟糕的模式設計, 冗余、互相矛盾或者不一致的數據, 拼寫錯誤和命名沖突等。Kim等[16]提出如圖1所示的33種“臟數據”的分類系統, 分為缺失的數據和沒有缺失的數據兩大類, 沒有缺失的數據又分為了錯誤的數據和沒有錯誤的數據。Oliveria等[17]將21個質量問題劃分為四個粒度級別 (Granularity Level) :單元/列/行、單表、多表和多源。Li等[18]利用規則將38類企業臟數據分為五個維度:準確性、完整性、時效性、一致性和唯一性。Gschwandtner等[19]分析的對象是“面向時間的數據”, 將臟數據分為單源和多源兩大類。Almeida等[20]基于數據倉庫的多維數據模型, 將30個質量問題歸為五組:單值、多值、元組、列和整個關系表。
圖1 Kim等提出的“臟數據”分類系統
這些研究主要面向傳統的數據管理領域, 如數據倉庫、企業信息系統等。Laranjeiro等[21]則面向大數據, 通過文獻分析將24個質量問題映射到五個質量維度:可訪問性、準確性、完整性、時效性和一致性。在伴隨大數據而興起的“數據新聞” (Data Journalism) 領域, 美國數字媒體網站Quartz于2015年整理出“壞數據手冊” (Bad Data Guide) , 將45個質量問題分成四個方面:數據源問題、人為問題、專家可以解決的問題和開發者可以解決的問題[13]。
在上述工作的基礎上, 面向我國開放政府數據的實踐, 在深入調查和分析基礎上, 本文歸納出OGD領域29類“臟數據”, 見表1。該表分為“模式層” (7類) 和“實例層” (22類) 兩個層次, 前者指數據的模式定義, 含完整性、一致性和準確性三個維度;后者指開放的數據本身, 含正確性、規范性、開放性等八個維度。維度的選擇基于數據質量的核心維度[22]和開放數據原則, 包括數據應是完整的、原始的、及時的、可獲取的、機器可讀的和開放許可等[23,24]。不同于傳統領域, “開放性”和“安全或隱私”是兩個新的維度, 相應地有7類“臟數據”是開放數據所獨有的, 它們在表1中通過星號 (*) 標記。表1中的臟數據實例全部來自各地的實際開放數據。
表1 我國OGD領域臟數據的分類
表1 我國OGD領域臟數據的分類
2 調查內容與方法
為盡可能全面地發現各種質量問題, 筆者在選取政府開放數據網站/平臺時, 綜合考察數據集的個數、是否有模式定義及是否提供了多種格式的文件。選取的13個網站見表2, 數據集的個數等指標在不斷變化, 表中的數據取自2017年9—12月。調查的對象是各網站數據目錄中的數據集, 不包括接口 (API) 和應用等其他開放資源。
表2 調查對象——地方政府開放數據網站/平臺
2.1 數據集及數據文件
對開放數據本身的調查是本文的重點和核心。研究通過下載數據集的數據文件, 考察和分析文件中的數據, 依據臟數據的基本特征 (見表1) , 有可能發現實例層的16類質量問題, 即正確性 (D8—D12) 、一致性 (D13—D15) 、完整性 (D17—D18) 、唯一性 (D20) 、規范性 (D21—D24) 與安全或隱私 (D29) 等維度下的“臟數據”。
例如, “哈爾濱市建設項目選址意見書信息”數據集的Excel文件中含有846條記錄, 每條記錄8個字段。圖2抽取了10條記錄, 展示了其中存在的五類“臟數據”:“建設項目名稱”“建設位置”“占地面積”和“建設規?!彼牧写嬖凇皵祿等笔А?(D17) 現象, “占地面積”和“建設規?!眱闪小皵祿]有單位” (D23) 與部分單元是“不合理值 (0) ” (D10) , “建設位置”列的值出現“數據籠統 (不詳細) ” (D8) 現象, “出證日期”列的取值“格式不規范” (D22) 。此外, 文件中還存在“未知值表達不一致” (D14) 問題:NULL與******都在表示“無數據或未知值”。
圖2“臟數據”示例 (淺色的數據單元和列存在質量問題)
對開放性維度下的質量問題D25和D26, 則要依據文件格式來判別。在我國各地采用的文件格式 (見表2) 中, XLS (即Excel) 與Word是微軟公司專有格式, 不符合開放標準, PDF、Word與HTML不是機器可讀的。在開放數據網站中, 當一個數據資源有多個文件時, 只要一個文件符合開放標準或是機器可讀的, 我們則認定不存在質量問題D25或D26。當沒有數據文件可供下載、文件不能下載或數據只在網頁 (HTML) 上, 我們則認為存在問題D27 (不能開放獲取) , 但提供了API接口的除外。當數據存在于PDF、Word文檔或網頁的新聞稿、政府文件或統計報告中, 不是原始數據的可能性就比較大 (D28) , 這方面問題突出的是新疆的開放數據 (詳見表1“實例”一列) 。
2.2 數據模式定義
圖2中“出證日期”列的取值“格式不規范”問題與數據模式的定義有關。根據國家標準《數據元和交換格式信息交換日期和時間表示法》 (GB/T 7408-2005) , 日期的格式應為:YYYYMMDD (如20090320) , 開放數據實際中以YYYY-MM-DD、YYYY.MM.DD或YYYY/MM/DD等格式居多。因此, 與普通的“文本類型”區分開, 日期類數據應定義為“日期類型”。
圖3 模式定義中的質量問題
對數據模式定義的調查是本文的另一個重點。圖2展示了“哈爾濱市建設項目選址意見書信息”數據集的模式定義, 其中存在三類質量問題:類型定義錯誤 (D5) 、命名不準確 (D6) 和未定義數據單位 (D7) 。
一個開放數據網站是數百個乃至數千個數據集的集合, 模式定義的一致性尤為重要。例如, 一個網站在字段的命名規則上應保持一致, 但調查發現在哈爾濱、北京等地存在著“名稱”與“企業名稱”、“地址”與“企業通訊地址”在不同的數據集中混用的現象 (D3) 。
一個數據集中的數據資源的不同格式文件也應在模式上保持一致, 但在哈爾濱和廣州等的開放數據中普遍存在XLS與XML模式不一致問題 (D4) 。圖4對比了“哈爾濱市考試中心基本信息”數據集的兩種格式數據, XLS數據的“標題”為中文名稱 (如“地址”) , 而XML數據的“元素名稱”則為漢語拼音縮寫 (如DZ, 應為“地址”) , 造成用戶難以理解與使用這些XML數據。
圖4 兩種格式數據的模式不一致
2.3 多種格式數據的一致性
同一數據資源不同格式的文件, 不僅數據模式應一致, 其中的數據更應保持一致。但調查發現, 上海、廣州和哈爾濱等地存在著“同一數據集的不同格式文件的數據不一致”問題 (D16) 。
圖5 兩種格式數據不一致
例如, 上?!皵z像頭設置地點”的XLS文件中的第9條數據為“金沙江路/真光路”, 但CSV文件的相應數據卻是“?金沙江路/真光路”。廣州“黃埔區信用信息雙公示行政處罰”的XLS數據共有14列, 但相應的CSV數據的一些行卻出現了第15或16列, 見圖5。哈爾濱的一些數據集也有類似情況, 即CSV中數據串列了。
W3C Web數據最佳實踐 (DWBP) 工作組將“以多種格式提供數據” (Provide data in multiple formats) 列為35個“最佳實踐” (Best Practice, BP) 之一 (BP14) [25], 它可以節省用戶在數據轉換上的時間和成本。理想狀態下, 各種格式的數據應是完全等價的, 用戶只要任意選擇其一即可使用。如果不同格式數據的質量不同, 反而會給用戶帶來選擇數據的成本和代價。鑒于D4和D16兩類質量問題的隱蔽性強、難以發現, 我們認為它們是開放數據質量管理的新情況和新挑戰, 應引起各級政府數據管理者的重視。
2.4 通過元數據判別時效性
2016年9月19日, 國務院印發《政務信息資源共享管理暫行辦法》第十三條規定:按照“誰主管, 誰提供, 誰負責”的原則, 提供部門應及時維護和更新信息, 保障數據的完整性、準確性、時效性和可用性, 確保所提供的共享信息與本部門所掌握信息的一致性[26]。
為判別一個數據集的時效性, 即數據是否陳舊或過時 (D19) , 需要依照元數據“最后更新時間”和“更新頻率”的值。以貴州“全省戶籍人口統計數據”為例, 它的“最后更新時間”和“更新頻率”分別為“2016-10-17”和“年”, 同時數據文件中給出的是2010—2014年的數據, 則可判定該數據集沒有及時更新。在貴州省的網站中共有130個數據集在2017年沒有更新, 占比27.6%, 而其他數據集則得到了及時更新, 占比72.4%。
廣州、深圳和佛山等地的數據文件中增加了“更新日期”字段, 方便了用戶判別其時效性。而北京和上海等地沒有“更新頻率”或“最后更新時間”的元數據, 造成很多數據集的時效性無法判別。
2.5 參照外部權威數據源
當網站內的信息不足以判別數據質量狀況時, 就需要參照外部權威數據源。例如, 北京的“高?!睌祿?012年10月29日發布的, 能否反映當前實際情況呢?對比教育部的最新數據 (截至2017年5月31日) [27], 里面沒有“中國科學院大學”, 因此認定該數據集是過時的。2012年7月19日發布的“機場班車線路”只有9條線路, 而首都國際機場網站上公布的線路已達18條, 表明該數據不僅過時、而且不準確。政府開放數據應是權威的數據源, 但要達到這一目標還需要在質量管理等方面加強工作。
2.6 隱私泄露問題
隨著開放數據的深入, 隱私保護和安全問題日益得到關注[28]。實踐上, 深圳《政府數據開放平臺用戶服務條款》、貴陽《數據開放授權協議》和《數據東莞網使用協議》等均含有“隱私保護聲明”, 承諾網站不主動將用戶個人信息泄露給任何第三方。2017年5月1日起施行的我國首部政府數據共享開放條例——《貴陽市政府數據共享開放條例》規定[29]:涉及國家秘密的、商業秘密的、個人隱私的和法律法規規定不得開放的其他政府數據不能向社會開放。
2017年6月1日起施行的《中華人民共和國網絡安全法》第四十二條規定[30]:網絡運營者不得泄露、篡改、毀損其收集的個人信息;未經被收集者同意, 不得向他人提供個人信息。同時將“個人信息”定義為:以電子或者其他方式記錄的能夠單獨或者與其他信息結合識別自然人個人身份的各種信息, 包括但不限于自然人的姓名、出生日期、身份證件號碼、個人生物識別信息、住址、電話號碼等。美國列入個人信息保護范圍的數據包括名字、身份證號碼、郵件地址、IP地址、電話號碼等[31]。歐盟個人數據保護法指出, 身份證號碼、定位數據、網絡標識符、基因、經濟、文化、社會身份等隱私受法律保護[32]。
筆者在調查過程中, 重點考察數據中是否含有“自然人的姓名”“電話”“住址”和“身份證號碼”等敏感信息, 發現浙江、貴州和哈爾濱等地的個別開放數據存在隱私泄露問題 (D29) 或風險, 見圖6 (只給出數據文件的標題行, 隱去了數據) 。
圖6 個人敏感數據示例
相對照的是, 貴陽對“導游人員名單”等、東莞對“公證員信息”等進行了脫敏處理, 見圖7。
圖7 經脫敏處理的個人信息示例
表1中D29類臟數據也包括“泄露的商業秘密”, 這方面已有學者做了專門研究[33]。
3 結果分析
本節以“開放數據網站/平臺”為單位, 對數據質量問題進行整體分析。
3.1 各平臺數據模式對比
表2中的13個開放數據平臺中有8個給出了模式定義, 其中廣東和東莞沒有“類型定義” (質量差) , 其余6家的對比見表3。普遍存在的問題是字段的英文命名不規范、數據類型單一和數值型數據無單位, 規范的做法是統一采用英文單詞命名、區分各種數據類型 (文本、枚舉、布爾型、數值與日期等) 及將“單位”單獨定義為一列等。
表3 各平臺數據模式的對比
數據模式定義的缺陷或缺失是實例層在“一致性”和“規范性”等維度的質量問題的根源, 因此“數據模式質量”在整個開放數據質量管理中處于基礎性位置, 應優先得到提升和保障。
3.2 北京的數據質量問題
圖8 北京市存在的主要臟數據類型 (前10名)
在調查的北京市726個開放數據集中, 出現次數最多的質量問題是“數據值缺失” (D17) , 共有311個數據集存在不同程度的數據不完整現象。接下來是“數據過于籠統” (D8) 、“不合理值或錯誤值” (D10) 、“未知值表達不一致” (D14) 及“一列的數據格式不一致” (D15) 等, 見圖8。調查共發現631個質量問題, 按照正確性、完整性、規范性和開放性等八個維度統計占比, 結果見圖9。其中, 完整性問題的比例最高, 達49%;其次是正確性問題, 占18%。
圖9 北京市各維度質量問題占比
3.3 上海的數據質量問題
圖10 上海市存在的主要臟數據類型 (前10名)
上海市的用戶評價機制從準確性、及時性、滿意性和可用性等方面對數據集打分, 得分一星到五星的數據集共324個。調查結果見圖10, 出現的質量問題依次是“數據值缺失” (D17) 、“不合理值或錯誤值” (D10) 、“數據陳舊或過時” (D19) 、“一列的數據格式不一致” (D15) 及“數據過于籠統” (D8) 等。發現的324個質量問題在八個維度上的分布情況見圖11, 排在前兩位的同樣是完整性問題 (30%) 和正確性問題 (20%) 。
圖11 上海市各維度質量問題的占比
3.4 哈爾濱的數據質量問題
哈爾濱市的數據開放專欄于2016年底上線, 據媒體報道, 其整體水平處于全國前列。通過對672個數據集的調查, 較多的質量問題是“數據值缺失” (D17) 、“數據過于籠統” (D8) 、“不合理值或錯誤值” (D10) 、“同一數據集的不同格式文件的數據不一致” (D16) 及“一列的數據格式不一致” (D15) 等, 見圖12。發現的760個質量問題在八個維度上的分布情況見圖13, 其中正確性問題突出, 占32%, 其次是完整性問題, 占30%。
圖12 哈爾濱市存在的主要臟數據類型 (前10名)
圖13 哈爾濱市各維度質量問題的占比
3.5 三地對比
從全部被調查數據集的五個方面:無問題的數據集個數占比、有一個問題的數據集個數占比、有兩個問題的數據集個數占比、有兩個以上問題的數據集個數占比及平均一個數據集的問題個數 (問題個數/數據集個數) , 對三地進行對比, 結果見表4和圖14??梢? 總體上北京和上海的數據集質量狀況相當, 要好于哈爾濱。
表4 三地各類數據集的占比
圖14 三地各類數據集占比的對比圖
進一步, 從表1選出嚴重影響用戶可用性的兩組六類質量問題:“正確性”下的D10 (不合理值或錯誤值) 、D11 (列與列的值的位置相互串位) 和D12 (出現亂碼) , “開放性”下的D26 (文件格式不是機器可讀的) 、D27 (數據不能被下載) 和D28 (不是原始數據) , 對比三地至少有一個質量問題的數據集個數的占比, 見表5??梢? 北京的“不可用”數據集的占比要明顯少于上海和哈爾濱兩地。
表5 三地“不可用”數據集的占比
需要說明的是, 由于方法 (見第2節) 的局限、技術手段的不足、數據過時及背景材料的缺乏等, 筆者不可能發現所有的質量問題 (特別是正確性問題) , 發現的質量問題其危害程度也會因用戶需求的不同而有差異。
4 對策建議
提升和保障數據質量是我國政府數據共享開放工程的核心工作之一?!丁笆濉眹倚畔⒒巹潯吩趶娀瘮祿Y源管理、推進數據開放部分指出, 要加強“數據資源目錄管理、整合管理、質量管理、安全管理, 提高數據準確性、可用性、可靠性”[34]。我國各級政府的開放數據政策文件對“數據質量”的規定包括數據校核、數據質量評估、數據生命周期的質量管理和數據弄虛作假行為處理等[35]。本文僅從借鑒各國先進經驗的角度, 提出以下可操作層面的對策建議。
4.1 發布之前的數據清洗
“數據清洗” (Data Cleaning) 是為提高數據質量而對數據進行預處理的過程[36]。數據倉庫裝載數據之前要進行數據清洗[15], 在大數據的質量管理中, 數據清洗也起到了關鍵作用[5]。在開放政府數據領域, 澳大利亞等在數據發布周期中引入了“數據清洗”環節[37], 用以實現各字段 (如日期、年齡和郵政編碼等) 的格式統一、空值補齊及非文本信息移除等, 見圖15。
圖15 數據清洗前后對比圖 (澳大利亞)
各級政府通過合適的技術、工具、規范和工作流程, 可以“清洗”表1中“正確性” (D9—D12) 、“一致性” (D13—D15) 、“完整性” (D17) 、“唯一性” (D20) 和“規范性” (D21—D24) 等維度下的10余種“臟數據”, 有效提升數據質量。數據管理部門將數據文件轉化為開放標準下的機器可讀格式 (如CSV、XML和JSON等) , 可以提升數據的開放程度, 解決D25和D26這兩個質量問題。
用來消除原始數據中敏感信息的數據脫敏技術, 可以有效防范隱私泄露問題 (D29) 。2016年9月28日貴州省質監局發布的《政府數據數據脫敏工作指南》地方標準[38], 規范了數據脫敏的方法、過程、技術原則和管理原則。北京對敏感數據, 如29家醫院的176萬個病例, 經脫敏處理后向特定用戶開放[39]。
4.2 采用標準規范
在數據清洗過程中, 需要標準規范指導“數據格式統一”等操作。愛爾蘭“開放數據技術框架”采用了30余項標準[40], 部分見表6。
表6 愛爾蘭采用的部分標準規范
我國各地也應遵循國家標準GB/T 7408和GB/T 12406等來規范“日期/時間”和“幣值”等數據的取值格式和內容。
4.3 質量檢查
新西蘭政府機構在Data.govt.nz上開放數據前要進行質量檢查[41,42], 包括開放許可、數據格式、更新時間和是否刪除任何個人身份信息等。美國交通部對開放數據質量的評價共有兩個維度下的10個問題, 滿分是35, 見表7[42,43]。
表7 美國交通部開放數據質量檢查表
英國和歐盟還建議用戶在使用開放數據前進行“質量檢查”[44]: (1) 數據是當前的嗎? (2) 多久更新一次? (3) 是否理解數據的字段和背景? (4) 了解數據的準確程度嗎? (5) 丟失的數據是如何處理的?等。
本文得出的“OGD領域臟數據分類” (表1) 的成果, 可以幫助政府部門設計“有的放矢”的數據質量檢查表。
4.4 提供完備的元數據
Sadiq S等[7]認為“開放數據質量”存在著三方面的挑戰, 即“對數據質量維度的共同理解”“支持用戶的質量感知”及“加強數據質量與使用之間的聯結”。W3C“最佳實踐”建議“以機器可讀的元數據向用戶提供質量信息” (BP6) [25]。美國的開放數據元數據方案引進了元數據項“Data Quality”, 取值為true或false, 用于指出數據集是否符合某一質量準則[45]。
元數據可以幫助用戶判別數據的時效性, 但需要足夠的元數據信息??梢越梃b的例子是世界銀行開放數據網站 (Data.worldbank.org) 提供了四個與時間相關的元數據項:“Periodicity Annual” (周期性) 、“Last Updated” (最后更新時間) 、“Update Frequency” (更新頻率) 和“Update Schedule” (更新計劃) , 足以讓用戶判斷數據是否是最新的。
5 結語
黨的十九大報告提出“推動互聯網、大數據、人工智能和實體經濟深度融合”的戰略舉措, 政府數據將迎來加快共享開放和深度應用的新時代。本文將視角深入到13個開放政府數據平臺的數據本身, 細致探查其中存在的主要質量問題, 歸納出模式層和實例層29類“臟數據”, 對北京、上海和哈爾濱三地進行整體分析, 統計出質量問題的分布情況。最后, 結合各國的實踐經驗, 筆者建議依據標準規范、通過“數據清洗”“質量檢查”等手段在數據發布過程中消除“臟數據”, 同時也要向用戶提供豐富的元數據信息, 以幫助其判斷數據質量。本文在研究中綜合運用網絡調查和數據分析等方法, 參照開放數據原則、標準規范和法律法規等, 在開放性和隱私泄露等方面發現了容易被忽視的質量問題。開放不等于高質量, 我國政府開放數據要成為權威的數據來源, 真正發揮應有的社會和經濟效用, 還需在質量保障和提升上付出巨大努力。
參考文獻:略