2017年2月15日國脈發布了數據基因系統,旨在為政府建立數據管理體系提供便捷、可靠的工具支撐,幫助政府梳理數據資產清單、統一數據口徑、建立數據標準、定位數據資源、分析資源關系、設計管理模型,從而更加有效的提升數據資產管理能級,實現數據驅動服務創新。
那么該如何理解數據基因?數據基因系統能解決哪些問題?價值究竟在哪里?本文從概念到問題再到實際應用場景,為大家詳細介紹數據基因系統。
如何理解數據基因?
DIKW體系認為數據(Data)、信息(Information)、知識(Knowledge)和智慧(Wisdom)之間是層層遞進的關系,從數據里挖到信息,從信息里得到知識,從知識里獲取智慧。
表1.數據、信息、知識、智慧四者比較

在這個金字塔體系中,我們認為數據基因位于數據層和信息層,它賦予數據特定的含義,與數據一起構成了我們認知信息的基礎。

圖1.數據基因在DIKW體系中的位置
實際上,我們認為數據基因系統是管理系統的系統,從業務出發,到應用系統、再到數據庫、數據表,甚至到驅動服務,是數據大管家,實現從管網絡、系統到管數據的躍遷。
解決哪些問題?
· 缺乏完整、統一的信息資源體系
目前各個地方開展信息資源目錄體系建設工作,往往存在部門提供什么梳理什么,部門中很少存在某個人員完全掌握該部門信息資源,需不同科室之間進行調研、梳理,通常存在不清楚自己部門到底有哪些、不清楚其他部門有哪些信息資源,缺乏完整、統一的信息資源體系。
· 應用系統建設分散、數據關系混雜
各級地方政府和部門在開展信息化建設時往往各自為政,各自建設應用系統,沒有構建統一的基礎信息平臺,形成了許多信息孤島。由于缺乏統一的信息系統建設標準,造成各個信息系統的數據口徑不一致,系統、數據之間的關系不清楚,使整個信息系統構架中數據的采集、存儲、交換、加工、利用等各部分間不能循環互動,系統中的數據無法有效共享,造成了信息資源利用率低。
· 數據不一致、不準確
在以數據交換共享時,遇到的最大問題就是數據不一致和不準確,舉幾個實際例子:
1、某系統個人信息的姓名是20位,另一系統的姓名是30位,在數據同步的時候就會出現無法同步的問題;
2、一個系統數字0代表男、數字1代碼女、數字2是未知,另一個系統字母M代表男、字母F代碼女,這是一個代碼不一致問題;
3、在不同系統中存在“機構名稱”、“單位名稱”、“公司名稱”,不知道是否為同一個含義;
4、如果是同一個企業,某個系統里面編碼是0001,另一個系統里是0002,其實代表的是同一條數據。
· 數據標準管理框架缺失
目前很多部門的應用系統一般是建立在數據倉庫或基礎數據庫基礎上,數據積累已有一定的規模。但由于缺乏統一的數據標準規范,同時缺乏數據基于業務的理解,導致新建或改造升級的系統建設缺乏標準先行的原則,難以實現數據標準“循序漸進、不斷完善”的要求。
數據基因系統的價值在哪里?
· 快速建立信息資源體系
數據基因系統對比篩選出城市核心業務部門的核心業務的信息資源建立整個信息資源體系建設的模板庫,通過模板庫城市各單位可直接查閱相關數據元、信息資源模板,以直接沿用或是自定義修改的方式對模板進行選擇性的編目,達到各部門政務信息資源快速梳理、信息資源體系快速架構的目標。

圖2.模板設計
· 建立數據資產地圖
數據基因系統通過對城市機房、服務器、應用系統、數據庫等數據資產的梳理,建立部門數據資產清單,通過系統建立之間的相互關系,理清楚系統與系統之間、系統與數據庫、表之間、數據與數據之間的關系,實現數據-數據表-數據庫-應用系統-服務器-機房(云)的關系展現,建立部門數據資產地圖。

圖3.資源關系分析
· 輔助數據質量問題分析
通過數據基因系統數據元池的建立,梳理分析各部門、各應用系統中出現的相同的、近義的數據字段,通過分析其頻率、數據定義及數據相互之間關系(數據來源、數據流向等),了解各應用系統之間數據標準體系的建設情況,輔助數據質量問題分析。

圖4.數據元關系分析
· 輔助數據標準的落地
通過對各部門、各應用系統數據元池的清洗比對,篩選出各部門共性、關鍵的主數據,建立涉及核心數據的標準字段池,對字段的命名、格式、長度等屬性進行規范,依托標準數據元池進行信息資源信息項的編目,嚴格控制新增字段,實現共性數據元的統一標準規范,推動數據規范的落地執行,建立數據模型標準化定義映射,推進數據標準化規范的落地實施。

圖5.數據元池管理
· 輔助系統開發運維
數據基因系統提供相關數據庫、基礎庫、主題的模型設計功能,實現不同系統建設需求、應用場景下,通過標準數據元池、信息資源的組合構建應用模型,圍繞構建的模型可以實現快速構建應用系統數據表結構設計。當各部門新增需求或者系統上線維護后提出修改時,可通過數據基因系統查看現有系統的結構,設計新的數據結構或修改數據結構來輔助系統開發運維。

圖6.模型設計服務
總結
目前隨著政務大數據的發展,政府對數據標準化管理的需求正日益增加,未來數據基因系統將是連接業務、數據、系統與服務的核心基礎設施,可擴展的數據基因系統將能夠產生更多更有價值的應用場景。
作者:國脈信息資源研發中心副主任 王路燕
作者:國脈信息資源研發中心副主任 王路燕