2017年7月26日下午,“2017政務數據治理與創新高端研討會”在北京梅地亞中心多功能廳隆重召開。本次研討會由中國信息通信研究院、中國社科院信息化研究中心、國脈數據研究院聯合主辦。國脈海洋常務副總經理王路燕出席會議并發布了《國脈數據基因3.0產品》,這也是本次研討會的一大亮點,她提出數據基因3.0能夠實現資源匹配、事項標準化、考核評估扥功能,同時通過配置事實目錄,更新理想目錄,促進政務數據治理與創新。
國脈海洋常務副總經理王路燕
以下是會議現場發言實錄:
尊敬的各位來賓下午好,在這里分享一下國脈政府數據資產管理的經驗,剛才也聽了多位專家關于大數據具體應用的觀點,數據基因產品作為底層基礎性工作,主要做信息資源梳理、規范化等工作。
先解釋下“數據基因”名字的由來。該詞來源于生物上的基因,生物學中的基因是由四個堿基構成,這些堿基可以形成復雜的DNA,而數據基因是由0和1構成,通過不同組合,可以表達很多不同的信息,這就是生物基因與數據基因的共同之處。
數據基因,一方面表達了數據的具體特性,另一方面描述了不同數據之間的關聯以及從舊數據到新數據的進化。
在數據基因產品從1.0(2017年2月15日正式發布)到3.0的發展過程中,國家不斷推出新的政策文件,并開展了政務信息資源目錄國家試點工作。我們緊緊圍繞這些變化并結合實踐工作來完善數據基因產品。數據基因產品從1.0到2.0只用了短短兩個月,而3.0 是隔了半年才推出的,我們充分結合了各地的實踐工作,該產品不是僅僅提出概念化的東西,還有各地經驗的匯總。
一、三個版本發展歷程
?。?)數據基因1.0:資源模板、資產登記。我們首次提出“資源模板”。
?。?)數據基因2.0:資產普查、數據元標準化、資產地圖、公共數據字段池、數據模型。
?。?)數據基因3.0:數據元標注、事項梳理、數據治理、理想目錄與事實目錄?!袄硐肽夸浥c事實目錄”是數據基因3.0的新特點。
二、應用案例
?。?)淮安市信息資源梳理
這是第一個落地應用的數據基因案例。借助信息資源模板,在一個月內快速梳理出淮安全市82個部門的信息資源,通過數據基因系統,由各部門進行核實、確認,快速建立全市信息資源體系。
?。?)浙江省全口徑公共數據資源梳理
這也叫“公共數據資源梳理”,因為它還包括企事業單位,并非只包括政府單位,其范圍很大。依托17年電子政務項目預審的工作,開展全省項目獨立預審單位的信息系統普查、“全省最多跑一次”事項普查(責任清單、權力清單)、信息系統實有數據普查等,同時借助系統開展事項標準、數據標準等工作。
?。?)貴州省數據資產登記
根據《貴州省政府數據資產管理登記暫行辦法》,開展貴州數據資產登記工作,對信息系統、硬件資產、軟件資產、數據資產(圍繞管理、保存、存儲等角度)進行梳理,同時建立系統、硬件、軟件、數據之間的關系圖譜。除此之外,還有海南、四川、廣東、寧夏等省。
三、數據基因3.0新功能和新價值
1.資源匹配
這也是數據基因3.0不同于數據基因2.0的地方。其應用主要包括模板匹配、數據元標注、標簽化、預設模型等四個方面。
?。?)模板匹配
系統上擁有豐富的模板資源,現在有省、市級部門各70個,標準化數據元10000項,核心數據集2000個?;谶@些模板資源,部門登錄后,系統可進行自定匹配,推送本部門的資源模板。用戶也可以采用訂閱模式,訂閱某類資源模板。
借助關聯導入功能,以任何一個結點為單位,能夠建立數據元、數據集、業務事項之間的管理,并能以任何一個為單位進行關聯。
?。?)數據元標注
從業務、系統抽取過來的數據項,可進行匹配設置,根據匹配規則在數據元模板中依據中英文名稱進行快速精準匹配。完全匹配上的可直接填充模板中的數據元相關內容,明確數據元數據類型、長度、精度等描述。具體包括以下幾點:
一是規則制定。模板資源中擁有數據元近20000條,采集了公安、衛生、交通、民政等領域的數據元標準。
二是精準匹配。對業務、系統產生的數據元進行匹配設置,可快速在模板庫中找到匹配的數據元。
三是快速填充。對數據元的中文名稱、數據類型、數據長度等進行描述并快速填充。
?。?)標簽化
目前在做政務信息資源梳理時,最困難的是數據分級分類問題,國家政務信息資源分類為國家基礎信息資源、主題政務信息資源、部門政務信息資源。小的數據元可以做標簽,未來做某一專題時,可以在這些標簽基礎上設計主題,如輸入“教育”,關于此專題的內容就可以全部檢索出來。
可以從三個方面進行標簽化:
一是按照業務條線進行標簽化,包括教育、科技、司法、農業、地稅、海漁、工商、旅游、綜合治理等業務條線;
二是按照數據領域進行標簽化,包括經濟建設、環境資源、城市建設、道路交通、教育科技、文化休閑、民生服務、機構團體等數據領域;
三是按照資源主題進行標簽化,包括人口、法人、空間地理、信用、證照等資源主題。
?。?)預設模型
數據基因3.0產品預設模型有人口庫模型和法人庫模型。
一是人口庫模型,圍繞人的生命周期,預設人口庫信息資源模型,涵蓋人的基本信息、學籍信息、婚姻信息、死亡信息、資產信息、殘疾信息、住宿信息、宗教信息、生活信息、參保信息、文化信息、交通信息等。
二是法人庫模型,圍繞法人的生命周期,涵蓋法人基本信息、財務信息、資質信息、法人及股東信息、稅務信息、業務信息、榮譽信息、監管信息等。
2.事項標準化
做事項標準化的原因是為了要把事項做具體,每個數據項權威來源部門是哪里?表格數據項是什么?字段來源是哪里?要將每一事項追蹤到源部門。
實現事項標準化,首先需要部門、事項規范性編碼,其次要做到證照、批文的規范化、材料的規范化等,最后是確認數據源部門。我們提供基礎字段池,如人口、法人的權威字段,能夠做到所有的材料規范化并確認材料來源部門等。
3.數據治理
數據基因3.0產品提供數據治理功能,主要體現在考核評估、診斷、項目管理三個方面。
?。?)考核評估
資源梳理是一個長期過程,對共享方式、置機方式(前置機方式、EXCEL方式等)、報送范圍、指標設計等都有要求。數據基因系統提供數據治理模塊,針對不同地方實際需求,設計數據治理評估考核體系,通過人工與系統評估相結合的模式,對各部門信息資源情況進行考核,從數據管理的不同維度出發,促進數據資源管理可持續發展。
?。?)診斷
審查信息系統,對字段設置、租用機房、系統未上云、僵尸系統(依據適用范圍而定)、數據未歸集系統(數據點對點共享)、孤島系統等進行診斷。根據診斷規則的設定,系統自動對所有部門信息系統進行診斷,并給出診斷意見,同時,診斷意見可以為數據管理部門在進行信息化新建項目、運維項目審批時,提供參考性意見。
?。?)項目管理
項目管理主要包括兩類:一是新建項目,需提供新建項目的數據說明、新增數據等。二是延續項目,要關聯相對應的應用系統名稱,讀取該應用系統的診斷報告,診斷該項目目前不適合延續或再提供運維費用(設置考核指標)。
4.理想目錄-事實目錄
理想目錄是按照部門的職能要求應該具有的數據,事實目錄是最終體現在共享交換平臺上的數據,事實目錄是基于理想目錄對接過來的,二者是相互補充、相互融合的過程。數據字段是根據理想目錄進行勾選并細化,最終會出現理想目錄與事實目錄的對比表,通過該表格,可以看出事實目錄中沒有的理想目錄,主動找出原因。
四、下一步計劃
一是建設數據元服務平臺,整合現有的模板、標準化的資源,由各個用戶參與數據元標準化工作;
二是開放知識圖譜研究工作,目前在研究探討中;
三是開展多領域應用,研發應用不同行業的版本。
五、優勢
國脈擁有“咨詢+產品”的優勢,在信息化咨詢服務中可以提供最好的產品,在產品中可以提供最好的咨詢服務。