2018年11月28-29日,由中國社會科學院信息化研究中心和北京國脈互聯信息顧問有限公司聯合舉辦的“2018智慧中國年會”在北京隆重召開,以“數據賦能 智慧中國”為主題,共有來自全國部委、省、市、區縣電子政務、智慧城市、大數據主管領導、行業專家、企業代表、主流媒體千余人參會。
本文系北京倉頡數源網絡有限公司副總經理黃磊11月28日下午在“2018智慧中國年會”分論壇—“數字經濟發展與智慧城市建設研討會”上關于“倉頡數源數據元公共服務平臺發布”的演講,內容通過現場速記整理,未經本人審核。
【北京倉頡數源網絡有限公司副總經理 黃磊】
大家下午好,今天我為大家介紹一下倉頡數源數據元公共服務平臺。
一、數據市場正在極速擴張,數據標準化差制約大數據應用
當前,全球大數據市場規模達454億,中國達到280億。復合增長率快速增長,數據世界已經來臨。數據市場在急速擴張,在這樣大環境、大市場背景下,很多政府和企業都在做數字方面的戰略轉型。從某一點我們可以看到目前存在的一些問題。
1)數據需求缺乏規劃,導致數據信息共享困難。
2)各政府部門數據標準定義依據不同,導致數據統計口徑無法匹配。
3)業務口徑不統一,導致各業務部門間溝通發生困難、發生歧義。
這些問題的根本原因則在于數據不標準,已經成為制約產業健康發展的最大障礙。因此,要做好數據標準化工作,比如字段標準化、對象定義標準化、代碼標準化、業務指標標準化、數據元標準化等等。
二、大數據發展需要夯實數據元基礎
統一規范的數據元是數據標準化的基礎,本質上來講數據在某一角度是對其還原,還原某一場景。數據元作為對數據的一種“元”描述,是數據的最小單元,其數量多少、質量好壞直接影響數據“語義”表達,進而影響數據傳遞、流通、交換、融合、共享等……數據元作為數據的“底層建筑”,在數據統計中具有基礎地位,基礎不牢,地動山搖。因此我們要做好數據統一規劃中的數據元,因為它是數據標準化的基礎,而大數據發展也需要夯實數據元基礎。
三、政策環境高度重視數據標準化工作
國家政策多方面的引導工作,也表明數據元標準化工作的重要性。十九大上,習近平總書記提出要以數據集中和共享為途徑,建設一體化的大數據中心,推進技術融合、業務融合、數據融合,實現跨層級、跨地域、跨系統、跨部門、跨業務的協同管理和服務。同時,在《進一步深化“互聯網+政務服務”推進政務服務“一網、一門、一次”改革實施方案》中提到了“實現政務服務同一事項、同一標準、同一編碼”,各級政府要持續完善數據資源目錄,不斷提升數據質量;這些都是為了做好數據元標準化工作。有些城市、部門已經發布了相關的數據元標準、數據元目錄等。
四、數據元標準化是數據治理難點痛點
做好數據標準要做好數據元標準化,其中有很多重點、難點,比如:多網并存、信息孤島、信息煙囪、二次錄入、數據壁壘等。而這些現象產生的根本原因是什么呢?就是數據元沒有做好,導致了標準低、交換成本高、數據混亂現象,使得跨地區行業融合困難。相信大家會提出很多問題。比如,數據元標準文件和標準數據元從哪里獲取呢?行業標準怎么設計?如何建設公共數據元池、標準數據元池?數據元作為資產來說如何管理?如何進行匹配?各式各樣的數據元需求都冒出來了。解決以上問題,我們需要很多的專業的服務機構,也需要數據元的服務平臺,而倉頡數源做的就是這個事情。
五、一站式需求呼喚數據元服務平臺
倉頡數源作為數據元綜合服務商,是構建數據元行業規范,助力國家數據工程,為全球數據體系提供高質量、標準化的服務,為數據植入高品質基因,為數據質量再造提供整體解決方案,為全球數據自由流通構建一致性語言體系。構建全球數據體系的語言詞典——數據元字典。倉頡造字,而我們則在數據世界里做好元詞典。
1)平臺介紹
倉頡數源所打造的平臺--數據元公共服務平臺,集數據、服務、平臺技術于一體。整合數據元產業鏈資源,打造由數據元消費者、提供者、服務者、建設者、開發者、協作者、商機提供者等構成的數據元線上閉環生態體系和服務交易集散地,助力數據元供需對接和應用創新。政府、企業在做數據治理時、進行共享交換時、提升數據質量時,軟件開發商在提供數據質量標準時,倉頡就是一個很好的工具。數據服務平臺是首選的服務平臺,我們可以看到一些界面化的欄目,包含數據元、數據元的服務、知識體系、平臺的服務等等。這是某欄目下相關的指引(見下圖),有非常多的項,對每一個數據元有很多個字段,包括編號、中文、英文名稱、地域書名、分類、原始數據類型是什么、現在數據類型是什么、數據格式是什么、數據元應用場景在哪里、相關值域有多少、來源于哪個標準文件、發布機構是哪些,每一個數據元有一個詳盡的字段去描述。
【倉頡數源數據元公共服務平臺產品欄目圖】
2)產品構架
整體架構上面,數據源自各行業、國家頒布的各項數據元標準文件,在平臺上產生的數據元和從網絡上采集到的數據元整理,經過數據元池清洗、比對,做到標準數據源池。功能層做到采集、建模、清洗、校驗、分析、制定標簽標注等工作。同時,充分利用知識圖譜打造數據元圖譜,實現連接和治理。數據元的應用場景有很多,我們還運用人工智能技術做了智能的標簽體系。
【倉頡數源公共服務平臺產品架構圖】
3)產品價值
倉頡數源產品的價值主要有四點:推動數據源標準規范的落地和優化、助力數據問題定位和數據質量升級,促進數據元資源集聚、流通與應用,實現海量數據元存儲和有效管理。
4)業務體系
目前平臺上已經有幾十萬的數據元及值域。主要的服務體系是采用平臺+數據+咨詢的服務模式,除了平臺,我們會提供大量的數據元,提供相關產業的數據元標準API接口,定制數據元池。還包括數據元的質量檢測服務、標準輔助設計、在線建模、軟件標準認證、智能建庫、池庫制定,共同構成一個核心服務體系。
每一項服務都針對很多問題、包含很多功能。一是質量檢測服務。主要是根據一些配置、規則、方法、指標對數據元資產進行在線監測,包括數據元統一傳輸情況、標準化程度、完善率進行可視化的結果呈現,幫助企業對自己數據源質量進行檢測。二是池庫的定制服務。很多企業、客戶有不同的需求,在池庫里可以選取特定行業進行總結和比對,從而進行關聯,制定個性的數據元池。三是建模服務。通過大量的政府數據元、行業數據元,借助平臺以標準字段自定義創建一些契合自身需求和業務的數據元模型。特別是政務數據源有很多模板,可以從里面調取、刪選、更新從而形成自己的一套模型。四是軟件數據元標準檢測認證服務。當我們的軟進企業通過數據元標準檢測認證之后,當你去參加政府招標、國企軟件開發項目時,大家統一的使用某一行業規范的數據元之后,與其他系統之間的交換、對接將會更容易、更暢通、更有說服力??梢哉f我的系統、包括字段,是按照某某行業的相關標準,每一個字段都有相關的標準來源。五是數據元在線標準設計服務。很多的企業、行業龍頭在做相關的標準的研究和創新,我們通過平臺可以輔助做設計,定制符合特定主題的數據元標準。
5)應用場景
豐富多樣的應用場景??焖俳I蓴祿A庫,通過對數據元的采集整理,結合建庫的需求,按照數據元組合方法,快速建立各行業基礎庫,輔助構建標準核心數據元池。通過清洗比對、標準化處理等,構建自己核心的數據元池,為行業數據的評估清洗標準化、事項梳理標準表單建設貢獻力量。很多政府項目都在在做表單梳理,我們也參與了其中。做好數據元的統一有助于我們做好多表合一、供需對接等等,在提升事項梳理效率和標準化程度上非常有幫助。在此我們制定了幾個標準化的檢測,還有基于數據服務創建應用模型,主要了解各方的制定需求。當前我們結合了國脈的數據基因一起協作參與了很多城市事項的梳理,包括標準數據元池的建設,為政府和企業提供了很多的公共數據元池。
倉頡數源數據元公共服務平臺就介紹到這里,下面跟大家聊一聊未來。應該說未來已來,組織與組織之間一定是數據之戰,企業和企業之間必然會進行更多的數據融合和交換,一定會進行更多的跨行業的數據交流。在這里希望大家記住倉頡數源,用好這個平臺,用好數據元,解碼數據標準,解碼數據世界的未來。
附:國脈,是領先的大數據治理和數字政府專業提供商。創新提出“軟件+咨詢+平臺+數據+創新業務”五位一體服務模型,擁有數據基因和水巢DIPS兩大系列幾十項軟件產品,長期為中國智慧城市、智慧政府和智慧企業提供專業咨詢規劃和數據服務,廣泛服務于信息中心、大數據局、行政服務中心等政府客戶、中央企業和金融機構。自2004年成立以來,已在全國七大區域設立20余家分支機構、5大技術研發基地,服務客戶2000余家,執行項目5000余個,連續多年開展中國政府網站、智慧城市、互聯網+政務、營商環境等公益評估評選活動。被業界譽為中國信息化民間智庫知名品牌、電子政務優選咨詢機構,國內首倡智慧政府理念,首創智慧城市、數據治理、互聯網+政務評價體系,首推數據資產普查、全口徑數據資源目錄、數據元標準化、數源確認與供需對接、最多跑一次事項梳理、營商通等產品,信息資源編目、公共數據普查等業務全國占有率和影響力名居榜首。
注:獲取更多會議信息及嘉賓演講資料,歡迎登錄“2018智慧中國年會官網”。
現場照片直播分享: