涂子沛在接受共識網專訪

  嘉賓簡介:涂子沛,信息技術從業者,多家報刊網站專欄作家,華南理工大學公共政策研究院副教授。曾在國內的公共部門和信息領域工作十年,后辭去公職赴美讀書,獲卡內基梅隆大學信息技術科學碩士、公共管理碩士學位。新著有《大數據:正在到來的數據革命》一書,已由廣西師范大學出版社出版。

  訪談時間:2012年7月2日下午

  訪談地點:廣西師范大學出版社(北京貝貝特出版顧問有限公司)

  一、大數據:正在到來的數據革命

  楊傳銀:您寫《大數據:正在到來的數據革命》這本書的初衷在哪里?您說這不是一本純粹談技術的書,而是以技術為背景探討人和社會的關系的書,這個觀察和寫作的角度是從什么時候開始建立的?

  涂子沛:這本書應該說是時代浪潮的一個產物。我是理工科出身,大學畢業后我的第一份工作就是數據庫程序員。十幾年之后,我在美國的第一份工作是數據倉庫程序員,從數據庫變成了數據倉庫,這也是我們從小數據時代進入大數據時代的明證。但更巧的是,十幾年前,我在中國為政府部門開發數據管理的軟件,現在在美國的工作,恰恰又是為美國的政府部門提供數據管理、分析的解決方案。這是一種“輪回”、也是一種“上升”,這種經歷讓我找到了一個很好的角度來觀察、體驗、分析兩個不同國家如何解決、處理一個相同的問題。無疑,中國在數據收集、使用和管理的各個方面,和美國相比都存在差距。但我發現,最大的差距還是意識和態度。我們的傳統文化,長期重定性、輕定量;重觀點、輕數據。在現實生活中,數據也往往成為一個任人打扮的小姑娘,得不到應有的尊重,數據的公信力嚴重不足。但正在到來的大數據時代,數據的作用將前所未有的凸顯,數據將成為國家競爭的前沿、企業創新的來源。這些傳統和現實的不足,是我們中國社會邁進大數據時代的制約和障礙,我們應該如何應對?對這個問題的思考,催生了這本書。

  這本書首先是一本信息時代的科普讀本。但我想寫的,不僅僅是一本科普書。1997年,我在廣東省邊防局開發“反偷渡信息管理系統”的軟件,那時候我就明白了,要編好一個程序,就必須是商務過程的專家。其實,技術工作永遠是從業務中來、到業務中去的,技術歸根到底是為人和社會服務的。這個時代,我們好比身處一列快速奔馳的列車,技術就是它的發動機,我覺得幸運的是,作為信息技術的從業者,我在這臺發動機的核心部件上工作過,程序員把自己對業務的理解、自己的理念轉化為軟件,來改造世界。但這不夠,因為發動機再強大、程序員再能干也不夠,火車要開到哪里去,是政治家、企業家在掌舵把航的。

  基于這些體會,我努力嘗試在這本書中融合技術、政治、商業三個方面的視角。而且,這本書談的是“數據革命”,我想任何一種革命,首先都是社會層面的事。

  二、大數據時代會使不理性的人更不理性

  楊傳銀:大數據時代有沒有可能使不理性的人更不理性呢?

  涂子沛:有可能。這是我下一本書計劃要討論的內容。下一本書,我想探討大數據時代潛在的弊端。這個時代,是個數據奔流的時代,信息無處不在。一個信息開放社會給不理性的人帶來的問題是,可能導致他“信息過度窄化”,例如,信息開放的時候,一個偏激的人更容易找到同類,然后放大異常,會變得更加偏激,而在一個信息流動沒那么快、相對封閉的時代,偏激的人像是一個“孤島”,他更有可能會懷疑自己。仔細觀察信息時代中的人的境況,你會發現知識水平越高的人往往越頑固,這是因為他更知道怎么去獲得支持自己的信息、形成自己的氣場。

  三、數據開放的界限

  楊傳銀:在數據開放的過程中,政府、公司和個人可能是不一樣的,這個數據開放的界限在哪里?

  涂子沛:目前,數據開放已經形成了一股潮流。在各個國家數據開放的實踐中,基本形成了兩個界限,第一就是不危及國家安全,第二是不能侵犯公民隱私。當然,對商業組織來說,還要顧及它的商業利益。

  在這幾個界限之外的數據,都應該開放,而且是免費開放,其中的道理也很簡單,政府收集了數據,用的是納稅人的錢、收集的也是關于納稅人的數據,自然要向納稅人開放。你不能用我的鉗子、撥了我的毛,再賣給我收錢,對不對?英國社會這方面的步子邁得比美國還大,一個新的名詞:公民數據權,也應運而生了。這是公共領域,商業領域,數據開放也是一個大的趨勢,我們也能看到各種各樣的商業數據正在走向開放。

  對個人來說,關鍵在于要有能力、渠道、權利去管理和自己身份相關的信息,你可以決定什么時候公開,以及用什么方式公開和自己相關的數據和信息。換言之,你個人對自己的數據必須要有控制權。因為這關系到你的隱私權。

 

  四、中國人有不尊重數據的傳統

  楊傳銀:現在國內對數據的重視您關注得多嗎?據說國內可能是對內做統計,但是對外創造數據。

  涂子沛:我很關注,但總的情況是,不盡人意。我在書中詳細闡述了,中國人缺乏尊重數據的傳統。我們現在好一些,認識到了數據的重要性,但還是有很多問題,集中表現在,數據普遍缺乏公信力。發布數據,是一件很嚴肅的工作,我在書中曾經提到,2000年美國國會甚至專門通過了《數據質量法》來確保政府發布數據的質量。這個法律規定,政府發布的數據,其產生方法必須是透明的,也就是說,要說清楚,數據怎么來的,每一個數據,都有要有“出生證”,說明其產生的方法,這樣做了,這個數據就是可以“復制”的,這意味著,個人可以通過同樣的方法,獲得和政府同樣的數據和結論。美國的這些經驗,我認為,是值得我們借鑒的。

  此外,我們還要回到剛剛談到的開放數據,一個數據是孤立的、難分對錯,一片數據才可以互相支持、互證真相,所以,要提高數據的公信力,最好的辦法就是開放數據、讓老百姓獲得一個數據背后的一片數據。

  我們社會常見的利用數據弄虛作假的問題,可以總結為幾個方面:一是一葉障目,片面解釋一個數據,這其中也可能是別有用心、故意為之;二是人為的控制數據的收集和統計過程,使結果產生扭曲和偏差;三是暗箱操作、修改數據;最后就是無中生有、“創造”數據了,這是最糟糕的,因為假數據比沒數據對社會的危害還要大。

責任編輯:admin