在社會轉型的緊要關頭,中國,作為正在趕超發達國家的發展中國家,被歷史賦予前所未有的機遇。
這是涂子沛在其新著《數據之巔》中的一段話。涂子沛是全球知名信息管理專家,他所認為的"中國機遇",指的是大數據。
2012年,《大數據》一書將大數據概念由專業性領域推向了公共話語空間,時任廣東省委書記汪洋曾經向省里從事財政工作的干部推薦此書。"大數據"這個帶有技術性的詞匯,也逐漸被普通讀者所了解,作者涂子沛被業界稱為中國大數據概念的首要推動人。
涂子沛認為,伴隨智能社會的到來,地平線上正在出現一些新的方法來解決一些老問題,這些方法不是鋼筋和水泥,而是軟件和數據。中國應該增強數據的記錄和使用意識,把握并充分利用好這一后發優勢。
當前,中國大數據發展到了什么階段?具備哪些優勢?如何應對挑戰?本刊記者就此對話涂子沛。
大數據不只是"量"大
在中國,大數據被廣泛熱議至今已過兩年,其受關注度不斷上升,涂子沛多次應企業及政府部門的邀請作演講。他曾表示,大數據項目5年內會在中國遍地開花,現階段正逐漸步入應用領域。
《支點》:在您的印象中,大數據概念從最初傳入中國至今,業界以及輿論界發生了哪些變化?
涂子沛:2012年,國內對于大數據的討論非常少,我的《大數據》一書在國內首先倡導這個概念,引起了社會關注。2013年,大數據開始頻頻見諸報端,我自己也接到多場講座邀請,我能夠感受到中國社會對新技術和新理念的渴望?,F在,大家都在談大數據,知識傳播很快,還出現了很多關于大數據的應用。最近,上海市籌劃建立大數據管理局,表示要開放數據,這些都是很好的現象。
《支點》:不論是從概念普及還是從應用層面,您認為大數據在中國目前處于什么階段?
涂子沛:技術發展有一個過程,先是普及,熱了一段時間后會冷卻,然后進入應用的瓶頸期,繼而在應用層面突破之后,又會進入一個新的階段。中國社會關于大數據的概念普及階段已經完成,例如對于"大數據并不是萬能的"這樣的討論也不時出現,這是冷卻的標志,標志著我們要開始進入應用層面。
不過關于概念普及需要強調的是,由于大數據本身帶有技術特性,白領精英可能認識得深刻些,對于最廣大的普通公民來說,大數據概念可能還停留在詞語的層面,是被動認知,而不是主動獲取的。我在《數據之巔》中也提到,大數據的建設需要頂層設計,自上而下地進行。對政府官員來說,從認識層面就應該知道決策需要數據,管理需要數據,一切從數據出發。
《支點》:大數據的"大"如何理解?比較而言,和之前的數據挖掘與分析在商業中的應用有什么不同?
涂子沛:要知道,我們原來所說的數據大是指數據量大,是有很多很多數據,但大數據不只是"量"大,還包括多源數據、實時數據等。但最根本的,還是這種數據體現出來的大的價值。
多源數據是對同一個事情有多個源頭的數據進行多個維度的描述。舉個例子,北京師范大學有一位女孩,吃飯時用的錢很少,校方通過數據挖掘認為她有經濟困難,但實際上這個女孩在減肥。所以,我們需要多個源頭的數據互相印證,這樣就不會出現類似美麗的誤會。再如一個人的信用,交不交水電費、銀行貸款有沒有還,這些數據都來自不同部門,如果匯集起來,分析的對象就會更立體,更接近真相。
實時數據也很好理解,因為以前很多數據是滯后的,時效性不強,數據的效用就大打折扣?,F在技術上有很好的手段,馬上就能夠把數據記錄下來并拿出來用。從這個角度上看,大數據不僅是量大,而且還多源且實時。正因于此,大數據才有大的價值,才可以用以解決越來越多的問題。
變革商業和社會
從粗放型經濟到集約型經濟,再到精細型經濟,數據的力量逐步彰顯,它不僅升級了傳統商業模式,同時也在助力更智慧的社會管理。在涂子沛看來,大數據不僅僅是技術現象,而且能夠帶來商業變革和社會變革。
《支點》: 在您看來,何種機構有數據資產?政府和企業的數據資產分別可以用來做什么?
涂子沛:所有的機構,包括個人,都有數據,但很多數據是死的。所謂死的數據,例如紙張上的數據,沒有電子化,就難以整合、挖掘和應用,利用價值不大。
今天的電商,他們因身處互聯網時代而占據天然優勢,從商業活動的第一天起就開始數據累積,擁有大量的數據資產。以新媒體為例,他們的數據量是極大的,例如視頻、圖片、文檔等,都累積了豐富的數據。
不過,我們在談大數據的時候,一定不能過多強調"數據量"。比如,傳統銀行業、保險業的數據量都很大,只是他們普遍還沒有把數據利用好。這里有很多原因,比如它們長期是高利潤行業,并沒有驅動力讓他們意識到要把數據用好。
事實上,數據使用是基于精細化競爭帶來的結果,現在西方社會已慢慢進入到精細化競爭階段。雖然我們的經濟發展仍是粗放模式,但可以看到,現在很多企業已開始強調精準營銷和數據分析,這是個好現象。
《支點》:大數據如何升級商業模式?請您舉例說明。
涂子沛:首先,數據本身變成商品,就需要買賣和交換,這是數據擁有權和使用權的轉換。我在2012年就提到,淘寶、阿里巴巴的數據,是可以對外開放的,以收取年費的形式提供給有需要的人使用。這種形式在美國已經比較成熟了,商家將數據開放給第三方使用。比如一個小企業想貸款,它需要證明自己的收益很好,收發快遞的多少可以從側面證明其收益情況,它可以授權銀行去美國的UPS(注:美國一家全球性的快遞公司)查詢它收發快遞的數據記錄,那么銀行就可以到UPS去查,但銀行需要付費, 這時候數據和使用權就產生了經濟價值,新的商業模式就出現了。
《支點》:據您了解,國外對于大數據的應用在哪些領域更為顯著?中美發展的差距在哪里?
涂子沛:大家知道,很多國家都已經將大數據發展上升到國家戰略層面,例如美國在2012年就提出了大數據戰略。目前在中國,雖然廣東、上海等部分省市已經在大數據方面有所行動,但整體來看還沒有太大的動作,這應該是政策層面的差距。
在科技水平方面,目前中國使用的數據分析軟件很多來自于國外,國產的并不多,例如在數據可視化方面,中國就還沒有一個成熟的國有品牌。
社會應用方面也存在差距。國內以前不太注重數據記錄,也不太注意使用數據,沒有把數據真正當作決策依據,而是認為符合自己利益的時候,才拿出來用。對大數據來說,是把它當作服務于決策的工具,還是把它當作決策的基礎和依據,兩者的內涵完全不一樣。
法律完善雙刃劍
2013年,美國棱鏡門事件刺激了全球數據安全的神經。對于許多個人來說,亦開始有消費者逐漸厭倦其消費信息的"被挖掘"。信息技術的發展的確極大降低了信息存儲成本,個人的點滴信息隨處都留有痕跡,形成數據影子。人們在享受技術帶來便利的同時,也開始感到莫大的恐慌,究竟是誰動了我的數據?
《支點》:有一種觀點認為,大數據概念在某種程度上被神話,數據的質量和不開放都將成為其發展瓶頸,您如何評價?
涂子沛:我一直在做數據開放的推動工作,倡導政府開放數據。政府數據是整個社會的基礎數據,例如人口數據、天氣數據、地理數據等都是最基本的信息來源,政府應該拿出來開放給整個社會使用。開放數據不僅是政府要做的工作,商業機構也應開放他們的數據,有選擇地向用戶開放,例如之前說到用戶利用消息記錄去分析自身的消費行為。
數據記錄了人的行為,利用數據記錄就可以進行行為分析,從而可以優化消費行為,甚至包括飲食結構,例如我上個月的卡路里是不是太高了等等。你需要把這些信息提交給專家分析,這自然就催生了第三方機構。但這個過程還需要法律的完善,也就是說數據在什么情況下可以開放,哪些數據不能開放等。
《支點》:在這個過程中,如何在數據使用和隱私權的保護上達到平衡呢?
涂子沛:這是一個雙刃劍。公司收集你的行為數據,因此可以給你推送你需要的產品,你能從中得到好處,但同時你的隱私遭到侵犯,該怎么辦?最后的演變一定是商家要把這個權利交給用戶,讓用戶來選擇全部關閉還是接受對你的數據進行分析?如果用戶有選擇權,在他同意后,商家才能對用戶數據進行分析。這需要商家對用戶的尊重和自覺,但商家要追求利益,尊重和自覺不會從天而降,大家要對他們說"不"。 只有推動立法者立法,才能根本解決這個問題。
《支點》:無可否認,大數據時代帶來了新的發展機遇,您認為中國現階段需要怎樣做才能抓住機遇?
涂子沛:數據正變得越來越豐富。如何統籌整合這些數據,對每一個國家都是考驗。面對海量數據,我們需要制定數據標準,需要建立數據治理的部門,有了標準和部門,才能對數據進行有效統籌。遺憾的是,我們的政府還沒有很好地做數據統籌工作,數據仍處于相對隔離狀態。
其實,在利用大數據方面,中國具有很好的后發優勢。舉個例子,美國用了幾十年的努力,才建立了全民信用制度。今天,因為客戶的交易流水數據,阿里巴巴在短短幾分鐘內就可以決定是否發放一筆貸款。充分利用無處不在的數據,中國的全民信用體系就可能在較短時間內以較小成本建立起來。
問題的關鍵還是要做好頂層設計,例如需要建立一個數據治理部門,來統籌制定各行各業的數據標準。