還有誰會比《大數據》一書的作者來談大數據更合適呢?大數據時代作者維克托·邁爾·舍恩伯格近年來首次訪華,在魔都獻出他的來華首次演講。在他看來,大數據的未來不用著急進行數據聚焦,及時做好數據搜索,轉變數據運用理念,才是真正的利用大數據為自己所用的正確方式。

 
  以下是舍恩伯格演講實錄:
 
  非常榮幸能出席今天的盛會,今天上午我們聽到了很多技術的演講,技術實際上給我們帶來了變革,這些變革也給我們帶來了一些前所未有的成功,比如在商業界,還有各個公司,無論大公司還是小公司,都給他們帶來了成功。在接下來的30分鐘,我想讓大家思考一下,數據實際上給我們帶來了工具,而這些工具給我們帶來了成功。但是我們要真正取得成功,還是要取決于我們利用這個工具的能力。這就需要我們要好好的了解什么是數據,還有未來的數據到底是怎么樣的。
 
  首先我給大家講一個有意思的故事吧。這個故事實際上是我的同事凱爾(音)所發現的。在美國的超市,很多年前他們銷售一些蛋糕,這些蛋糕有不同的口味,巧克力味、香蕉味、桃子味……這個蛋糕的尺寸大概是30厘米那么大,就像一個餡餅一樣。如果你問一下這些美國的超市,他們銷售的這些蛋糕當中,哪款是最受歡迎的銷量最好的,大家覺得是什么餡餅呢?答案是蘋果餡餅。但是如果你要真正去問他們是不是真的喜歡蘋果餡餅,實際上可能很多人并不是真的喜歡蘋果餡餅。為什么他們不是最喜歡蘋果餡餅,卻買它呢?因為想一想,它有30厘米那么大,那全家買一個蘋果派就夠了。那家里的所有人可以達成一致,他們起碼比較喜歡的就是蘋果派,即使蘋果派不是他們最喜歡吃的,但是他們可以吃,這個可以達成共識。因此很多年以來,世界上的這些超市,賣的派可能未必是人們最喜歡的口味,但是之后他們發現了問題所在,就是尺寸問題。如果你讓它尺寸變小話,每一個家庭可以不止買一個派,每一個家庭成員都可以買一個自己喜歡吃的口味。如果你把尺寸變一下,他們可能就不是買蘋果派,他們可以根據自己的口味買香蕉派、梨派、桃派,這個問題就很簡單了。
 
  其實很多年以來,這些超市的策略是不對的。就是尺寸的問題,而不是口味的問題,他們的尺寸太大了。之后超市進行了調查,問用戶到底喜歡吃什么口味的,用戶肯定會說我想要吃蘋果派,因為只有那個尺寸的蘋果派。我們一直做數據研究,在觀察周圍的環境,但是幾百年前幾千年前,我們看當時的世界,也在搜集數據。搜集數據,分析數據,是需要花費很多的時間的,有時候也是非常困難的,它需要做大量的工作,有時候也是非常昂貴的。但是我們可能用到的數據只有一小部分,很有限,因此我們之前擁有的數據規模是非常小的。大家可以想一下,我們現在的數據分析,或者是一些小的樣本。它們都是一些很小的數據。我們是把數據縮小到一定的規模,然后從這些小的規模數據上找到一些理論。當然了,那是小數據時代,也是我所成長的一個時代。
 
  但是現在一切都變了。我們現在搜集數據分析數據的能力越來越強了。而且現在搜集數據的成本也下降了。因此我們周圍一切都變化了。那這時候我們就需要改變自己的思維,因為我們所處的是大數據時代。如果我們找到新的方法,就可以有新的理念。
 
  在過去我們希望可以利用數據,來回答問題,首先可能先是假設,這就是一個問題,然后搜集數據,最后進行分析,這就是一個流程。首先我們從問題切入。最后這個問題可能會給我們帶來這個答案。那么這個問題,比如說大家最喜歡的口味的派是什么,是蘋果還是桃味的?最后我們拿到了問題的答案,可能就是蘋果派,我們就覺得蘋果派是最受歡迎的,但是反而我們得到了這個問題的答案是錯誤的。
 
  現在我們其實可以做一些改變,改變一下我們的方式,我們不是從問題開始著手,因為有可能我們的問題本身就是錯誤的。我們先從數據著手,然后從數據開始搜集數據,進行分析。然后通過分析,我們可以提出一些非常棒的問題。比如說這個派的尺寸,最合適的尺寸是什么,這是正確的問題。根據這個分析,我們可以獲得這樣的一個假設。最后我們可以得到問題的答案,就是我們需要一個尺寸合適大小合適的派。我給大家拍張照片,后面的兩位請微笑。好了,非常棒?,F在我就要做一個決定,我拍了這個照片,什么是重要的,比如說如果你是非常重要的,我們就聚焦在你身上,后面的人就變成模糊的影像,我可能決定你是我的焦點,我不能讓你成為一個模糊的影像?;蛘呤俏业慕裹c放在你這個人,那么你后面的人可能會變成模糊的影像,這意味著什么呢?
 
  我現在在照一個照片,我首先要清楚,我感興趣的事物是什么,人是什么。我的焦點在哪里,我需要知道這個問題,知道了這個問題之后,我才能知道答案。但是如果我現在不知道焦點聚集在誰身上,那怎么辦呢?實際上這個聚焦也是屬于小數據,如果現在你現在已經決定了你聚焦在誰身上,這個就是小數據,如果現在還沒有決定那怎么辦呢?大家可以看這張照片,有一個牙刷,后面是我四歲的兒子,可以看到這里牙刷是我聚焦的位置,我兒子就變得模糊了。但是現在我想改變焦點,讓我兒子成為焦點,那怎么辦呢?那我們這張照片實際上是用大數據的攝象頭來設想的,它實際上可以捕捉到各種各樣的數據,現在我們想要讓我的兒子變成焦點,我用這個大數據攝像機拍完了之后,就可以調節這個焦點,在牙刷和我兒子之間切換焦點,因為這個攝像機搜集到了所有的數據,不是小的數據,而是大的數據,因此我可以改變聚焦的位置。所以我們搜集所有的數據,不需要先定義問題,可以先把數據搜集起來,再聚焦問題是什么。也就是說如果你可以搜集到全面的數據的話,可以發現創新性的問題。而且你可能完全不需要回答這些問題。
 
  大家可能聽說過這個品牌,多林國(音),實際上這是一個學習的應用,你可以用Iphone或是安卓系統來學習外國的語言。非常有意思,而且很酷。如果有興趣的話,我也鼓勵大家使用這個應用,全世界范圍內有很多的人,每天都在使用多林國這個應用。我們使用數碼設備,來使用這個應用,這個應用實際上可以捕捉我們的數據,捕捉我們的信息,可以捕捉我們學習語言的習慣,而且進行分析。多林國(音)這個公司,西班牙語的這些人,他們學習英語的方法是錯誤的,他們學習順序是錯誤的,如果你可以改變一下這個順序的話,西班牙人學習英語的速度就會越來越快。實際上他們一開始不是為了回答這個問題而搜集數據,他們先是搜集數據之后,然后分析數據,這個問題就出現了。他們通過分析,他們就調節了一下西班牙人學習英文的數據,幫助他們更好的學習英文,因此取得了成功。大學為什么不用這種方法呢?為什么我的教授同事們沒有想到這一點呢?因為他們沒有數據,而多林國(音)公司搜集到了這些數據。多林國(音)一開始并不知道怎么使用這些數據,但是他們逐漸逐漸的發現了可以如何應用這些數據,提升了用戶的體驗,也就是說,他們實際上可以實現很大的價值。他們不僅可以為客戶提供更好的價值,而且可以帶來利潤。在過去,在以前,我們首先是提出問題,然后開始搜集數據,然后進行分析,最后拿到答案,最后把數據給扔了,因為數據已經完成了任務了,所以就把它扔到了。你要存儲數據的話也是非常貴的,但是現在儲存數據是不貴的?,F在你可以應用數據實現更多的價值。你可以反復利用它,實現其它的目的。實際上我們看到的數據只是冰山一角。我們看到的是海洋之上的數據,大部分的數據是隱藏在海洋之下的。如果你重復使用這些數據,就可以發現潛在的價值。
 
  大家應該是聽說過勞斯萊斯這個品牌吧?但是我這里提到的并不是這個奢侈品牌,不是這個汽車,而是飛機的發動機。大家應該也知道勞斯萊斯它也是為飛機制造發動機的。比如說像空客、380,都是他們提供的發動機。他們也搜集了大量的數據,比如發動機的溫度、壓力、速度、振動、噪音等等,這些數據就是發送到發動機的計算機之中,再發送到這些公司之中,那勞斯萊斯就把這些數據全部儲存起來。飛機每一個發動機搜集到40G的數據,這些數據最后反饋到勞斯萊斯的總部那里,通過這些數據他們會發現世界上有多少飛機是在使用他們的產品。他們又分析了這些數據。比如說飛機是停在哪里,或者是什么時候哪里出了問題,實際上這些技術故障出現之前,他們就進行維修保養了。如果在飛機起飛的時候出問題的話,那肯定就不行了。勞斯萊斯發現如果僅僅是搜集數據,而且知道自己要做什么的時候,開始搜集數據,實際上已經為時已晚。最好的方式就是能捕捉數據,隨時隨地的搜集數據,有時候你可能不知道板怎么利用這些數據,但是先把它搜集起來,因為在未來,可能它就起作用。
 
  大家應該知道jawbone,這個手環的制造商,他們也在搜集這些數據,比如你起床、運動頻率等等數據。我們也可以搜集數據,然后進行分析。去年加州發生了地震,在加州有很多人都佩戴jawbone,他們不斷的搜集自己的數據,而且地震發生的時候,是在午夜,他們搜集的數據有一個區縣,可以看到這里用戶的數量,他們戴著jawbone手環,在晚上三點鐘的時候,應該是大家都在睡覺了,但是突然地震發生了,然后我們看到這個峰值,因為地震發生的時候,大家肯定要從床上跳下來逃生,大家就看到了這樣一個曲線變化。為什么這個數據特別的重要?因為不同的顏色代表不同的城市。就告訴大家這個地震的程度有多少,在不同地區,這個地震是大還是小。jawbone的用戶他們很好的捕捉到了地震的數據,甚至比政府做得還要好。甚至比政府地震儀捕捉到的數據做得更好。jawbone就想了,我們不僅可以來預測地震,因為它現在已經搜集到了這些地震的信息。但是實際上這些大數據給我們提供了一個現代平臺,大家可能聽說過一年多前谷歌收購了nest,它是生產恒溫計的。其中一個創始人我也認識。這個恒溫計是調節你在家里環境的溫度,谷歌收購了這個品牌,他們花了三十億美金投資到這個公司,大家就想了,30億,就買了一個恒溫計的制造商,真的嗎?值不值這個錢?他們并不了解谷歌的想法,這實際上是一個智能恒溫計,這個恒溫計可以記得你整個溫度的調節,它可以記憶你這一天之中,哪個時間段是調節了溫度,因此它就可以捕捉這些數據,了解你的行為,不論是你在家里,回到家的時候,是你想要溫度上升,或者是溫度下降,它在了解你的習性,了解了這個習性之后,數據發送到總部。那么現在谷歌就獲得了很多人在家里的溫度的情況,而且在哪個時間段需要什么樣的溫度,這些數據都搜集到了,大家可以想象一下這些數據的價值有多少。這樣大家可以通過這樣的方式來進行能源保護,節省能源,比如說你可以采取一些環保的措施,這也是為什么谷歌收購了這個品牌。它實際上提供了一個全新的平臺。
 
  大家看一下這個照片,汽車,電動汽車,這個是一個非常漂亮的汽車,而且非???。這是一個創新型的汽車。因為它是電動的。然后我們看這個車,特斯拉其實已經不僅僅是一臺汽車了,它對于我來說,就是一個數據,它是一個數據搜集的平臺,你在駕駛特斯拉的時候,實際上汽車上裝載了很多的傳感器,它可以去搜集到,比如說振動的數據,加速的數據,轉彎的數據,包括汽車平衡性、穩定性的數據,都可以搜集到,包括整個的剎車系統、振動系統,包括一些應急措施,這些數據都可以搜集到,搜集到這些數據特斯拉怎么做呢?當然它可以進一步的提升汽車性能,比如去年的時候,他們進行了提升,特斯拉的用戶會發現他們的軟件是實時更新的。比如汽車行駛歷程可以提升10%。特斯拉可以用數據發現這些用戶去了哪里,充電站在哪里?;蛘呖梢杂靡环N無人駕駛的汽車,可以幫助你駕駛。通過這些數據,它也可以告訴政府,這些路段哪一些地方比較安全,哪一些比較危險。這些是通過數據而來的,未來的汽車實際上就是搜集數據的平臺。它不僅載著我們從A點到B點,也是一個數據的平臺。
 
  大家聽說過這個平臺uber吧?它是一家出租車公司。這是通過交通出行來賺錢的公司。uber市場價值成千上萬美金,為什么它有這么高的價值呢?它也是有數據,比如客戶去了哪里,汽車的行使,等待時間等各種各樣的數據,uber也是利用這些數據進行變革,變革我們移動的方式。當然這里也有問題,很多人都有汽車。在歐洲和美洲,幾乎每個人都有自己的汽車。實際上你花了很多錢在自己的汽車上,但是這個汽車的使用率是怎么樣的呢?大概只有4%的使用率,96%的時間,你的汽車就停留在那里。這個效率實在太低了。如果我們可以把這個效率提升,如果我們可以提出一個新的理念,使用自己的手機,然后按一個鍵,然后一個汽車,無人駕駛的汽車直接行使到你面前,然后你駕駛著它到另外一個地點,或者可以自動支付,上了這個汽車,載著你到另外一個地方,然后自動付款,然后它再去載另外一個人,這樣汽車使用率就大大提升了,這樣你就不用花很多錢去買汽車?,F在這樣的效率低下的情況就可以避免了。
 
  還有airbnb,這個是度假的時候使用的,比如你可以利用它來找民宿,你出去旅游的時候,airbnb可以幫助你把房子租出去,因為你出去度假,房子是空置的。我們看到這樣一個現象,數據的效率轉變資源效率?,F在我們從數據轉移到了資源效率,我們用更多的數據,我們處于大數據的時代。比如說我們不斷的提升汽車的效率,移動的效率,房子的利用率等等。這都是有關于資源利用的效率。不管是uber、airbnb、谷歌,他們都是利用數據來提升效率,創造價值的。那誰拿到了這個數據呢?是uber這個公司拿到了數據。nest拿到了數據,谷歌拿到了數據。不是租房子的人不是旅游的人拿到數據,而是airbnb這家公司獲得了數據,也就是說這些公司,他們在捕捉數據捕捉價值上做得非常好。
 
  大家想到數據,可能想到數據的規模是非常重要的,比如谷歌,谷歌是花了三十億的美金,收購了nest獲得了數據。在大數據時代,實際上這個規??赡軟]有你想象得那么重要。在美國有一個公司,它是預測消費品產品的價格,它就可以預測,比如像電視機的架構,它可以預測到電視機的價格是上升還是下降,他們可以直接預測到這個趨勢。如果這個預測錯的話,他們就會給你返回到差價。但是70%的概率他們是正確的。他們所做的也是捕捉數據,他們每天搜集到很多很多的價格點的數據,每一天成百上千萬的用戶數據他們都搜集到,還有消費品產品數據都搜集到,大家覺得這個公司規模有多大呢?總共30個人,包括清潔工。他們有多少服務器呢?0個,因為他們完全是使用云端武器。大數據好象聽起來很大,規模很大,但是這一端,小的一端也是非常有意思的,就是一些初創公司,小的公司,也可以很好地使用這些大數據,因為你不需要購買很多的服務器,雇傭很多的員工,來搜集大數據。這些小的公司也可以搜集大數據,只要你有存儲空間,有處理能力就可以了。而且這些成本也不高。因為我們有云端,因此大數據后面的基本的原理,一個理念,就是未來的數據已經不在于機器了,而是在于你的理念了。你需要有這樣的理念,你要想象一下如何利用這些數據。這些云端可以幫助你處理一切的數據,非常感謝大家。

  維克托·邁爾·舍恩伯格:《大數據時代》作者,牛津大學網絡學院互聯網研究所治理與監管專業教授

責任編輯:admin