●●●
回想美國總統大選和英國脫歐公投,其投票結果令很多人感到驚訝。在這兩個事件里,投票結果都引發了這樣的嘆息:“如今是大數據時代,民意調查專家和權威人士的預測怎么會錯得如此離譜?”
●我的專長只在語言方面,因此我不必假裝找到了答案,不過無論樣本量只有數千的民意調查算不算“大數據”,這個問題無疑都是沒有確切答案的——要是以中等數據(mediumdata)的名義進行調查,投票的統計數據可能會更少。或許這就是問題所在:如果預選和預投分析能夠訪問數百萬數據點,結果可能就不會讓人感到那么意外?或者,需要的也許不是大數據本身,而是一種能夠利用諸多新型可用數據的方法。
●例如,快數據(fastdata)需要實現近似于瞬間的存取、分析,或是其他需要在非常短的時間內進行的操作。它是熱數據(hotdata)的一種,需要不斷被使用,因此必須能夠被輕而易舉地迅速獲取。與之相對的是慢數據(slowdata),它經過相對長時間的積累,意味著在某一時刻可能會成為長數據(longdata),可追溯至數百年之前。慢數據是冷數據(cold data)的一種,冷數據的使用頻率相對較低,因此可以無須被迅速存取。無論快還是慢,熱還是冷,如果是不完整、不一致或完全錯誤的臟數據(dirtydata),那么它對任何人來說都沒有多大用處。
●與不可見但在宇宙中占了相當大比重的暗物質類似,暗數據(darkdata)代表著大部分企業收集和存儲的不可見但占據了相當大比重的數據。暗數據之所以“暗”,是因為企業并不用它來分析、洞悉或制定決策。它的一部分是未使用的傳感器數據或暫存網絡路由信息等瞬態數據(transientdata),以及用戶(不斷變化的)GPS坐標等實時數據(livedata)。這些數據偶爾也能產生閃現洞見(perishable insights):存儲期限非常短暫的有價值數據(比如你發現顧客信步走過你的實體店鋪時產生的便是這種數據)。與之相對的是目標豐富型數據(target-richdata),這類數據被標記、處理和分析時,會給其所有者提供有價值的長期洞見。
●●●
或許有一種方式可以綜合整體和局部,即以某種方式將大數據和我們對大數據的貢獻——產生自我們日常行為的小數據(smalldata)——結合在一起。我們將不得不經歷一些危險。例如,我們將需要保證我們的數據不會變成立方體數據(cubeddata),否則第三方之間會共享我們的數據,那樣就無法預料數據的最終結果及其將如何被使用和理解了。我們將需要一些保障措施來保證第三方踐行可靠數據(responsibledata),即保密并人道地使用和共享數據。
更有前途的大概是利用厚數據(thickdata)的方法,厚數據結合了定量與定性分析。權威人士可以從敘事醫學(narrativemedicine)中得到提示,敘事醫學將病人病情的發展過程與傳統的醫療實踐相結合,將其作為理解、診斷和治療疾病的方法。權威人士可以不再猜測人的行為(例如美國農村選民可能在選舉日根本沒出門投票,在民意測驗中選擇“棄權”的人反而可能出現在投票站);他們可以直接與人們對話,傾聽他們的故事,而不僅僅是看著一行行的數字。就把它稱為“敘事數據”(narrativedata)吧。
作者:Paul McFedries
往期推薦