亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現在的位置是:首頁 > 技術閱讀 >  為了在事件中更好地預測,我們需要更好的數據

為了在事件中更好地預測,我們需要更好的數據

時間:2024-02-01

●●●

回想美國總統大選和英國脫歐公投,其投票結果令很多人感到驚訝。在這兩個事件里,投票結果都引發了這樣的嘆息:“如今是大數據時代,民意調查專家和權威人士的預測怎么會錯得如此離譜?”

●我的專長只在語言方面,因此我不必假裝找到了答案,不過無論樣本量只有數千的民意調查算不算“大數據”,這個問題無疑都是沒有確切答案的——要是以中等數據(mediumdata)的名義進行調查,投票的統計數據可能會更少。或許這就是問題所在:如果預選和預投分析能夠訪問數百萬數據點,結果可能就不會讓人感到那么意外?或者,需要的也許不是大數據本身,而是一種能夠利用諸多新型可用數據的方法。

●例如,快數據(fastdata)需要實現近似于瞬間的存取、分析,或是其他需要在非常短的時間內進行的操作。它是熱數據(hotdata)的一種,需要不斷被使用,因此必須能夠被輕而易舉地迅速獲取。與之相對的是慢數據(slowdata),它經過相對長時間的積累,意味著在某一時刻可能會成為長數據(longdata),可追溯至數百年之前。慢數據是冷數據(cold data)的一種,冷數據的使用頻率相對較低,因此可以無須被迅速存取。無論快還是慢,熱還是冷,如果是不完整、不一致或完全錯誤的臟數據(dirtydata),那么它對任何人來說都沒有多大用處。

●與不可見但在宇宙中占了相當大比重的暗物質類似,暗數據(darkdata)代表著大部分企業收集和存儲的不可見但占據了相當大比重的數據。暗數據之所以“暗”,是因為企業并不用它來分析、洞悉或制定決策。它的一部分是未使用的傳感器數據或暫存網絡路由信息等瞬態數據(transientdata),以及用戶(不斷變化的)GPS坐標等實時數據(livedata)。這些數據偶爾也能產生閃現洞見(perishable insights):存儲期限非常短暫的有價值數據(比如你發現顧客信步走過你的實體店鋪時產生的便是這種數據)。與之相對的是目標豐富型數據(target-richdata),這類數據被標記、處理和分析時,會給其所有者提供有價值的長期洞見。

●●●

或許有一種方式可以綜合整體和局部,即以某種方式將大數據和我們對大數據的貢獻——產生自我們日常行為的小數據(smalldata)——結合在一起。我們將不得不經歷一些危險。例如,我們將需要保證我們的數據不會變成立方體數據(cubeddata),否則第三方之間會共享我們的數據,那樣就無法預料數據的最終結果及其將如何被使用和理解了。我們將需要一些保障措施來保證第三方踐行可靠數據(responsibledata),即保密并人道地使用和共享數據。

更有前途的大概是利用厚數據(thickdata)的方法,厚數據結合了定量與定性分析。權威人士可以從敘事醫學(narrativemedicine)中得到提示,敘事醫學將病人病情的發展過程與傳統的醫療實踐相結合,將其作為理解、診斷和治療疾病的方法。權威人士可以不再猜測人的行為(例如美國農村選民可能在選舉日根本沒出門投票,在民意測驗中選擇“棄權”的人反而可能出現在投票站);他們可以直接與人們對話,傾聽他們的故事,而不僅僅是看著一行行的數字。就把它稱為“敘事數據”(narrativedata)吧。

作者:Paul McFedries

往期推薦

數據包保護專家

新型“野外技術”—用數據打擊偷獵

PixelGrid一體化測圖系統:高效能遙感數據處理引擎

主站蜘蛛池模板: 鲁山县| 枝江市| 英山县| 松江区| 平塘县| 江山市| 金山区| 商丘市| 鸡西市| 朔州市| 新乡市| 三穗县| 咸阳市| 蒙自县| 九龙坡区| 龙胜| 平度市| 本溪| 阳泉市| 宁远县| 武陟县| 五台县| 晴隆县| 信宜市| 新乡市| 壶关县| 宜章县| 巴彦淖尔市| 海晏县| 桃园县| 文成县| 名山县| 曲阳县| 老河口市| 白山市| 穆棱市| 隆尧县| 天水市| 盐亭县| 晋江市| 江陵县|