大數(shù)據(jù)定義及其特征
大數(shù)據(jù)顧名思義就是數(shù)量極其龐大的數(shù)據(jù)資料。從上世紀(jì)80年代開(kāi)始,每隔40個(gè)月世界上儲(chǔ)存的人均科技信息量就會(huì)翻倍 (Hibert & Lopez, 2011)。2012年,每天會(huì)有2.5EB量的數(shù)據(jù)產(chǎn)生 (Andrew & Erik, 2012)。現(xiàn)在,2014年,每天會(huì)有2.3ZB量的數(shù)據(jù)產(chǎn)生 (IBM, 2015)。這是一個(gè)什么概念? 現(xiàn)在一般我們電腦的硬盤(pán)大小都以GB,或者TB為單位了。1GB的容量可以?xún)?chǔ)存約5.4億的漢字,或者170張普通數(shù)碼相機(jī)拍攝的高精度照片,或者300-350首長(zhǎng)度為5-6分鐘的MP3歌曲。 那GB和TB, EB,ZB的關(guān)系又是怎樣?
1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一臺(tái)1TB硬盤(pán)容量的電腦,那1ZB就是大致等于10億臺(tái)電腦的容量,遠(yuǎn)遠(yuǎn)超出了我們一般的想象。
早期,IBM定義了大數(shù)據(jù)的特性有3個(gè):大量性( Volume), 多樣性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后來(lái)又有學(xué)者把價(jià)值(Value)加到大數(shù)據(jù)的特性里。隨著時(shí)間的推移和人們思考的進(jìn)一步完善,又有三個(gè)大數(shù)據(jù)的特性被提出: 易變性(Variability),準(zhǔn)確性(Veracity)和復(fù)雜性(Complexity)。
作者認(rèn)為價(jià)值本質(zhì)上是數(shù)據(jù)被分析后體現(xiàn)出來(lái)的有用信息知識(shí)的程度,和其他幾個(gè)特性有根本區(qū)別。其他幾個(gè)特性可以說(shuō)是數(shù)據(jù)工作者具體實(shí)踐中面臨的挑戰(zhàn),而價(jià)值則是征服這些挑戰(zhàn)后獲得的回報(bào)。