「大數(shù)據(jù)」與「數(shù)據(jù)分析」兩者是相關(guān)的:一如數(shù)據(jù)分析,大數(shù)據(jù)運動也嘗試從數(shù)據(jù)中萃取有用的信息,藉此創(chuàng)造企業(yè)的競爭優(yōu)勢。
但大數(shù)據(jù)與一般數(shù)據(jù)分析,有三個關(guān)鍵差別:
差別1:資料量。在2012年,世界每天產(chǎn)生的數(shù)據(jù)量約為2.5 exabyte(EB),而這個數(shù)字,會在每四十個月左右增加一倍。因特網(wǎng)每秒流傳的數(shù)據(jù)量,比二十年前整個因特網(wǎng)儲存的數(shù)據(jù)還多。企業(yè)因此有機會分析大量數(shù)據(jù),一個數(shù)據(jù)集就可能有許多個petabyte(PB)的數(shù)據(jù),而且數(shù)據(jù)源并非只有網(wǎng)絡(luò)。
差別2:速度。就許多數(shù)據(jù)應(yīng)用而言,數(shù)據(jù)產(chǎn)生的速度,甚至比數(shù)據(jù)量更重要。實時或近乎實時的信息,讓一家公司得以比競爭對手靈敏得多。這種實時信息,可帶給華爾街分析師與企業(yè)經(jīng)理人明顯的競爭優(yōu)勢。
差別3:種類。大數(shù)據(jù)的種類多樣,可以是貼在社交網(wǎng)絡(luò)上的信息、狀態(tài)更新及圖片;傳感器的讀數(shù);手機的全球衛(wèi)星定位系統(tǒng)(GPS)訊號等等。大數(shù)據(jù)的重要數(shù)據(jù)源,有很多是新事物。同時,儲存、記憶、處理、帶寬等資料運算的所有要素,成本不斷下降,以前成本昂貴的數(shù)據(jù)密集型模式,如今正迅速變得符合成本效益。隨著越來越多商業(yè)活動數(shù)字化,新的數(shù)據(jù)源,加上越來越便宜的設(shè)備,帶領(lǐng)我們進入一個新時代:幾乎所有與業(yè)務(wù)相關(guān)的議題,都有大量的數(shù)字信息。手機、網(wǎng)絡(luò)購物、社交網(wǎng)絡(luò)、電子通訊、GPS及各種儀表機械,都是在日常運作中產(chǎn)生大量數(shù)據(jù)。如今人人都是活動的數(shù)據(jù)產(chǎn)生器。這種數(shù)據(jù)往往是未結(jié)構(gòu)化的,也就是說,并不是有條理地儲存在數(shù)據(jù)庫中,因此不便使用。但雜亂的資料中,有大量有意義的訊息等著被發(fā)現(xiàn)。數(shù)據(jù)分析帶來嚴(yán)謹(jǐn)?shù)臎Q策技術(shù),適當(dāng)應(yīng)用可讓巨量數(shù)據(jù)變得簡單得多,并發(fā)揮強大的力量。