「大數(shù)據」與「數(shù)據分析」兩者是相關的:一如數(shù)據分析,大數(shù)據運動也嘗試從數(shù)據中萃取有用的信息,藉此創(chuàng)造企業(yè)的競爭優(yōu)勢。
但大數(shù)據與一般數(shù)據分析,有三個關鍵差別:
差別1:資料量。在2012年,世界每天產生的數(shù)據量約為2.5 exabyte(EB),而這個數(shù)字,會在每四十個月左右增加一倍。因特網每秒流傳的數(shù)據量,比二十年前整個因特網儲存的數(shù)據還多。企業(yè)因此有機會分析大量數(shù)據,一個數(shù)據集就可能有許多個petabyte(PB)的數(shù)據,而且數(shù)據源并非只有網絡。
差別2:速度。就許多數(shù)據應用而言,數(shù)據產生的速度,甚至比數(shù)據量更重要。實時或近乎實時的信息,讓一家公司得以比競爭對手靈敏得多。這種實時信息,可帶給華爾街分析師與企業(yè)經理人明顯的競爭優(yōu)勢。
差別3:種類。大數(shù)據的種類多樣,可以是貼在社交網絡上的信息、狀態(tài)更新及圖片;傳感器的讀數(shù);手機的全球衛(wèi)星定位系統(tǒng)(GPS)訊號等等。大數(shù)據的重要數(shù)據源,有很多是新事物。同時,儲存、記憶、處理、帶寬等資料運算的所有要素,成本不斷下降,以前成本昂貴的數(shù)據密集型模式,如今正迅速變得符合成本效益。隨著越來越多商業(yè)活動數(shù)字化,新的數(shù)據源,加上越來越便宜的設備,帶領我們進入一個新時代:幾乎所有與業(yè)務相關的議題,都有大量的數(shù)字信息。手機、網絡購物、社交網絡、電子通訊、GPS及各種儀表機械,都是在日常運作中產生大量數(shù)據。如今人人都是活動的數(shù)據產生器。這種數(shù)據往往是未結構化的,也就是說,并不是有條理地儲存在數(shù)據庫中,因此不便使用。但雜亂的資料中,有大量有意義的訊息等著被發(fā)現(xiàn)。數(shù)據分析帶來嚴謹?shù)臎Q策技術,適當應用可讓巨量數(shù)據變得簡單得多,并發(fā)揮強大的力量。