大數(shù)據(jù)是指用現(xiàn)有的計(jì)算機(jī)軟硬件設(shè)施難以采集、存儲(chǔ)、管理、分析和使用的超大規(guī)模的數(shù)據(jù)集。大數(shù)據(jù)具有規(guī)模大、種類雜、快速化、價(jià)值密度低等特點(diǎn)(4V特性)。大數(shù)據(jù)的“大”是一個(gè)相對(duì)概念,沒有具體標(biāo)準(zhǔn),如果一定要給一個(gè)標(biāo)準(zhǔn),那么10-100TB通常稱為大數(shù)據(jù)的門檻。
數(shù)據(jù)分析是一個(gè)大的概念,理論上任何對(duì)數(shù)據(jù)進(jìn)行計(jì)算、處理從而得出一些有意義的結(jié)論的過程,都叫數(shù)據(jù)分析。從數(shù)據(jù)本身的復(fù)雜程度、以及對(duì)數(shù)據(jù)進(jìn)行處理的復(fù)雜度和深度來看,可以把數(shù)據(jù)分析分為以下4個(gè)層次:數(shù)據(jù)統(tǒng)計(jì),OLAP,數(shù)據(jù)挖掘,大數(shù)據(jù)。
大數(shù)據(jù)分析和數(shù)據(jù)分析是有區(qū)別和聯(lián)系的。這里重點(diǎn)關(guān)注兩者的是技術(shù)要求、使用場(chǎng)景、業(yè)務(wù)范圍等方面的區(qū)別和聯(lián)系。重點(diǎn)要區(qū)分理論研究和實(shí)際應(yīng)用兩方面區(qū)別和聯(lián)系。
第一:在分析方法上兩者并沒有本質(zhì)不同
數(shù)據(jù)分析的核心工作是人對(duì)數(shù)據(jù)指標(biāo)的分析、思考和解讀,人腦所能承載的數(shù)據(jù)量是極其有限的。所以,無論是“傳統(tǒng)數(shù)據(jù)分析”,還是“大數(shù)據(jù)分析”,均需要將原始數(shù)據(jù)按照分析思路進(jìn)行統(tǒng)計(jì)處理,得到概要性的統(tǒng)計(jì)結(jié)果供人分析。兩者在這個(gè)過程中是類似的,區(qū)別只是原始數(shù)據(jù)量大小所導(dǎo)致處理方式的不同。
第二:在對(duì)統(tǒng)計(jì)學(xué)知識(shí)的使用重心上兩者存在較大的不同
傳統(tǒng)數(shù)據(jù)分析”使用的知識(shí)主要圍繞“能否通過少量的抽樣數(shù)據(jù)來推測(cè)真實(shí)世界”的主題展開?!按髷?shù)據(jù)分析”主要是利用各種類型的全量數(shù)據(jù)(不是抽樣數(shù)據(jù)),設(shè)計(jì)統(tǒng)計(jì)方案,得到兼具細(xì)致和置信的統(tǒng)計(jì)結(jié)論。
第三:與機(jī)器學(xué)習(xí)模型的關(guān)系上,兩者有著本質(zhì)差別
“傳統(tǒng)數(shù)據(jù)分析”在大部分時(shí)候,知識(shí)將機(jī)器學(xué)習(xí)模型當(dāng)黑盒工具來輔助分析數(shù)據(jù)。而“大數(shù)據(jù)分析”,更多時(shí)候是兩者的緊密結(jié)合,大數(shù)據(jù)分析產(chǎn)出的不僅是一份分析效果測(cè)評(píng),后續(xù)基于此來升級(jí)產(chǎn)品。在大數(shù)據(jù)分析的場(chǎng)景中,數(shù)據(jù)分析往往是數(shù)據(jù)加墨的前奏,數(shù)據(jù)建模是數(shù)據(jù)分析的成果。