大(da)(da)數(shu)(shu)據是指無法在(zai)一定時間內用(yong)(yong)常規軟件工(gong)具對其內容(rong)進行(xing)(xing)抓(zhua)取、管(guan)理(li)和(he)處理(li)的(de)數(shu)(shu)據集合。大(da)(da)數(shu)(shu)據有五(wu)大(da)(da)特點,即(ji)大(da)(da)量、高速、多樣、低價值密(mi)度、真實性。它并(bing)沒有統計(ji)學的(de)抽(chou)樣方法,只是觀察和(he)追蹤發生的(de)事情。大(da)(da)數(shu)(shu)據的(de)用(yong)(yong)法傾向于預測分(fen)析(xi)、用(yong)(yong)戶行(xing)(xing)為分(fen)析(xi)或某些其他高級數(shu)(shu)據分(fen)析(xi)方法的(de)使用(yong)(yong)。
大數據的特征
1.數(shu)據量大(Volume):大數(shu)據的起(qi)始計(ji)量單位是PB(1024TB)、EB(1024PB,約100萬TB)或ZB(1024EB,約10億TB),未來(lai)甚至會達到YB(1024ZB)或BB(1024YB)。
2.數(shu)(shu)據(ju)(ju)多樣(yang)性(xing)(Variety):大數(shu)(shu)據(ju)(ju)類型繁多,包(bao)括(kuo)網絡日志、音頻(pin)、視頻(pin)、圖片(pian)、地理位置等(deng)各種結(jie)構(gou)(gou)(gou)化、半結(jie)構(gou)(gou)(gou)化和(he)非結(jie)構(gou)(gou)(gou)化的(de)(de)數(shu)(shu)據(ju)(ju)。結(jie)構(gou)(gou)(gou)化數(shu)(shu)據(ju)(ju)是指存儲在數(shu)(shu)據(ju)(ju)庫里,可以用二維表(biao)結(jie)構(gou)(gou)(gou)實現表(biao)達的(de)(de)數(shu)(shu)據(ju)(ju);非結(jie)構(gou)(gou)(gou)化數(shu)(shu)據(ju)(ju)是指數(shu)(shu)據(ju)(ju)結(jie)構(gou)(gou)(gou)不規(gui)則或不完(wan)整(zheng),沒有預(yu)定(ding)義(yi)的(de)(de)數(shu)(shu)據(ju)(ju),包(bao)括(kuo)所有格(ge)式的(de)(de)辦公文檔、文本(ben)、圖片(pian)、報表(biao)、圖像、音頻(pin)信(xin)息、視頻(pin)信(xin)息等(deng);半結(jie)構(gou)(gou)(gou)化數(shu)(shu)據(ju)(ju)是介(jie)于(yu)完(wan)全結(jie)構(gou)(gou)(gou)化數(shu)(shu)據(ju)(ju)和(he)完(wan)全非結(jie)構(gou)(gou)(gou)化數(shu)(shu)據(ju)(ju)之間(jian)的(de)(de)數(shu)(shu)據(ju)(ju),具(ju)有一定(ding)的(de)(de)結(jie)構(gou)(gou)(gou)性(xing),例(li)如員(yuan)工(gong)簡歷,有的(de)(de)簡歷只(zhi)有教育情況,有的(de)(de)簡歷包(bao)括(kuo)教育、婚姻、戶籍、出入境等(deng)很多信(xin)息。
3.價值密(mi)度低(Value):大數(shu)(shu)據(ju)(ju)價值密(mi)度的(de)(de)高(gao)低與數(shu)(shu)據(ju)(ju)總量的(de)(de)大小成反比。以(yi)視頻為例,在連續不間斷(duan)的(de)(de)監控中,有(you)用數(shu)(shu)據(ju)(ju)可能僅有(you)一兩秒。原始(shi)零(ling)散、復雜多樣,甚至可能有(you)數(shu)(shu)據(ju)(ju)噪(zao)聲和污染(ran)的(de)(de)數(shu)(shu)據(ju)(ju)需要經歷價值“提純”才能得(de)出信(xin)息、獲取知(zhi)識。
4.數(shu)據的(de)(de)產生和處理(li)速(su)度(du)快(Velocity):大(da)(da)數(shu)據的(de)(de)智能(neng)化和實時(shi)性(xing)要(yao)求越來(lai)越高(gao),對(dui)處理(li)速(su)度(du)也有(you)極嚴格的(de)(de)要(yao)求,一般要(yao)在(zai)秒(miao)級時(shi)間范(fan)圍內給(gei)出分析(xi)結果,超出這個(ge)時(shi)間數(shu)據就可(ke)能(neng)失去價值,即大(da)(da)數(shu)據的(de)(de)處理(li)要(yao)符合“1秒(miao)定律”。
更多相(xiang)關(guan)知識請點擊: