技術(shù)
導(dǎo)讀:繼物聯(lián)網(wǎng)之后,“云計(jì)算”已迅速成為市場(chǎng)和用戶爭(zhēng)相討論的熱門科技概念。那么究竟什么是大數(shù)據(jù)呢?調(diào)研機(jī)構(gòu)IDC認(rèn)為,某項(xiàng)技術(shù)要想成為大數(shù)據(jù)技術(shù),必須滿足IBM所描述的三個(gè)“V”:即多樣性(variety)、大容量(volume)和時(shí)效性高(velocity)。多樣性是指數(shù)據(jù)應(yīng)包含結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù);大容量是指聚合在一起供分析的數(shù)據(jù)量必須是非常龐大的;時(shí)效性高則是指數(shù)據(jù)處理的速度必須很快。
在2011年,“大數(shù)據(jù)”的概念已經(jīng)賺足了人氣,調(diào)研機(jī)構(gòu)IDC數(shù)字宇宙在2011年6月的報(bào)告顯示,全球數(shù)據(jù)量在2011年已達(dá)到1.8ZB,在過(guò)去5年里增加了5倍,而到2015年將達(dá)到近8ZB。進(jìn)入2012年,大數(shù)據(jù)絲毫不會(huì)放慢增長(zhǎng)的步伐,全球制造業(yè)、政府、零售商、金融等眾多機(jī)構(gòu)已經(jīng)陷入“數(shù)據(jù)爆炸”的困境。
尤其在互聯(lián)網(wǎng)和電信行業(yè)中,隨著移動(dòng)互聯(lián)網(wǎng)的不斷創(chuàng)新強(qiáng)大,海量數(shù)據(jù)蜂擁而至,更多新的數(shù)據(jù)形式也不斷涌現(xiàn),現(xiàn)在的數(shù)據(jù)早已不是結(jié)構(gòu)化的了,還摻雜了包括辦公文檔、文本、圖片、網(wǎng)頁(yè)、報(bào)表、音頻、視頻信息等很多非結(jié)構(gòu)化數(shù)據(jù),這為傳統(tǒng)的數(shù)據(jù)處理帶來(lái)了新的挑戰(zhàn)。
隨著數(shù)據(jù)量的急劇增長(zhǎng),以及對(duì)數(shù)據(jù)在線處理能力的要求不斷提高,海量數(shù)據(jù)的處理問(wèn)題越來(lái)越受到關(guān)注。在金融、電信等領(lǐng)域,都需要通過(guò)對(duì)大量的用戶數(shù)據(jù)進(jìn)行分析,才能做出相應(yīng)的決策。對(duì)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行存儲(chǔ)和處理的海量數(shù)據(jù)處理系統(tǒng)也開始向數(shù)據(jù)密集型計(jì)算系統(tǒng)發(fā)展。
數(shù)據(jù)密集型計(jì)算系統(tǒng)特點(diǎn)
數(shù)據(jù)密集型計(jì)算系統(tǒng)不僅需要存儲(chǔ)超大規(guī)模的數(shù)據(jù),還需要對(duì)這些數(shù)據(jù)進(jìn)行復(fù)雜的計(jì)算與分析。由于對(duì)數(shù)據(jù)密集型大規(guī)模計(jì)算系統(tǒng)的需求越來(lái)越多,人們也越來(lái)越關(guān)注。不同于已有的分布式計(jì)算或高性能計(jì)算,數(shù)據(jù)密集型大規(guī)模計(jì)算的特點(diǎn)可以概括為兩個(gè)方面:
海量的數(shù)據(jù)集:通常在PB級(jí)。這意味著對(duì)于一次計(jì)算任務(wù)而言,獲取所需的數(shù)據(jù)所花費(fèi)的時(shí)間將是不可忍受的,這完全不同于以往的計(jì)算系統(tǒng),同時(shí)也給數(shù)據(jù)密集型大規(guī)模計(jì)算系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)帶來(lái)了新的挑戰(zhàn)。
復(fù)雜的計(jì)算過(guò)程:簡(jiǎn)單地將數(shù)據(jù)進(jìn)行分塊處理已經(jīng)不能滿足數(shù)據(jù)密集型計(jì)算的需求。即使是對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的分析也開始具備科學(xué)計(jì)算的復(fù)雜性,這種計(jì)算的復(fù)雜性為局部性的優(yōu)化和數(shù)據(jù)管理帶來(lái)了新的挑戰(zhàn)。
由于數(shù)據(jù)密集型大規(guī)模計(jì)算系統(tǒng)的研究還處在起步階段,對(duì)于數(shù)據(jù)密集型大規(guī)模計(jì)算系統(tǒng)的體系結(jié)構(gòu)設(shè)計(jì)仍在探索中,目前在對(duì)系統(tǒng)結(jié)構(gòu)方面的研究中,重點(diǎn)大多集中在如何使計(jì)算盡可能地靠近數(shù)據(jù)。但是,當(dāng)大規(guī)模計(jì)算的數(shù)據(jù)量超過(guò)1PB時(shí),傳統(tǒng)的存儲(chǔ)子系統(tǒng)已經(jīng)難以滿足海量數(shù)據(jù)處理的讀寫需要,數(shù)據(jù)傳輸I/O帶寬的瓶頸愈發(fā)突出。
因此,數(shù)據(jù)密集型計(jì)算系統(tǒng)在系統(tǒng)結(jié)構(gòu)方面面臨的最大挑戰(zhàn)其實(shí)是如何在存儲(chǔ)超大規(guī)模數(shù)據(jù)量的同時(shí),保證存儲(chǔ)系統(tǒng)與計(jì)算系統(tǒng)之間的I/O帶寬。海量數(shù)據(jù)處理系統(tǒng)面向的應(yīng)用是處理大量的數(shù)據(jù),所以其設(shè)計(jì)關(guān)鍵是如何組織存儲(chǔ)資源以獲得高速的I/O吞吐率以及海量的數(shù)據(jù)容量。