導(dǎo)讀:繼物聯(lián)網(wǎng)之后,“云計算”已迅速成為市場和用戶爭相討論的熱門科技概念。那么究竟什么是大數(shù)據(jù)呢?調(diào)研機構(gòu)IDC認為,某項技術(shù)要想成為大數(shù)據(jù)技術(shù),必須滿足IBM所描述的三個“V”:即多樣性(variety)、大容量(volume)和時效性高(velocity)。多樣性是指數(shù)據(jù)應(yīng)包含結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù);大容量是指聚合在一起供分析的數(shù)據(jù)量必須是非常龐大的;時效性高則是指數(shù)據(jù)處理的速度必須很快。
在2011年,“大數(shù)據(jù)”的概念已經(jīng)賺足了人氣,調(diào)研機構(gòu)IDC數(shù)字宇宙在2011年6月的報告顯示,全球數(shù)據(jù)量在2011年已達到1.8ZB,在過去5年里增加了5倍,而到2015年將達到近8ZB。進入2012年,大數(shù)據(jù)絲毫不會放慢增長的步伐,全球制造業(yè)、政府、零售商、金融等眾多機構(gòu)已經(jīng)陷入“數(shù)據(jù)爆炸”的困境。
尤其在互聯(lián)網(wǎng)和電信行業(yè)中,隨著移動互聯(lián)網(wǎng)的不斷創(chuàng)新強大,海量數(shù)據(jù)蜂擁而至,更多新的數(shù)據(jù)形式也不斷涌現(xiàn),現(xiàn)在的數(shù)據(jù)早已不是結(jié)構(gòu)化的了,還摻雜了包括辦公文檔、文本、圖片、網(wǎng)頁、報表、音頻、視頻信息等很多非結(jié)構(gòu)化數(shù)據(jù),這為傳統(tǒng)的數(shù)據(jù)處理帶來了新的挑戰(zhàn)。
隨著數(shù)據(jù)量的急劇增長,以及對數(shù)據(jù)在線處理能力的要求不斷提高,海量數(shù)據(jù)的處理問題越來越受到關(guān)注。在金融、電信等領(lǐng)域,都需要通過對大量的用戶數(shù)據(jù)進行分析,才能做出相應(yīng)的決策。對互聯(lián)網(wǎng)數(shù)據(jù)進行存儲和處理的海量數(shù)據(jù)處理系統(tǒng)也開始向數(shù)據(jù)密集型計算系統(tǒng)發(fā)展。
數(shù)據(jù)密集型計算系統(tǒng)特點
數(shù)據(jù)密集型計算系統(tǒng)不僅需要存儲超大規(guī)模的數(shù)據(jù),還需要對這些數(shù)據(jù)進行復(fù)雜的計算與分析。由于對數(shù)據(jù)密集型大規(guī)模計算系統(tǒng)的需求越來越多,人們也越來越關(guān)注。不同于已有的分布式計算或高性能計算,數(shù)據(jù)密集型大規(guī)模計算的特點可以概括為兩個方面:
海量的數(shù)據(jù)集:通常在PB級。這意味著對于一次計算任務(wù)而言,獲取所需的數(shù)據(jù)所花費的時間將是不可忍受的,這完全不同于以往的計算系統(tǒng),同時也給數(shù)據(jù)密集型大規(guī)模計算系統(tǒng)的設(shè)計與實現(xiàn)帶來了新的挑戰(zhàn)。
復(fù)雜的計算過程:簡單地將數(shù)據(jù)進行分塊處理已經(jīng)不能滿足數(shù)據(jù)密集型計算的需求。即使是對互聯(lián)網(wǎng)數(shù)據(jù)的分析也開始具備科學(xué)計算的復(fù)雜性,這種計算的復(fù)雜性為局部性的優(yōu)化和數(shù)據(jù)管理帶來了新的挑戰(zhàn)。
由于數(shù)據(jù)密集型大規(guī)模計算系統(tǒng)的研究還處在起步階段,對于數(shù)據(jù)密集型大規(guī)模計算系統(tǒng)的體系結(jié)構(gòu)設(shè)計仍在探索中,目前在對系統(tǒng)結(jié)構(gòu)方面的研究中,重點大多集中在如何使計算盡可能地靠近數(shù)據(jù)。但是,當大規(guī)模計算的數(shù)據(jù)量超過1PB時,傳統(tǒng)的存儲子系統(tǒng)已經(jīng)難以滿足海量數(shù)據(jù)處理的讀寫需要,數(shù)據(jù)傳輸I/O帶寬的瓶頸愈發(fā)突出。
因此,數(shù)據(jù)密集型計算系統(tǒng)在系統(tǒng)結(jié)構(gòu)方面面臨的最大挑戰(zhàn)其實是如何在存儲超大規(guī)模數(shù)據(jù)量的同時,保證存儲系統(tǒng)與計算系統(tǒng)之間的I/O帶寬。海量數(shù)據(jù)處理系統(tǒng)面向的應(yīng)用是處理大量的數(shù)據(jù),所以其設(shè)計關(guān)鍵是如何組織存儲資源以獲得高速的I/O吞吐率以及海量的數(shù)據(jù)容量。