應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

大數(shù)據(jù):移動互聯(lián)時代的驚濤駭浪

2012-07-18 09:35 騰訊科技

導(dǎo)讀:我們尚無法確定萬物是否皆數(shù),但是,在移動互聯(lián)網(wǎng)時代,人類至少已經(jīng)推開了這樣一扇大門:通過對海量大數(shù)據(jù)的高效分析獲得商業(yè)以及社會價值。大數(shù)據(jù)為移動互聯(lián)網(wǎng)帶來了新的價值,也為邁向物聯(lián)網(wǎng)奠定了基礎(chǔ)。

  我們尚無法確定萬物是否皆數(shù),但是,在移動互聯(lián)網(wǎng)時代,人類至少已經(jīng)推開了這樣一扇大門:通過對海量大數(shù)據(jù)的高效分析獲得商業(yè)以及社會價值。大數(shù)據(jù)為移動互聯(lián)網(wǎng)帶來了新的價值,也為邁向物聯(lián)網(wǎng)奠定了基礎(chǔ)。

  一個數(shù)據(jù)分析師以“指揮家”的模樣出現(xiàn)在舞臺上。隨著他手臂的有力揮舞,一串串?dāng)?shù)據(jù)被馴服了。他游刃有余,但數(shù)據(jù)越來越多,來勢越來越兇猛。他有點吃力,他左右搖擺,他手忙腳亂!一陣巨浪打過來,他站立的地方猶如一葉扁舟覆沒在數(shù)據(jù)的海洋……

  同樣的場景,另一個分析師出現(xiàn)了,還是那揮舞的手臂,還是海量的數(shù)據(jù)撲面而來,但他駕輕就熟,鎮(zhèn)定自如地指揮著,仿佛那不是雜亂無章的數(shù)據(jù),而是音樂大師譜寫的傳世樂章。

  2012年7月13日,在亮馬河大廈的“大數(shù)據(jù)世界論壇”上,SAS公司首席咨詢顧問張磊博士在演講前,播放了這么一段激動人心的視頻。全場為之雷動。

  移動互聯(lián)網(wǎng)迎來了大數(shù)據(jù)

  “這是像我這樣的數(shù)據(jù)人最為激動人心的時刻,因為數(shù)據(jù)庫、大數(shù)據(jù)已經(jīng)成為變革的中心,事實上可以成為一場革命,在IT領(lǐng)域、制造業(yè)、零售業(yè)、政府管理、科技,大數(shù)據(jù)改變了整個世界的運行方式。因此,我們稱之為大數(shù)據(jù)的新世界?!?/P>

  孫博凱仿佛還沉浸在剛才的氛圍中。他是微軟亞太研發(fā)集團(tuán)首席技術(shù)官。孫博凱說,推動大數(shù)據(jù)變革的有幾大因素,比如價格低廉的存儲和云計算能力,比如“大家都意識到的移動設(shè)備的爆炸,每個人都有一個或者一個以上的移動設(shè)備,現(xiàn)在全世界的移動設(shè)備用戶可能已經(jīng)達(dá)到了55億?!倍?,“這不僅僅關(guān)乎到網(wǎng)絡(luò)用戶,還關(guān)乎到傳感器,我們預(yù)計會有100億的傳感器連到網(wǎng)絡(luò)上,這一切都為我們帶來了大數(shù)據(jù)的新變革。”

  也就是說,譜寫這數(shù)字音符的,不是舒伯特、莫扎特,而是移動互聯(lián)網(wǎng)時代的每一個網(wǎng)民以及每一臺智能手機、電腦、傳感器。而大數(shù)據(jù)也就是由此產(chǎn)生的有別于傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù),或者說,傳統(tǒng)技術(shù)無法分析出有價值的結(jié)果的數(shù)據(jù)。它占到了全部數(shù)據(jù)總量的85%。

  對于大數(shù)據(jù)的來源,英特爾行業(yè)合作與解決方案部中國區(qū)總監(jiān)凌琦換了一種更為簡潔的說法,除了社交網(wǎng)絡(luò)及傳統(tǒng)的商業(yè)領(lǐng)域“人跟人交易、人跟人溝通”所產(chǎn)生的數(shù)據(jù)之外,“還有一類是機器和機器、現(xiàn)有智能設(shè)備網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù),這個數(shù)量會更大,而互聯(lián)網(wǎng)走向物聯(lián)網(wǎng)這條路是必然趨勢,隨著時間的增長,大家會看到物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)會更多”。

  凌琦說,全球的數(shù)據(jù)使用量到2020年會增長44倍,達(dá)到35.2ZB的主要增長來源,就是大數(shù)據(jù)。

  與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)具有以下四個典型特征,即多樣性(variety)、體量(volume)、速度(velocity)以及價值(value),也就是說,它集結(jié)構(gòu)復(fù)雜、體量龐大和快速處理于一身,并最終產(chǎn)生巨大的商業(yè)和社會價值。

  就像ForresterResearch資深分析師曹宇欽說的那樣,大數(shù)據(jù)并非全新技術(shù),“大數(shù)據(jù)最主要是幫助企業(yè)對現(xiàn)有的數(shù)據(jù)、已經(jīng)產(chǎn)生的數(shù)據(jù)做一些整合,相應(yīng)地做少量的投入而得到更大的回報”。我們甚至還可以說,傳統(tǒng)互聯(lián)網(wǎng)也產(chǎn)生了很多大數(shù)據(jù),但是,移動互聯(lián)網(wǎng)的蓬勃發(fā)展、云計算以及物聯(lián)網(wǎng)的初步應(yīng)用,有力地推進(jìn)了大數(shù)據(jù)時代的來臨,這是毋庸置疑的。

  大數(shù)據(jù)分析的難點

  設(shè)想你在京東商城或者亞馬遜訂了一件商品,那么機器就會將你的ID號碼、送貨地址、手機、電話、電子郵件以及收貨時間等等全部記錄下來。如果你提交了物品評論,或者和好友在微博上進(jìn)行了分享,同樣,也會被記錄下來。

  洞察這一切,就意味著夢寐以求的商機。

  故而,孫博凱斷言:“兩家公司,有一家公司利用大數(shù)據(jù)技術(shù)而另一家卻沒有采用,那么,未來它們的財務(wù)狀況會出現(xiàn)明顯的不同,大數(shù)據(jù)已經(jīng)成為了保持企業(yè)競爭優(yōu)勢的競爭力。”

  他說,在微軟看來,大數(shù)據(jù)意味著管理大數(shù)據(jù)端到端的生命周期,“管理數(shù)據(jù),如何獲取、存儲、保護(hù)安全數(shù)據(jù);下一步,如何保護(hù)你的數(shù)據(jù),如何清潔、發(fā)現(xiàn)相關(guān)的數(shù)據(jù),如何將其他的數(shù)據(jù)與其連接起來;最后,如何在數(shù)據(jù)中獲得洞察力?!?/P>

  但問題是,對大數(shù)據(jù)的分析卻并非易事。

  凌琦認(rèn)為,傳統(tǒng)的存儲結(jié)構(gòu)需要升級為擴展性的存儲架構(gòu),否則無法適應(yīng)現(xiàn)有的大數(shù)據(jù)存儲,同時,對于分布式的文件系統(tǒng)的支撐之后,需要進(jìn)行實時的流處理,而“傳統(tǒng)的數(shù)據(jù)分析更多的是結(jié)構(gòu)化,數(shù)據(jù)量是有限的,集中式處理、批量處理,也無法滿足需要。”

  賽仕軟件研究開發(fā)(北京)有限公司總經(jīng)理劉政說,在大數(shù)據(jù)時代,數(shù)據(jù)分析的手段是關(guān)鍵,“但是傳統(tǒng)的數(shù)據(jù)分析能力,無法處理這么大量的數(shù)據(jù)。我們平常分析上千萬的數(shù)據(jù)量的時候,都會花費幾十個小時的時間才能得到結(jié)果。當(dāng)你的數(shù)據(jù)量達(dá)到十億的時候,軟件就根本運行不下去,有的時候會花上好幾十天,這個速度人們是無法接受的。”

  他列舉了一些傳統(tǒng)的分析技術(shù)帶來的困惑。比如,由于分析手段的限制,取樣時的樣本數(shù)不夠大,不能充分利用所有的數(shù)據(jù),無形中破壞了信息的完整性;又比如,受限于分析能力而無法獲取復(fù)雜問題的答案,受限于時間而不得不采用某項簡單的建模技術(shù),同樣,也是由于沒有足夠的時間來執(zhí)行多次迭代,你不得不對模型凈度進(jìn)行妥協(xié)等等。

  劉政說,上世紀(jì)50年代,美國飛行員發(fā)現(xiàn),在跟敵人作戰(zhàn)的時候通過OODA方法就可以有效地贏得戰(zhàn)爭,也就是說,“如果你的決策比你的對手快,你就能夠占得先機”。

  速度在這里被提到了戰(zhàn)略高度。對大數(shù)據(jù)的分析,也同樣如此。

  品友互動是中國最大的數(shù)字廣告互聯(lián)網(wǎng)技術(shù)公司,率先在廣告技術(shù)領(lǐng)域采用大數(shù)據(jù)研究方法,搭建了多個以Hadoop為基礎(chǔ)的云計算平臺。品有互動CEO黃曉南在接受《網(wǎng)絡(luò)導(dǎo)報》記者專訪時說,作為國內(nèi)最大的需求方平臺(DSP),品友互動每天處理上百億的數(shù)據(jù)量,其DSP平臺可以對接廣告交易平臺(AdExchange)進(jìn)行實時競價和智能算法,50毫秒內(nèi)完成響應(yīng)。

  可見,沒有速度,再有價值的大數(shù)據(jù)也只能是一堆無法流通的鈔票。

  讓大數(shù)據(jù)來為你做商業(yè)決策

  黃曉南說,數(shù)據(jù)挖掘是博大精深的事情,似乎永遠(yuǎn)也沒有盡頭,品友專注于做的無非就是“用用戶的行為軌跡來描繪用戶的屬性,并且在實踐的過程中去印證方法的正確性”。不過,在每天都見證數(shù)據(jù)挖掘會產(chǎn)生實質(zhì)價值的過程中,她也收獲頗豐。黃曉南說,作為大數(shù)據(jù)的實踐者,品友互動的DSP已經(jīng)成為很多客戶的選擇,廣告投放的效率和效果都得到超過50%的提升。像Volvo汽車、海爾商城等品牌,投放目標(biāo)人群覆蓋地域、人口屬性、個人關(guān)注和購買傾向四大類,幫助它們實現(xiàn)高效能的廣告投放效果。

  這個案例有效地支撐了曹宇欽的說法:“在大數(shù)據(jù)時代,用戶投資大數(shù)據(jù)不僅僅是尋求對海量數(shù)據(jù)的收集、整理、分析的工具,而是要找到能夠?qū)?shù)據(jù)與業(yè)務(wù)相結(jié)合,實時幫助決策者分析問題、解決問題,提供最佳決策的支持?!?/P>

  孫博凱也認(rèn)為,在大數(shù)據(jù)時代,必須對數(shù)據(jù)進(jìn)行豐富,必須“把你的數(shù)據(jù)和世界其他地方的數(shù)據(jù)連接起來”,這樣才能產(chǎn)生更多的價值。“首先你要保證它是清潔的、準(zhǔn)確的,然后你會發(fā)現(xiàn)一些附加數(shù)據(jù),與你所要分析的數(shù)據(jù)相關(guān),你可以把自己的數(shù)據(jù)和Web數(shù)據(jù)整合起來,從中獲得洞察?!?/P>

  他舉例說,如果你從事銷售行業(yè),希望看到自己的業(yè)績表現(xiàn)如何,那么光看自己的銷售業(yè)績并不夠,還需要看自己公司內(nèi)部同事的業(yè)務(wù)如何,你做得比他們好還是比他們差;推而廣之,你還必須看看其他的同業(yè)公司,不管是競爭對手還是合作伙伴,乃至“看一下全世界的數(shù)據(jù),世界經(jīng)濟是加速還是放緩、是軟著陸還是硬著陸,這對于你將會產(chǎn)生什么影響等?!?/P>

  當(dāng)然,我們現(xiàn)在已經(jīng)找到了一些方法,初步的或者局部的。比如,SAS高性能分析軟件就包括了網(wǎng)格計算、庫內(nèi)分析以及內(nèi)存分析、可視化分析。甲骨文公司前不久也發(fā)布了自己的大數(shù)據(jù)一體機平臺,“把大數(shù)據(jù)的存儲、大數(shù)據(jù)的處理、大數(shù)據(jù)的BI展現(xiàn)在一臺機器中全部融合進(jìn)去”。

  正如中國移動研究院首席科學(xué)家楊景所說:“要做好大數(shù)據(jù),讓整個供應(yīng)鏈都擁有最新的技術(shù),就必須關(guān)注大數(shù)據(jù)的工具,要有工具來支撐大數(shù)據(jù)時代的協(xié)同。最終,基于模型驅(qū)動的系統(tǒng)工程所滿足的,不是功能需求而是商業(yè)需求?!?/P>

  曾經(jīng)有人說,國內(nèi)幾大微博巨頭盡管有龐大的流量,并且在移動互聯(lián)網(wǎng)領(lǐng)域布局頗好,但在探索商業(yè)模式方面卻舉步維艱,也許,在不久的將來,當(dāng)他們在大數(shù)據(jù)領(lǐng)域有所斬獲的時候,事情就會變得相對容易。