編者按:在今日IT界,“大數據”炙手可熱。有人將“大數據”喻為與蒸汽、電力、石油相媲美的下一代重要自然資源,是企業(yè)未來競爭優(yōu)勢的基礎。遠傳技術上海研發(fā)中心的葛培明博士一直關注研究“運營數據分析”領域,對“大數據”有一番自己的見解,以下是他對大數據的一些看法:
Q: 葛博士,您好。請問您是如何看待大數據的作用,尤其是非結構化數據?
A:您好;ヂ(lián)網、移動互聯(lián)網、語音電話、物流網絡、電子商務和企業(yè)內部信息化軟件,這些系統(tǒng)每一分每一秒都在產生大量的數據。據估計,過去兩年間產生的數據占目前全球數據的90%,新的數據正在以每天2.5EB的量級高速增長。
通過對不同來源數據的管理、處理、分析與優(yōu)化,并將分析與優(yōu)化的結果應用到實踐中,將創(chuàng)造出巨大的經濟和社會價值。
從企業(yè)自身的發(fā)展來講,企業(yè)正在經歷從“經驗驅動”到“數據驅動”的階段,例如,零售商可以通過大數據的分析實時掌握市場動態(tài)并迅速做出應對;大數據分析為制定更加精準有效的營銷策略提供決策支持,為消費者提供更加及時和個性化的服務。另外,大數據也在改變著人們的思維,從抽樣分析到全數據分析,從因果關系分析到相關關系分析,大數據正在改變著人類科學研究的手段。
對于非結構化數據的處理與分析,目前還存在一些瓶頸,但每一次突破都會帶來技術與商業(yè)的革命。
Q:您能舉例說明一下大數據挖掘的神奇效果嗎?
A:谷歌公司利用5000萬條最頻繁檢索的詞條,并對美國疾控中心在2003年到2008年間季節(jié)性流感傳播時期的數據進行了比較,成功的預測了冬季流感在全美范圍的傳播,而且具體到特定的地區(qū)和州,預測結果發(fā)布的時間比官方數據早了一兩周。
Q:請問您覺得國內企業(yè)是否重視大數據?他們是如何采集和挖掘大數據的?達到了怎樣的效果?他們在采集和挖掘上還需要哪些改善?請結合實際例子談一談。
A:目前國內的很多企業(yè)或組織也逐漸意識到大數據分析的價值和重要性。
對于大數據的采集和挖掘,他們進行了許多實踐。比如大型電商、銀行、保險、電信運營商等都在不同程度的利用大數據進行決策支持,而且已經有一些成果。例如電商的智能推薦系統(tǒng)、保險的需求預測、電信運營商的個性化服務等。
在具體方法上,這些企業(yè)多數選用了客戶行為分析軟件,他們取得的成果和面臨的問題,從客戶行為分析軟件在國內的發(fā)展歷程上就可以體現(xiàn)出來。
客戶行為分析的目標就是大數據,它起源于國外,09年進入中國。
最初的客戶行為分析稱之為流量統(tǒng)計,它的主要功能就是統(tǒng)計網站有多少人訪問,每一個頁面有多少點擊量。在當時,這款軟件還是產生了很大作用。但是流量統(tǒng)計有兩個非常基礎的問題沒有解決:一是網頁內部的點擊沒有跟蹤,這就造成客戶行為不全。二是不了解客戶屬性,比如網站有100萬的訪問量,但是不知道這100萬是誰。
所以出現(xiàn)了第二代的客戶行為分析,它是基于電子商務的客戶行為。除了流量統(tǒng)計之外,還可以跟蹤內部點擊,通過頁面的訪問量、平均每次交易額等,定制一些流程圖,看出交易中的不足。第二代客戶行為分析解決了流量時代的第一個缺陷,在電子商務領域取得了非常巨大的成功。
但是適用于電商領域的客戶分析軟件,在非電子商務領域卻水土不服。