面向服務的大數據分析平台解決方案
來源:科技促進發展雜志 更新時間:2014-08-27

 本文針對日益增長的大數據分析與信息服務的應用需求,提出基於數據中心和互聯網、面向服務的大數據分析平台解決方案,為開展大數據分析相關的研究和實踐提供借鑒和參考。首先對國內外大數據技術的產業現狀進行回顧,然後給出基於數據中心和互聯網的大數據分析平台拓撲架構,討論大數據分析平台的系統功能和關鍵技術,最後闡述該平台系統的應用和產業化前景。
    近年來,大數據處理與分析已經成為全球性問題,引起歐美各國政府和產業界高度重視,美國政府於2012年3月率先發布了《大數據研究與發展計劃》,Google,  Amazon、Facebook、IBM、EMC、SAP等國際領先互聯網和仃公司都在相關技術領域和應用進行布局,力圖在大數據產業浪潮中搶得先機。
    隨著我國經濟社會信息化和自動化水平不斷提高,在政府管理、公共服務、科學研究、商業應用等許多領域也而臨大數據問題,亞需各種有針對性和經濟有效的解決方案,快速提升我國在大數據領域的整體實力和國際競爭力。
    木文結合中國科學院戰略性技術先導專項“而向感知中國的新一代信息技術”中“海雲數據系統”的研制實踐,提出基於互聯網和數據中心、而向服務的大數據分析平台解決方案,以滿足日益增長的用戶需求,為我國開展大數據分析技術的研究和實踐提供借鑒和參考。
一、大數據技術發展現狀
    大數據時代來臨,工業界是技術爭霸的主戰場。全球大數據產業界針對大數據特有的海量、非結構化、關系復雜、動態時變等特性以及不斷湧現的各種新型應用需求,圍繞海量復雜數據的存儲、管理、整合、處理、分析、展現、應用等主要環節,已經形成了新的大數據產業體系。
    從發展路線角度看,業界將大數據產業劃分為三大陣營:一類是以IB M、微軟、惠普、ORACLE,EM C等為代表的傳統仃領導廠商,通過“硬件十軟件十數據”整體解決方案向用戶提供以平台為核心的完備的基礎架構與服務,並通過密集地並購大數據分析企業,以迅速增強和擴展在大數據分析領域的實力和市場份額;一類是以SA S,  SPSS等為代表的專業商務智能公司,專注於智能數據分析;還有一類是以G oogle,Am azon,  Facebook等互聯網公司為代表,基於自身的應用平台、龐大用戶群和海量用戶信息,提供精准營銷和個性化推薦等商業活動。以上三大陣營各有特點和優勢,形成了大數據時代三足鼎立的格局。
    1.招體平台解決方案廠向
    以IB M、微軟、惠普、ORACLE,  EMC等為代表的傳統IT巨頭,通過“硬件+軟件+數據”的整體平台向用戶提供大數據一站式解決方案。IBM在過去幾年連續投入160億美元,收購了30多家與大數據相關的企業,初步實現了大數據行業應用的布局。目前IBM在軟件架構層而,收購了商務智能軟件供應商Cognos、統計分析軟件SPSS、數據庫分析供應商Netezza。結合IBM的DB2數據庫,推出了支持Apache Hadoop的Info Sphere BigIn sights軟件,支持大數據的應用。在硬件架構層而,IBM發布了集成了刀片服務器、存儲、網絡設備及相應軟件系統的大數據一體機Pure Data,提供數據倉庫、和數據分析等功能。
    為了應對行業競爭,數據庫龍頭企業ORACLE推出了0racle大數據一體機。該一體機集成了0racle Exalogic中間件雲服務器,  0racle  Exadata數據庫雲服務器和0racle  Exalytics商務智能雲服務器形成了ORACLE企業級端到端大數據的產品線。
    通過收購 Vertica 公司,惠普推出針對大數據的Vertica 6.1 數據分析平台,突破了傳統數據倉庫和數據庫無法實現縱向擴展的瓶頸。在大數據管理方面,Vertica 信息優化平台實現高速度、高性能、高可擴展,通過內嵌 R 語言包實現了分析功能。Vertica 數據分析平台以軟件的形式存在,可以加載在不同的計算資源上運行,包括一體機,同構或異構的硬件集群,甚至是公有雲環境。
    存儲服務器廠商 EMC 依托其 Greenplum 數據庫推出了第一款 Greenplum 一體機產品(Appliance),對原有的EMC硬件和Greenplum 軟件進行了整合。Greenplum 采用不同於Oracle,DB2等數據庫產品的shared-nothing 大規模並行處理(Massive Parallel Process,MPP) 架構,特別適用於大數據分析場景,可以通過增加節點方式進行橫向擴展,從而有效控制成本和性能。Greenplum 包含支持結構化數據處理的 Greenplum Database 和非結構化數據處理的Greenplum HD (Hadoop)。
    整體平台解決方案廠商依靠自身原有的軟件、硬件或技術優勢,通過收購及整合不同公司的產品線,實現對大數據各個領域的覆蓋。但是這種堆砌式的系統整合,並不能徹底的突破大數據分析的瓶頸。只有通過對自身產品和技術的原始創新,才能實現對大數據處理問題的徹底解決。
    2. 商務智能專業廠商
    以 SAS、Teradata、Hyperion、Business Objects、Cognos、SPSS 等為代表的商務智能專業廠商長期專注於智能數據分析領域,具有技術實力強、產品線豐富、深刻理解傳統行業(如銀行、電信、零售)應用需求等優勢。近年來,隨著大數據分析競爭日趨激烈,該類廠商成為傳統 IT 巨頭的爭奪焦點,早在 2007年至 2009 年,Oracle、SAP、IBM 等 IT 巨頭就已完成對商務智能前四大廠商 Hyperion、Business Objects、Cognos、SPSS 的並購。
    商務智能專業廠商在大數據時代的發力點在結構化數據處理。在大數據時代,這些廠商開始加大在高可擴展計算、非結構化數據處理、以及與業務運營集成的實時處理(即操作型商務智能)等方面的投入和創新。例如,SAS 在 2012 年推出了基於內存計算的高性能數據分析方案,核心部件包括:SAS 高性能分析服務器、SAS 可視化分析和 SAS DataFlux 數據流處
理引擎。SAS 高性能分析服務器采用庫內分析和內存計算兩種解決方案。庫內分析技術在數據庫內實現分析的過程,用戶過去開發的 SAS 程序可以直接移植使用,而且這樣的分析過程無需提取數據,避免了數據傳輸的額外開銷,分析能力極大地提高。內存計算技術則利用大內存服務器的優勢,減少數據從硬盤加載到內存的機會,把數據和分析程序直接放置在內存中執行,特別適合具有迭代和嵌套模式的分析算法,極大地提高了建模處理的速度。除此之外,SAS 公司最新推出的高性能分析解決方案還采用了“SAS Visual Analytics”技術,即可視化分析,讓用戶及時地查看分析結果。
    Teradata 公司針對大數據處理提出了統一數據架構 (Teradata Unified Data Architecture,UDA)下的 Aster 大數據分析平台該平台繼承了Teradata公司統一數據架構在數據管理方面的優勢,它與大數據的收集、處理等工作緊密相連,為企業提供一個完善的數據源。UDA 通過 Hadoop 實現數據存儲管理,通過 Aster 實現數據探索和分析,通過 Teradata實現統
一的數據架構,將存儲、分析與整合相互結合,實現大數據價值的一個完整的閉環。
    商務智能專業廠商(如 SAS、Teradata)憑借在數據分析領域的長期積累,在大數據的分析建模方面仍然處於行業領導地位。但是,這些產品的大數據處理能力往往依賴於高性能服務器的處理能力,雖然他們也在向 Hadoop 等分布式平台遷移,但是實際的效果還有待觀察。
    3. 互聯網公司
    大型的互聯網巨頭,如國外的 Google、Facebook、Amazon,國內的阿裡巴巴、百度、騰訊等,基於自身海量的用戶信息和互聯網處理平台,依托大數據提供精准營銷和個性化廣告推介等商業活動。十年前,Google發表的 GFS(Google File System)、MapReduce、和 BigTable論文催生了大數據處理的事實標准Hadoop。目前,Google 通過自身開發的 Caffeine平台,直接將索引放置在分布式數據庫 BigTable 上。Google 還向用戶提供了大數據的虛擬服務器業務,用戶可以把數據上傳到 Google,采用 Google 提供的BigQuery和 Google Compute Engine等服務和基礎設施完成數據查詢和分析。
    Facebook 目前運行著世界上最大的 Hadoop 服務器集群,存儲的數據超過了 100PB,每30 分鐘可以處理的數據超過了 105TB。然而,爆炸式增長的數據使Facebook 的 Hadoop 服務器集群難以承受,出現數據雪崩問題 (avalanche of data)。為此,Facebook 開發出兩種全新軟件平台處理大數據的挑戰,第一種叫做“Corona ( 日冕 )”,它可以實現在數目龐大的
Hadoop 服務器之間運行大量的任務,並且不用擔心軟件錯誤會導致整個服務器集群出現崩潰。第二種叫做“Prism ( 棱鏡 )”,它實現了不同地域服務器的數據自動復制和傳輸,使 Facebook 遍布全球數據中心的Hadoop 服務器集群的數據得到同步,形成更加龐大的Hadoop 數據集群。
    雲計算服務提供商 Amazon 推出了 Amazon 彈性MapReduce(Amazon Elastic MapReduce)。彈性MapReduce 是一項能夠迅速擴展的 Web 服務,運行在亞馬遜彈性計算雲(Amazon EC2)和亞馬遜簡單存儲服務平台上(Amazon S3)上。作為業界領先的雲計算服務提供商,Amazon 提供網頁檢索、日志分析、數據挖掘、金融建模等數據密集型的任務需要的彈性雲服務,動態地滿足用戶對於計算資源的需求。
    相對於國外互聯網企業在大數據技術上的不斷創新,國內互聯網企業主要在大數據應用模式上創新。阿裡巴巴利用旗下淘寶網的歷史交易數據,推出了“淘寶指數”,相對於國外互聯網企業在大數據技術上的不斷創新,國內互聯網企業主要在大數據應用模式上創新。阿裡巴巴利用旗下淘寶網的歷史交易數據,推出了“淘寶指數”,商家可以參考該指數指導生產、制定價格和控制庫存。百度面對大數據時代企業需求,從數據、工具及應用三個層面規劃大數據時代的企業戰略。騰訊利用自身強大的社會網絡通訊平台資源,通過大數據技術挖掘社會網絡中的商業價值,實現了不同產品營銷平台,為用戶推薦感興趣的產品和內容。
    綜上所述,當前的大數據技術領域以產業引領為主,在大數據集中的領域推出相應的產品和服務。學術界主要圍繞其中的難點問題展開基礎性研究。目前,圍繞大數據的科學研究、技術創新、系統開發和實際應用剛剛起步,無論產業界還是學術界,正處在群雄並起的“大數據春秋時期”。可以預計,在未來五至十年,大數據領域將會發展成若干核心團隊、公司、典型應用的“大數據戰國時代”。
二、大數據分析平台體系架構
    大數據沒有一個明確的定義,是一個相對的概念,取決於當前所具有的數據處理能力。如果一個用戶所面對的數據超出該用戶所擁有的數據存儲、處理和分析的能力,致使該用戶不能有效地利用數據,該用戶就面對大數據問題。在大數據時代,個人、企業和機構都會面臨大數據的問題。建設面向服務的大數據平台,為眾多的中小企業和個人用戶提供大數據處理和分析的能力,將成為大數據產業發展的重要方向。
    面向服務的大數據分析平台以區域性智能數據中心及高速互聯網為基礎設施,以互聯網服務體系為架構,以大數據存儲、處理、挖掘和交互式可視化分析等關鍵技術為支撐,通過多樣化移動智能終端及移動互聯網為用戶提供數據存儲、管理及分析服務。
 
    大數據分析平台的拓撲架構如圖 1 所示。其中部署在多個地方的智能數據中心提供大數據存儲及計算平台,通過平台服務器提供系統調用功能。門戶服務中心將整合所有的智能數據中心存儲和計算資源,並通過 web 應用服務器和 Open API 服務器以 web 調用和Open API 調用的方式提供大數據存儲、管理及挖掘服務。終端用戶利用移動智能終端通過互聯網訪問門戶服務中心,使用其提供的大數據存儲、管理及挖掘服務。
130534240913963013_new.jpg (474×417)

圖1.大數據分析平台拓撲示意圖
 
    大數據分析平台的系統架構如圖 2 所示。系統包含 3 個層次:平台層為整個大數據分析平台提供基礎平台支持;功能層提供基本的大數據存儲和挖掘功能;服務層為用戶提供基於互聯網的大數據服務。具體包括:
130534241958212741_new.jpg (555×292)

圖2.大數據分析平台系統架構
(1)平台層:為大數據存儲和挖掘提供大數據存儲和計算平台,為多區域智能中心的分析架構提供多數據中心調度引擎;
(2)功能層:為大數據存儲和挖掘提供大數據集成、存儲、管理和挖掘功能;
(3)服務層:基於 Web 和 Open API 技術提供大數據服務。
三、大數據分析平台關鍵技術
    建設面向服務的大數據分析平台,需要研究和開發一系列關鍵技術(如圖 3 所示),主要包括:
130534242475282315_new.jpg (539×288)

圖3.大數據分析平台關鍵技術
    1. 平台層
    (1)大數據分布式存儲系統:針對數據不斷增長的挑戰,需要研究大規模、非結構化數據的存儲問題,突破大數據的存儲、管理和高效訪問關鍵技術,當前需要構建至少 PB 級存儲能力的大數據平台才能滿足一般的科研和應用需求。
    (2)分布式數據挖掘運行時系統:針對大數據挖掘算法運行的挑戰,突破 MapReduce 技術的局限,研究有效支持迭代、遞歸、層次及集成機制的海量數據挖掘編程模型和運行時系統,構建大數據運行時系統。
    (3)智能數據中心聯合調度技術:針對大數據存儲和挖掘的挑戰,研究多數據中心的智能聯合調度、負載均衡技術,整合多個數據中心的存儲和計算資源,構建基於多智能中心的大數據服務平台。
    2. 功能層
   (1)高可擴展性大數據挖掘算法:針對大數據挖掘的挑戰,研究基於雲計算的分布式大數據處理與挖掘算法,構建高可擴展的大數據處理與挖掘算法庫,實現 TB 級數據的建模能力。
   (2)大數據安全與隱私保護技術:針對數據挖掘“軟件即服務”(SaaS)模式的需求,研究開發數據挖掘在雲環境下的隱私保護、數據審計和節點數據挖掘技術,確保大數據挖掘過程中的數據安全,保證用戶的隱私不被泄露。
   (3)分布式工作流引擎:針對大數據挖掘分布式調度的挑戰,研究基於雲計算的分布式工作流調度、負載均衡技術,構建高效分布式工作流執行引擎。
 
   (4)交互式可視化分析技術:針對傳統分析方法交互性和可理解性不足的問題,研究啟發式、人機交互、可視化數據挖掘新技術,實現大數據挖掘的高度人機交互功能。
    3. 服務層
    (1)基於 Web 的大數據挖掘技術:突破傳統的基於單機軟件的數據挖掘技術,創新基於 Web 的大數據挖掘方法和流程,實現易於使用的基於 Web 的大數據挖掘技術,構建基於 Web 的大數據分析環境。
    (2)基於 Open API 的大數據挖掘技術:突破傳統的基於軟件的數據挖掘技術,創新基於 Open API 的大數據挖掘方法,研究大數據挖掘開放接口、開放流程,構建基於 Open API 的大數據分析模式。
    為廣大用戶提供大數據處理和分析的服務功能,大數據分析平台要突破傳統的基於軟件和高端服務器的數據挖掘傳統技術體系,采用基於雲計算的大數據存儲和處理架構、分布式數據挖掘算法和基於互聯網的大數據存儲、處理和挖掘服務模式。實現這一目標需要做如下創新:
    (1)系統架構創新:突破傳統的基於軟件和高端服務器的數據挖掘技術體系,研發基於互聯網和雲計算的大數據存儲、處理和挖掘的數據中心系統架構,支持多用戶、多任務的大數據分析環境;
    (2)服務模式創新:突破傳統的一次性軟件銷售或軟件租賃的高價格解決方案,創新基於互聯網的大數據存儲、處理和分析服務模式,為用戶提供按需、廉價的大數據存儲、處理和分析服務;
    (3)使用模式創新:突破傳統的使用單機軟件的方式,創新基於互聯網的大數據存儲、管理和分析服務,提供多終端(台式機、筆記本、平板電腦、手機等)、多途徑(瀏覽器訪問,Open API 調用等)的用戶使用模式。
四、大數據分析平台應用與產業化
    商業應用是大數據分析平台的發展目標。隨著我國企業信息化程度和水平不斷提高,越來越多的企業需要大數據分析的能力以提高競爭力。在互聯網、電子商務、金融、電信、零售、物流等數據驅動型行業,客戶分群、客戶行為分析、客戶關系管理、市場營銷、廣告投放、業務優化、風險管理等企業核心業務越來越依賴於對數據的有效分析與挖掘。正如在《大數據:國家選擇與產業方向》一書中所說,“大數據時代公司的價值,與其擁有的數字資產的規模、活性成正比,與其解釋、運用數據的能力成正比”。因此,如何從海量業務數據中挖掘有價值的信息和知識,從而指導商業運營與決策、提高企業運營效率和盈利能力,成為每個企業都將面臨的重要挑戰。
   大數據分析平台基於分布式海量數據存儲與計算環境,提供圖形化交互式數據處理和分析工具,豐富的數據分析與挖掘算法,以及交互式可視化分析工具,通過互聯網服務方式向用戶提供服務。這種系統實現策略不僅符合大數據應用的發展趨勢,同時也滿足中小企業和個人用戶對於數據分析系統的可用性、時效性和低成本等方面的要求。
    目前,在大數據處理與分析領域,國際上三支主要力量在不斷地競爭與融合,即大型互聯網公司(如Google、Amazon)、 傳 統 商 務 智 能 公 司( 如 SAS、SPSS)和傳統 IT 公司(如 IBM、ORACLE、SAP)。三方從各自優勢出發,不斷增強針對大數據的分析智能性、計算擴展性和非結構化數據處理能力。盡管一些公司在上述領域取得突破並搶得市場先機,但國際大數據產業整體上仍然處於起步階段,據 IDC 公司預測未來 5 年大數據分析產業年增長率高達 9.8%,到 2016年全球產業規模將超過 500 億美元。同時,越來越多的大數據創新公司不斷湧現並發展迅速,也證明了該領域蘊含著巨大的發展潛力和廣闊的市場前景。
    大數據分析平台所采用的技術路線和應用模式融合了智能分析技術、高可擴展計算技術、非結構化數據處理技術和軟件即服務(SaaS)應用模式,符合當前國際大數據產業的發展趨勢和產業化應用要求。一方面,系統通過互聯網服務方式向用戶提供高可用、高易用和一站式的海量數據分析服務,可有效降低企業應用門檻和成本,通過專業化服務外包滿足企業個性化需求。另一方面,由於是開放架構的系統平台,商業用戶和其他軟件提供商可通過系統提供的互聯網服務開發接口(Open API)開發面向行業商務智能應用的解決方案,孵化新型咨詢公司、軟件公司和信息服務公司,有助於形成以平台為核心的大數據分析產業生態環境。