注冊
大數(shù)據(jù)
您當前所在位置:

大數(shù)據(jù)分析及其工具

來源:  撰稿人:  發(fā)布時間:2015年05月19日 瀏覽:
摘要:

  大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進行分析,主要包括以下五個方面:

  1. Analytic Visualizations(可視化分析)

  不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說話,讓觀眾聽到結(jié)果。

  2. Data Mining Algorithms(數(shù)據(jù)挖掘算法)

  可視化是給人看的,數(shù)據(jù)挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。

  3. Predictive Analytic Capabilities(預(yù)測性分析能力)

  數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測性的判斷。

  4. Semantic Engines(語義引擎)

  我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語義引擎需要被設(shè)計成能夠從“文檔”中智能提取信息。?

  5. Data Quality and Master Data Management(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)

  數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數(shù)據(jù)進行處理可以保證一個預(yù)先定義好的高質(zhì)量的分析結(jié)果。

  大數(shù)據(jù)分析的工具主要包括數(shù)據(jù)倉庫、數(shù)據(jù)集市、前端展現(xiàn)等。目前開源工具中廣泛使用的是Hadoop,Hadoop是一個項目的總稱,主要是由HDFS和 MapReduce組成。其中HDFS是Google File System(GFS)的開源實現(xiàn),MapReduce是Google MapReduce的開源實現(xiàn)。

  Google最早建立了大數(shù)據(jù)分析工具體系,Google的數(shù)據(jù)中心使用廉價的Linux PC機組成集群,在上面運行各種應(yīng)用。即使是分布式開發(fā)的新手也可以迅速使用Google的基礎(chǔ)設(shè)施。核心組件是3個:

 ?、盙FS(Google File System)。一個分布式文件系統(tǒng),隱藏下層負載均衡,冗余復(fù)制等細節(jié),對上層程序提供一個統(tǒng)一的文件系統(tǒng)API接口。Google根據(jù)自己的需求對它 進行了特別優(yōu)化,包括:超大文件的訪問,讀操作比例遠超過寫操作,PC機極易發(fā)生故障造成節(jié)點失效等。GFS把文件分成64MB的塊,分布在集群的機器 上,使用Linux的文件系統(tǒng)存放。同時每塊文件至少有3份以上的冗余。中心是一個Master節(jié)點,根據(jù)文件索引,找尋文件塊。詳見Google的工程 師發(fā)布的GFS論文。

 ?、睲apReduce。Google發(fā)現(xiàn)大多數(shù)分布式運算可以抽象為MapReduce操作。Map是把輸入Input分解成中間的Key/Value 對,Reduce把Key/Value合成最終輸出Output。這兩個函數(shù)由程序員提供給系統(tǒng),下層設(shè)施把Map和Reduce操作分布在集群上運行, 并把結(jié)果存儲在GFS上。

 ?、矪igTable。一個大型的分布式數(shù)據(jù)庫,這個數(shù)據(jù)庫不是關(guān)系式的數(shù)據(jù)庫。像它的名字一樣,就是一個巨大的表格,用來存儲結(jié)構(gòu)化的數(shù)據(jù)。

  當前用于分析大數(shù)據(jù)的工具主要有開源與商用兩個生態(tài)圈。

  開源大數(shù)據(jù)生態(tài)圈:

  1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態(tài)圈逐步形成。

  2、. Hypertable是另類。它存在于Hadoop生態(tài)圈之外,但也曾經(jīng)有一些用戶。

  3、NoSQL,membase、MongoDb

  商用大數(shù)據(jù)生態(tài)圈:

  1、一體機數(shù)據(jù)庫/數(shù)據(jù)倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。

  2、數(shù)據(jù)倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。

  3、數(shù)據(jù)集市:QlikView、 Tableau 、 以及國內(nèi)的Yonghong Data Mart 。

責任編輯:系統(tǒng)管理員
分享文章到:
0
瀏覽次數(shù):
】 【 打印本頁】 【 關(guān)閉窗口
因特網(wǎng)信息服務(wù)經(jīng)營許可證:電信業(yè)務(wù)審批[2004]885號 京ICP證040699號 海淀公安分局備案號:1101081900 廣告經(jīng)營許可證:京海工商廣字第9990號
中科匯聯(lián)承辦,easysite內(nèi)容管理系統(tǒng),portal門戶,輿情監(jiān)測,搜索引擎,政府門戶,信息公開,電子政務(wù)