大數(shù)據(jù)分析及其工具

來(lái)源：發(fā)布時(shí)間：2015年05月19日

摘要:

　　大數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析，主要包括以下五個(gè)方面：

　　1. Analytic Visualizations（可視化分析）

　　不管是對(duì)數(shù)據(jù)分析專家還是普通用戶，數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀的展示數(shù)據(jù)，讓數(shù)據(jù)自己說(shuō)話，讓觀眾聽(tīng)到結(jié)果。

　　2. Data Mining Algorithms（數(shù)據(jù)挖掘算法）

　　可視化是給人看的，數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部，挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量，也要處理大數(shù)據(jù)的速度。

　　3. Predictive Analytic Capabilities（預(yù)測(cè)性分析能力）

　　數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù)，而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。

　　4. Semantic Engines（語(yǔ)義引擎）

　　我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn)，我們需要一系列的工具去解析，提取，分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。?

　　5. Data Quality and Master Data Management（數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理）

　　數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。

　　大數(shù)據(jù)分析的工具主要包括數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、前端展現(xiàn)等。目前開(kāi)源工具中廣泛使用的是Hadoop，Hadoop是一個(gè)項(xiàng)目的總稱，主要是由HDFS和 MapReduce組成。其中HDFS是Google File System（GFS）的開(kāi)源實(shí)現(xiàn)，MapReduce是Google MapReduce的開(kāi)源實(shí)現(xiàn)。

　　Google最早建立了大數(shù)據(jù)分析工具體系，Google的數(shù)據(jù)中心使用廉價(jià)的Linux PC機(jī)組成集群，在上面運(yùn)行各種應(yīng)用。即使是分布式開(kāi)發(fā)的新手也可以迅速使用Google的基礎(chǔ)設(shè)施。核心組件是3個(gè)：

　?、盙FS（Google File System）。一個(gè)分布式文件系統(tǒng)，隱藏下層負(fù)載均衡，冗余復(fù)制等細(xì)節(jié)，對(duì)上層程序提供一個(gè)統(tǒng)一的文件系統(tǒng)API接口。Google根據(jù)自己的需求對(duì)它進(jìn)行了特別優(yōu)化，包括：超大文件的訪問(wèn)，讀操作比例遠(yuǎn)超過(guò)寫操作，PC機(jī)極易發(fā)生故障造成節(jié)點(diǎn)失效等。GFS把文件分成64MB的塊，分布在集群的機(jī)器上，使用Linux的文件系統(tǒng)存放。同時(shí)每塊文件至少有3份以上的冗余。中心是一個(gè)Master節(jié)點(diǎn)，根據(jù)文件索引，找尋文件塊。詳見(jiàn)Google的工程師發(fā)布的GFS論文。

　?、睲apReduce。Google發(fā)現(xiàn)大多數(shù)分布式運(yùn)算可以抽象為MapReduce操作。Map是把輸入Input分解成中間的Key/Value 對(duì)，Reduce把Key/Value合成最終輸出Output。這兩個(gè)函數(shù)由程序員提供給系統(tǒng)，下層設(shè)施把Map和Reduce操作分布在集群上運(yùn)行，并把結(jié)果存儲(chǔ)在GFS上。

　?、矪igTable。一個(gè)大型的分布式數(shù)據(jù)庫(kù)，這個(gè)數(shù)據(jù)庫(kù)不是關(guān)系式的數(shù)據(jù)庫(kù)。像它的名字一樣，就是一個(gè)巨大的表格，用來(lái)存儲(chǔ)結(jié)構(gòu)化的數(shù)據(jù)。

　　當(dāng)前用于分析大數(shù)據(jù)的工具主要有開(kāi)源與商用兩個(gè)生態(tài)圈。

　　開(kāi)源大數(shù)據(jù)生態(tài)圈：

　　1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生，早期Hadoop生態(tài)圈逐步形成。

　　2、. Hypertable是另類。它存在于Hadoop生態(tài)圈之外，但也曾經(jīng)有一些用戶。

　　3、NoSQL，membase、MongoDb

　　商用大數(shù)據(jù)生態(tài)圈：

　　1、一體機(jī)數(shù)據(jù)庫(kù)/數(shù)據(jù)倉(cāng)庫(kù)：IBM PureData(Netezza), OracleExadata, SAP Hana等等。

　　2、數(shù)據(jù)倉(cāng)庫(kù)：TeradataAsterData, EMC GreenPlum, HPVertica 等等。

　　3、數(shù)據(jù)集市：QlikView、 Tableau 、以及國(guó)內(nèi)的Yonghong Data Mart 。

責(zé)任編輯:系統(tǒng)管理員

分享文章到：

瀏覽次數(shù):

【大中小】【打印本頁(yè)】【關(guān)閉窗口】