注冊
大數(shù)據(jù)
您當(dāng)前所在位置:

大數(shù)據(jù)的前世今生

來源:  撰稿人:  發(fā)布時間:2015年05月19日 瀏覽:
摘要:

  什么是大數(shù)據(jù)(big data)?它在百度百科上的概念是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。

  這 個晦澀難懂的概念用一個例子就能說清,劉邦為什么能戰(zhàn)勝項羽?在歷史的角度上原因很多,但從今天的話題來看,因為劉邦掌握了“大數(shù)據(jù)”。劉邦的隊伍進(jìn)入咸 陽后,蕭何將秦朝有關(guān)國家戶籍、地形、法令等圖書檔案一律收走。這些秦朝的律令圖書檔案就相當(dāng)于大數(shù)據(jù),使劉邦對天下的關(guān)塞險要、戶口多寡、強弱形勢、風(fēng) 俗民情等了如指掌,從而制定了正確的方針政策和律令制度,找到了可靠的依據(jù),對日后打敗項羽、西漢政權(quán)的建立和鞏固,起到了巨大的作用。這個故事看似不太 著邊際,卻一目了然的解釋了“大數(shù)據(jù)”的作用。

  而在網(wǎng)絡(luò)時代的當(dāng)下,大數(shù)據(jù)的數(shù)量規(guī)模、復(fù)雜程度早已不是人工可以掌握的, 這個數(shù)據(jù)量有多大?舉一個直觀的例子:每天互聯(lián)網(wǎng)上要發(fā)出2940億封郵件,200萬篇博客,1288個新應(yīng)用可供下載,數(shù)據(jù)流量可以刻1.68億張 DVD光盤。如此數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,只有基于云計算的數(shù)據(jù)處理與應(yīng)用模式下,通過數(shù)據(jù)的整合共享,交叉復(fù)用,才能形成智力 資源和知識服務(wù)能力。

  講到這里,很多概念性的名詞蹦出,比如“云計算、云平臺”,恐怕有很多人不明白其含義,以及大數(shù)據(jù)的產(chǎn)生的背景和演變的過程,大數(shù)據(jù)應(yīng)用的知識和常識以對社會發(fā)展產(chǎn)生的革命性變化等。對此我們專訪了中金數(shù)據(jù)系統(tǒng)有限公司云計算研發(fā)部副總監(jiān)關(guān)懿新。

  什么是大數(shù)據(jù)

  “大數(shù)據(jù)并非新鮮事物,它早就存在,以前在軟件行業(yè),叫數(shù)據(jù)挖掘,企業(yè)通過報表、分析、圖表、走向趨勢、生產(chǎn)量分析其中的關(guān)系,發(fā)掘出能反映的問題,數(shù)據(jù)挖掘更多體現(xiàn)在傳統(tǒng)的軟件應(yīng)用里面,只不過大家不太注意?!标P(guān)懿新說道。

  其實大數(shù)據(jù)并非一個確切的概念。最初這個概念是指需要處理的信息量過大,已經(jīng)超出了一般電腦在處理數(shù)據(jù)時所能使用的內(nèi)存量,因此工程師們必須改進(jìn)處理數(shù)據(jù)的工具,這導(dǎo)致了新的處理技術(shù)的誕生。

  “大 數(shù)據(jù)的發(fā)掘能夠被廣泛應(yīng)用也是因為技術(shù)的進(jìn)步,使得海量的計算資源可以被計算。最早因為谷歌搜索引擎的崛起,建立一套不對外的海量數(shù)據(jù)處理平臺 MapReduce,后來開源的軟件仿照它的理論做了Hadoop平臺。國內(nèi)最早的巨型機(jī),比如銀河機(jī)、天河機(jī)也是非常昂貴?!标P(guān)懿新進(jìn)一步說到,隨著互 聯(lián)網(wǎng)的發(fā)展,這些技術(shù)使得人們可以處理的數(shù)據(jù)大大增加。而且這些數(shù)據(jù)不再需要用傳統(tǒng)的數(shù)據(jù)庫表格來整齊地排列,一些可以消除僵化的層次機(jī)構(gòu)和一致性的技術(shù) 出現(xiàn),互聯(lián)網(wǎng)公司可以收集大量更有價值的數(shù)據(jù)。

  2011年5月,麥肯錫全球研究院發(fā)布了名為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的 下一個前沿》的研究報告,報告中指出大數(shù)據(jù)將成為企業(yè)的核心資產(chǎn),對大數(shù)據(jù)的分析將成為競爭的關(guān)鍵,并會引發(fā)新一輪生產(chǎn)力的增長與創(chuàng)新,對海量數(shù)據(jù)的有效 利用將成為企業(yè)在競爭中取勝的最有利武器。麥肯錫還預(yù)測通過對大數(shù)據(jù)的合理使用可以使零售業(yè)的經(jīng)營利潤提高60%以上。 麥肯錫的報告發(fā)出后,大數(shù)據(jù)的概念迅速得到了IT界的熱捧。

  隨著平臺逐步的成熟,當(dāng)這些數(shù)據(jù)進(jìn)入商用,互聯(lián)網(wǎng)公司順利成章地 成為了最新處理技術(shù)的領(lǐng)頭羊,他們甚至超過了很多有幾十年經(jīng)驗的線下公司,成為新技術(shù)的領(lǐng)銜使用者。這僅僅是一個開始,當(dāng)大數(shù)據(jù)時代進(jìn)入了我們的生活,在 各行各業(yè)遍地開花的時候,正式開啟了重大的時代轉(zhuǎn)型。到今天“大數(shù)據(jù)”的概念已經(jīng)在業(yè)界內(nèi)外和大眾媒體上沸沸揚揚地廣為傳播,并不斷涌現(xiàn)出這個方向上的努 力與創(chuàng)新。

  云計算與云平臺

  云計算的概念最早出現(xiàn)在2006年,在當(dāng)年8月舉行的搜索引擎戰(zhàn)略大會上,谷歌CEO施密特在回答主持人提問的時候,第一次使用了“云”(cloud)這個詞來描述他的服務(wù)器。

  其 實這樣的想法由來已久。早在1995年,為了對抗快速崛起的微軟,甲骨文(Oracle)公司的CEO拉里?埃里森就推出了一款名為“網(wǎng)絡(luò)計算機(jī)”的設(shè) 備,當(dāng)時售價500美元,不需要安裝微軟的操作系統(tǒng)就可以使用。埃里森揶揄道:“個人電腦(PC)是一種可笑的設(shè)備。”他設(shè)想這樣一臺設(shè)備,可以像插入插 座獲得電力一樣,即插就能獲得數(shù)據(jù)。但是,這款設(shè)備生不逢時,很快就退出了市場,因為當(dāng)時的網(wǎng)絡(luò)傳輸速度極慢,產(chǎn)生的數(shù)據(jù)也沒有那么大,在自家的電腦上就 可以輕松完成。但是,埃里森的這個想法卻深深地影響了硅谷,奠定了現(xiàn)在云計算的雛形。

  近幾年云計算作為一個時髦的名詞,在商界、學(xué)術(shù)界甚至政府界都拼命的在各自的產(chǎn)品、技術(shù)、報告和文件中與之關(guān)聯(lián)。一時間,云存儲、云手機(jī)、云電腦等概念甚囂塵上,但始終有種云里霧里的感覺。

  “云 計算是把大量的數(shù)據(jù)資源架構(gòu)在互聯(lián)網(wǎng)上,或者說是云端,一個你看不到,但是能夠給你提供服務(wù)、能夠調(diào)動大量的計算機(jī)資源給你提供服務(wù)的地方。比如說你需要 這種服務(wù),需要十臺計算機(jī)或者一百臺計算機(jī),但你不需要把計算機(jī)都買過來,云計算是可以提供大規(guī)模的計算機(jī),遠(yuǎn)程地為你提供服務(wù)?!标P(guān)懿新解釋道。

  云計算能夠提供可彈性的計算資源在商業(yè)上為客戶進(jìn)行服務(wù)。中金曾經(jīng)為某三維動畫制作公司做3D效果的渲染,因為這家公司做完這部片子就不再需要這個服務(wù),所以不打算購買計算機(jī)但可以租用了中金的計算機(jī)的服務(wù)。

  “客戶根據(jù)需要多長時間、多少臺機(jī)器來付費就可以了。這樣的服務(wù)在互聯(lián)網(wǎng)企業(yè)剛起步的時候,需要的資源比較少,可以租少量的服務(wù)器,隨著業(yè)務(wù)的快速擴(kuò)張,可以從云端租用大量的服務(wù)器來支撐他們的業(yè)務(wù)?!标P(guān)懿新說:“這樣比自己購買計算機(jī)省下了一大筆錢和精力。”

  云 平臺是海量計算機(jī)管理的平臺,它是虛擬的平臺,且靈活可變,在中金數(shù)據(jù)系統(tǒng)有限公司采訪時,記者看到了機(jī)房里一臺臺服務(wù)器,云平臺的概念是用一個軟件把這 一百臺服務(wù)器管理起來,需要計算的時候就在上面產(chǎn)生一臺虛擬機(jī)器,而這臺機(jī)器所用的CPU是下面一百臺物理機(jī)提供的。因為一臺物理機(jī)可以根據(jù)它的能力產(chǎn)生 若干臺虛擬的計算機(jī),所以客戶可以根據(jù)需求來定制這臺虛擬計算機(jī)來提供服務(wù),服務(wù)完成之后這臺虛擬計算機(jī)就自動消掉了。

  云平 臺分為幾個層次,IAAS基礎(chǔ)層是虛擬機(jī)一層,負(fù)責(zé)動態(tài)管理物理資源,PAAS平臺層提供更基礎(chǔ)的軟件層,一般面向開發(fā)商,提供報表、數(shù)據(jù)分析、數(shù)據(jù)庫的 服務(wù)。SAAS是軟件層,直接提供軟件服務(wù),為客戶直接從手機(jī)端、PC端提供服務(wù),客戶直接從軟件上看到結(jié)果。比如輿情服務(wù)、信息推薦等。

  大數(shù)據(jù)與云計算

  大 數(shù)據(jù)催生了云計算,反過來,云計算又進(jìn)一步激發(fā)了人們對大數(shù)據(jù)的認(rèn)識。從表面上看,大數(shù)據(jù)和云計算是兩個完全不同的概念,從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān) 系就像一對完美搭檔,二者存在很多的交集,相互依賴。大數(shù)據(jù)必然無法用單臺的計算機(jī)進(jìn)行處理,必須采用分布式計算架構(gòu)。它的特色在于對海量數(shù)據(jù)的挖掘,但 它必須依托云計算的分布式處理。

  大數(shù)據(jù)的出現(xiàn),為云計算提供了釋放能量的空間,也指明了云計算真正有價值的方向。大數(shù)據(jù)對云 環(huán)境有著很高的依賴,云計算不僅大大提高了企業(yè)處理大數(shù)據(jù)的計算能力,而且不需要投入和管理過多的硬件設(shè)備,按照需要進(jìn)行付費,有效地優(yōu)化現(xiàn)有的資源。從 這一層意義上來說,云計算為大數(shù)據(jù)提供了保管的場所和暢通的訪問渠道。大數(shù)據(jù)作為企業(yè)的核心資產(chǎn),對其進(jìn)行有效的盤活,發(fā)掘出其在商業(yè)決策中的巨大價值是 云計算的內(nèi)在靈魂和必然的升級方向。

  “互聯(lián)網(wǎng)公司通過云計算為企業(yè)提供服務(wù),近些年在全國建立了很多數(shù)據(jù)中心,當(dāng)時提倡的概 念是集約化建設(shè)。通過建設(shè)集中的數(shù)據(jù)中心之后,很多單位只需要租用數(shù)據(jù)中心的服務(wù)。”關(guān)懿新打了個比方:“簡單說,原來各個單位都在建小機(jī)房,后來集中成 一個大機(jī)房,提供動態(tài)的資源分配為各個單位服務(wù)?!?/p>

  逐漸這個概念得到推廣,政府把原來只是在IT界的“云計算”推廣得更大、 更遠(yuǎn),開始建設(shè)云計算中心?!按蠹s從2010年開始,云計算的計算能力升級,能夠把若干臺機(jī)器統(tǒng)一管理,進(jìn)行大規(guī)模的運算,能對海量的數(shù)據(jù)進(jìn)行運算。于是 互聯(lián)網(wǎng)公司把數(shù)據(jù)挖掘應(yīng)用的更加廣泛。云計算中心分為幾種,一種是私有云,在政府或企業(yè)范圍內(nèi)建作內(nèi)部使用;一種是公有云,在互聯(lián)網(wǎng)企業(yè)界,比如微軟、谷 歌、阿里巴巴等,公眾可以訪問,但云計算的安全性、可用性以及成本等方面仍存在諸多的疑慮;另一種是混合云,就是把私有云和公有云混合在一起?!标P(guān)懿新說 道:“當(dāng)大數(shù)據(jù)和百姓的衣食住行息息相關(guān)時,是它推廣速度最快的時候。比如前一段出現(xiàn)的騰訊推出的嘀嘀打車、平安推出的網(wǎng)絡(luò)保險,就是基于大數(shù)據(jù)的分析和 挖掘,對數(shù)據(jù)進(jìn)行分析,推算出用戶的需求,產(chǎn)生商業(yè)的應(yīng)用來影響到每個人的生活?!?/p>

  “什么是大數(shù)據(jù)?”當(dāng)我們再回頭思考時,這個問題看似簡單,卻也很難回答。仁者見仁,智者見智,有人說,大數(shù)據(jù)就像一個神奇的鉆石礦,當(dāng)它的首要價值被發(fā)掘后仍能不斷給予。也有人說大數(shù)據(jù)像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而大部分隱藏在表面之下……

  大數(shù)據(jù)不僅是一個技術(shù),未來或許將成為一個行業(yè),依然讓人琢磨不透,這就是大數(shù)據(jù)的魅力。

責(zé)任編輯:系統(tǒng)管理員
分享文章到:
0
瀏覽次數(shù):
】 【 打印本頁】 【 關(guān)閉窗口
因特網(wǎng)信息服務(wù)經(jīng)營許可證:電信業(yè)務(wù)審批[2004]885號 京ICP證040699號 海淀公安分局備案號:1101081900 廣告經(jīng)營許可證:京海工商廣字第9990號
中科匯聯(lián)承辦,easysite內(nèi)容管理系統(tǒng),portal門戶,輿情監(jiān)測,搜索引擎,政府門戶,信息公開,電子政務(wù)