2011-12年 中國Hadoop應(yīng)用趨勢調(diào)查報(bào)告 |
發(fā)布時間: 2012/7/27 14:12:00 |
Hadoop的發(fā)展基本上經(jīng)歷了這樣一個過程:從一個開源的Apache基金會項(xiàng)目,隨著越來越多的用戶的加入,不斷地使用、貢獻(xiàn)和完善,形成一個強(qiáng)大的生態(tài)系統(tǒng),從2009年開始,隨著云計(jì)算和大數(shù)據(jù)的發(fā)展,Hadoop作為海量數(shù)據(jù)分析的最佳解決方案,開始受到許多IT廠商的關(guān)注,從而出現(xiàn)了許多Hadoop的商業(yè)版以及支持Hadoop的產(chǎn)品,包括軟件和硬件。 一、 Hadoop應(yīng)用調(diào)查背景 2011年被稱為是Hadoop的商業(yè)化元年,因?yàn)殡S著Hadoop的應(yīng)用日漸廣泛,越來越多的商業(yè)公司加入到這個領(lǐng)域,提供商業(yè)化的工具和服務(wù),為Hadoop在企業(yè)內(nèi)部的應(yīng)用注入了一劑強(qiáng)心劑。為了進(jìn)一步了解Hadoop在國內(nèi)的應(yīng)用現(xiàn)狀,了解國內(nèi)用戶對于Hadoop的需求,從而推動Hadoop在中國的應(yīng)用和發(fā)展,IT168網(wǎng)站做了本次調(diào)查。 二、 調(diào)查方法 2011年12月,由中國科學(xué)院技術(shù)研究所主辦,IT168協(xié)辦的第五屆Hadoop in China大會在北京會議中心隆重召開,大會首次邀請到了Hadoop創(chuàng)始人Doug Cutting親臨會場助陣,也吸引了來自世界各地的Hadoop的開發(fā)者、用戶來到了現(xiàn)場,IT168在大會現(xiàn)場對用戶進(jìn)行了調(diào)查,得到了與會嘉賓和用戶的極大關(guān)注和積極參與。 當(dāng)然,由于本次調(diào)查的對象僅限于參加大會的用戶,故存在一定的局限性,結(jié)論僅供參考。 三、 報(bào)告正文 1、 參與調(diào)查的用戶分析 1.1職務(wù)分布 關(guān)注Hadoop的人群主要是軟件開發(fā)工程師,占總?cè)藬?shù)的1/4(25%),其次是在校學(xué)生,占總?cè)藬?shù)的17%,排名第三、第四的依次是系統(tǒng)架構(gòu)師和技術(shù)經(jīng)理,大約分別占總?cè)藬?shù)的14%、12%。 1.2行業(yè)分布
從參會人群的行業(yè)分布來看,計(jì)算機(jī)軟件行業(yè)、互聯(lián)網(wǎng)/電子商務(wù)行業(yè)的用戶分別都占了25%,計(jì)算機(jī)硬件/網(wǎng)絡(luò)設(shè)備行業(yè)占了15%,接下來便是大專院校/科研機(jī)構(gòu),占總?cè)藬?shù)的13%。 一方面,Hadoop已經(jīng)受到了計(jì)算機(jī)軟件、計(jì)算機(jī)硬件/網(wǎng)絡(luò)設(shè)備等廠商的關(guān)注,這也反映了近日越來越多的軟件廠商、硬件廠商開始加入到改生態(tài)圈,紛紛推出了與Hadoop兼容的或者是預(yù)裝了Hadoop設(shè)備;另一方面,可以看出,除了Hadoop風(fēng)靡的互聯(lián)網(wǎng)行業(yè)之外,通訊、政府、金融、能源等行業(yè)都開始關(guān)注到Hadoop的應(yīng)用,這也預(yù)示著Hadoop的發(fā)展將突破互聯(lián)網(wǎng)行業(yè),受到其他行業(yè)的關(guān)注。 1.3關(guān)注Hadoop的用戶還關(guān)注哪些領(lǐng)域? 從上圖可見,在關(guān)注Hadoop的人群中,云計(jì)算、編程開發(fā)是最受歡迎的兩大塊,不難理解,關(guān)注Hadoop的人群與編程開發(fā)人群的重合,因?yàn),關(guān)注Hadoop的人群其中有很大一部分都是軟件開發(fā)工程師。而Hadoop人群與云計(jì)算人群的高度重合,一方面是因?yàn),云?jì)算已經(jīng)在IT業(yè)界備受關(guān)注,另一方面,Hadoop作為一個開源的分布式數(shù)據(jù)存儲和處理框架,跟云計(jì)算有著天然的內(nèi)在聯(lián)系。 1.4所在企業(yè)規(guī)模 一方面,人數(shù)位于1000以上的企業(yè)所占的比例達(dá)到了將近一半(45%),這意味著,Hadoop應(yīng)用在大型企業(yè)占多數(shù);但是,從另一個角度看,人數(shù)位于100-249之間的中小型企業(yè)占有28%的比例,這表明,Hadoop的應(yīng)用已經(jīng)不再只是大型企業(yè)的專利,許多中小型的企業(yè)也已經(jīng)開始關(guān)注Hadoop。
2.用戶開始學(xué)習(xí)和使用Hadoop的時間? 調(diào)查結(jié)果顯示,絕大部分(超過80%)的調(diào)查對象表 示,學(xué)習(xí)和使用Hadoop的時間不超過一年,這意味著,Hadoop發(fā)展在過去一年內(nèi)有了很大的進(jìn)步。大量用戶的關(guān)注,必將在不久的將來引爆一場Hadoop技術(shù)和應(yīng)用的熱潮。
3、 Hadoop在企業(yè)內(nèi)部的應(yīng)用現(xiàn)狀 3.1 貴單位平均每月有多少新增加的數(shù)據(jù)? 調(diào)查表明,28%的企業(yè)每月有500GB的新增數(shù)據(jù),11%的企業(yè)每月新增數(shù)據(jù)量在100GB到500GB之間,這也說明了企業(yè)的數(shù)據(jù)量的增長速度十分迅速,急需一個海量數(shù)據(jù)解決方案,這也促使企業(yè)開始思考,如何從企業(yè)固有的數(shù)據(jù)中去挖掘新的價(jià)值。 3.2 貴公司是否在使用或者考慮使用Hadoop來做大規(guī)模數(shù)據(jù)分析處理? 在參與調(diào)查的用戶中,有超過半數(shù)(51%)的用戶已經(jīng)在使用Hadoop,有將近1/3的人計(jì)劃在半年或一年之內(nèi)部署Hadoop,這表明,Hadoop的市場需求很大,這也必將導(dǎo)致越來越多的廠商加入到Hadoop的市場競爭中,從而逐步完善Hadoop的商業(yè)圈。 3.3 貴單位的Hadoop集群有多少個節(jié)點(diǎn)? 調(diào)查表明,集群數(shù)在100個企業(yè)以上的占了21%,Ha doop集群呈現(xiàn)大規(guī)模的趨勢,表明Hadoop的應(yīng)用在大型企業(yè)的應(yīng)用比較多。30%的受調(diào)查者所在企業(yè)的Hadoop集群數(shù)不超過5個,這其中包含了沒有Hadoop集群的企業(yè),而這部分人都在關(guān)注著Hadoop,這意味著,Hadoop未來的發(fā)展空間十分值得期待。 3.4 貴單位有多少開發(fā)人員在使用Hadoop? 企業(yè)使用Hadoop集群的開發(fā)人員10人以上的超過了1/3,絕大部分企業(yè)的Hadoop的開發(fā)人員都在4人或以上,這從一個角度反映了Hadoop應(yīng)用所需要的成本,尤其是人力成本,是企業(yè)所必須要考慮到的因素。 3.5 貴單位每天有多少個Hadoop任務(wù)在運(yùn)行? 運(yùn)行在Hadoop上面的任務(wù)數(shù)量基本上(62%)都在10個以內(nèi),但也有部分(29%)的企業(yè)每天有50個以上的Hadoop任務(wù)在運(yùn)行。 3.6 貴單位有多少數(shù)據(jù)存儲在Hadoop集群中? 5000GB以上的占了26%,這意味著,Hadoop對于數(shù)據(jù)量巨大的企業(yè)來說是一個很好的選擇,數(shù)據(jù)量越大,Hadoop相比企業(yè)平臺的效率越高。 3.7 貴公司使用Hadoop的主要用途是什么? 調(diào)查表明,企業(yè)使用Hadoop最主要的目的是數(shù)據(jù)挖掘和改善商業(yè)智能分析,有一半以上的企業(yè)使用Hadoop的主要目的之一是數(shù)據(jù)挖掘和改善商業(yè)智能分析;其次是日志分析、WEB搜索,以及降低數(shù)據(jù)分析成本,所占的比例分別為38%和31%,同時,還有26%的企業(yè)使用Hadoop的目的之一是半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)處理與分析。 綜上所述,商業(yè)智能和數(shù)據(jù)挖掘、半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)分析與處理是推動Hadoop在企業(yè)內(nèi)應(yīng)用的兩大重要的動力。 3.8 貴單位已經(jīng)使用了哪些Hadoop相關(guān)技術(shù)活工具? 調(diào)查表明,HDFS、MapReduce是企業(yè)企業(yè)在使用Hadoop架構(gòu)的兩種最主要的技術(shù),其使用率分別占了74%和69%,這意味著基本上使用了Hadoop框架的企業(yè)都使用了這兩種技術(shù),這也反映了國內(nèi)對于這兩種技術(shù)的使用已經(jīng)達(dá)到了一個比較高的水準(zhǔn);同時,Hbase、Hive都有超過三分之一的企業(yè)在使用。
4、 Hadoop的發(fā)展趨勢 4.1 您是否看好Hadoop在國內(nèi)的應(yīng)用前景? 調(diào)查表明,94%的人都看好Hadoop在國內(nèi)的應(yīng)用前景,只有極少數(shù)人不看好Hadoop在國內(nèi)的發(fā)展前景。這表明,Hadoop在中國用戶的心中的認(rèn)可度還是很高的,有了這些用戶的支持和關(guān)注,相信Hadoop的發(fā)展會更好。 4.2 未來1年內(nèi),貴單位計(jì)劃使用多大規(guī)模的Hadoop集群? 調(diào)查顯示,有26%的受調(diào)查者表示一年內(nèi),所在公司的集群數(shù)將超過100,10%的用戶表示所在公司的集群數(shù)達(dá)到50~100個。從上述結(jié)果可見,相比目前的集群節(jié)點(diǎn)數(shù)(如圖9)來說,數(shù)目有所提升。
5、 用戶對Hadoop的需求 5.1 您最看重Hadoop的哪些優(yōu)點(diǎn)? 調(diào)查表明,開源代碼,容易修改,便于做二次開發(fā),以及處理大數(shù)據(jù)時很實(shí)用,效率高是用戶最看重的Haoop的兩大優(yōu)點(diǎn),分別有67%、53%的人都看重這兩點(diǎn)。 由此可見,隨著企業(yè)數(shù)據(jù)量的暴漲,企業(yè)用戶逐漸意識到對大數(shù)據(jù)進(jìn)行分析處理對企業(yè)來說是很有必要的一件事情,而hadoop作為一種開源的處理框架,由于其子項(xiàng)目的代碼都是開源的,容易修改,便于企業(yè)進(jìn)行二次開發(fā),因而受到許多企業(yè)的重視。所以,在大數(shù)據(jù)時代,數(shù)據(jù)處理時的高效和開源這兩大優(yōu)勢讓Hadoop風(fēng)靡企業(yè)數(shù)據(jù)中心。 5.2 您主要關(guān)注Hadoop的哪些方面? 調(diào)查顯示,Hadoop功能開發(fā)、Hadoop數(shù)據(jù)處理分析是用戶最關(guān)注的Hadoop的內(nèi)容,分別有50%和49%的人都關(guān)注這兩個方面。Hadoop功能開發(fā)可以進(jìn)一步完善Hadoop的功能,更好地滿足企業(yè)的需求,用Hadoop進(jìn)行數(shù)據(jù)處理分析可以幫助企業(yè)更好地發(fā)現(xiàn)機(jī)遇,實(shí)現(xiàn)發(fā)展。 5.3 您在學(xué)習(xí)和使用Hadoop的過程中,碰到了哪些困難? 調(diào)查表明,缺少活動的中文社區(qū)是中國的Hadoop用戶在學(xué)習(xí)和使用Hadoop的過程中的最大的困難,有超過1/3的人都選擇了此項(xiàng);其次,是商業(yè)化工具和服務(wù)不夠,33%的人認(rèn)為Hadoop商業(yè)化工具和服務(wù)不夠;第三,是人才難招。其他的困難還有技術(shù)學(xué)習(xí)難度大、部署和使用太復(fù)雜等等。 根據(jù)上述結(jié)果,為了進(jìn)一步推動Hadoop在中國的發(fā)展,我們需要一些活動的中文社區(qū),以便國內(nèi)的開發(fā)人員和用戶進(jìn)行交流與互相學(xué)習(xí)。同時,在商業(yè)化工具和服務(wù)方面,鼓勵廠商加入到Hadoop商業(yè)化工具和服務(wù)的隊(duì)伍中去,為用戶提供更多更好的商業(yè)化工具和服務(wù)。當(dāng)然,在人才培養(yǎng)方面,這就需要整個社會一起努力,為Hadoop學(xué)習(xí)提供一個良好的氛圍,無論是從教育機(jī)構(gòu)方面,還是從企業(yè)方面,都可以提供更多的機(jī)會和資源,培養(yǎng)出更多的Hadoop精英。 本文出自:億恩科技【m.1tcdy.com】 本文出自:億恩科技【www.enidc.com】 --> 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |