如何評(píng)測(cè)一個(gè)大數(shù)據(jù)系統(tǒng)
數(shù)據(jù)的爆炸式增長(zhǎng)掀起了大數(shù)據(jù)的研究熱潮,越來越多的應(yīng)用領(lǐng)域涉及到大數(shù)據(jù)的處理和存儲(chǔ),其所蘊(yùn)藏的科學(xué)價(jià)值和商業(yè)價(jià)值逐漸體現(xiàn)。為了挖掘大數(shù)據(jù)中隱藏的知識(shí),各種大數(shù)據(jù)系統(tǒng)應(yīng)運(yùn)而生,例如Hadoop、MapReduce、Hive、Spark等。如何客觀地評(píng)價(jià)眾多的大數(shù)據(jù)系統(tǒng)以及從中選擇適合自身需求的系統(tǒng)成為學(xué)術(shù)界和工業(yè)界普遍關(guān)心的問題,大數(shù)據(jù)工業(yè)界和研究社區(qū)迫切需要一套公認(rèn)的大數(shù)據(jù)評(píng)測(cè)基準(zhǔn)。
Jim Gray認(rèn)為:特定領(lǐng)域的評(píng)測(cè)基準(zhǔn)應(yīng)選擇典型應(yīng)用,并滿足領(lǐng)域內(nèi)應(yīng)用的多樣性。據(jù)此他進(jìn)一步提出了一套成功的評(píng)測(cè)基準(zhǔn)需要滿足的4個(gè)條件:系統(tǒng)相關(guān)性、可移植性、可擴(kuò)展性和簡(jiǎn)單。其中,系統(tǒng)相關(guān)性是指能夠評(píng)測(cè)領(lǐng)域相關(guān)的系統(tǒng)性能,包括系統(tǒng)的峰值性能,性價(jià)比等;可移植性是指評(píng)測(cè)基準(zhǔn)能夠移植到不同的平臺(tái)上,易于在不同的系統(tǒng)和架構(gòu)上實(shí)現(xiàn);可擴(kuò)展性是指能夠適應(yīng)不同的系統(tǒng)規(guī)模;簡(jiǎn)單是指評(píng)測(cè)基準(zhǔn)易于理解,評(píng)測(cè)結(jié)果具有可靠性。
參考Gray提出的4條標(biāo)準(zhǔn),并結(jié)合大數(shù)據(jù)海量、高速、多樣的特性,我們提出了針對(duì)大數(shù)據(jù)領(lǐng)域的評(píng)測(cè)基準(zhǔn)需要滿足的需求。
可代表性
大數(shù)據(jù)領(lǐng)域具有非常廣的覆蓋范圍,信息時(shí)代的來臨使得越來越多的應(yīng)用領(lǐng)域涉及到大數(shù)據(jù)的處理和存儲(chǔ),因此一個(gè)完整而全面的評(píng)測(cè)基準(zhǔn)不可能一蹴而就。如何盡可能提高負(fù)載覆蓋度又不失評(píng)測(cè)的簡(jiǎn)易性是很大的挑戰(zhàn),這也就要求評(píng)測(cè)基準(zhǔn)具有領(lǐng)域代表性。
我們認(rèn)為大數(shù)據(jù)領(lǐng)域的代表性主要體現(xiàn)在3個(gè)方面:
①代表性負(fù)載。
眾所周知,目前應(yīng)用領(lǐng)域極其繁多,領(lǐng)域之間有一定的共有特性,但每個(gè)領(lǐng)域有其獨(dú)特性,因此應(yīng)用領(lǐng)域和負(fù)載的代表性在一定程度上也就決定了評(píng)測(cè)基準(zhǔn)的代表性;
②代表性數(shù)據(jù)。
大數(shù)據(jù)領(lǐng)域與傳統(tǒng)數(shù)據(jù)庫(kù)等領(lǐng)域的一個(gè)顯著區(qū)別即是數(shù)據(jù)類型多元化,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)不再占據(jù)主導(dǎo)地位,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)爆炸性增長(zhǎng),因此評(píng)測(cè)基準(zhǔn)不能忽略復(fù)雜而多樣的數(shù)據(jù)類型;
③代表性軟件棧。
數(shù)據(jù)迅猛增長(zhǎng)催生了眾多的大數(shù)據(jù)處理和存儲(chǔ)系統(tǒng),然而不同的軟件棧對(duì)大數(shù)據(jù)負(fù)載的行為特征具有很大的影響,因此大數(shù)據(jù)評(píng)測(cè)基準(zhǔn)需要涵蓋代表性軟件棧。
可移植性
大數(shù)據(jù)評(píng)測(cè)基準(zhǔn)不僅需要能夠縱向地評(píng)測(cè)大數(shù)據(jù)系統(tǒng),而且需要能夠?qū)Σ煌南到y(tǒng)進(jìn)行橫向的對(duì)比。這就要求相同的負(fù)載能夠提供不同的實(shí)現(xiàn)方式,評(píng)測(cè)基準(zhǔn)能夠便利地移植到其他平臺(tái)。為了使不同的實(shí)現(xiàn)方式具有公平的可比性,針對(duì)不同平臺(tái)的實(shí)現(xiàn),需要具有相同的輸入和輸出,以及相同的算法處理邏輯。如今,一系列針對(duì)大數(shù)據(jù)處理和存儲(chǔ)的開源產(chǎn)品被發(fā)布,例如MapReduce、Spark等,所以在評(píng)測(cè)基準(zhǔn)的實(shí)現(xiàn)過程中需要考慮基于這些不同的軟件棧的實(shí)現(xiàn)。
可擴(kuò)展性
大數(shù)據(jù)評(píng)測(cè)基準(zhǔn)需要提供可擴(kuò)展的數(shù)據(jù)集和負(fù)載。大數(shù)據(jù)的一個(gè)顯著特征即是數(shù)據(jù)量大,單一節(jié)點(diǎn)的存儲(chǔ)已逐步轉(zhuǎn)變成分布式存儲(chǔ),因此評(píng)測(cè)基準(zhǔn)所提供的數(shù)據(jù)和負(fù)載需要適應(yīng)不同規(guī)模的平臺(tái)。然而如今大多數(shù)的大數(shù)據(jù)持有者視數(shù)據(jù)為重要的商業(yè)機(jī)密,因而能夠提供符合真實(shí)數(shù)據(jù)特性的可擴(kuò)展數(shù)據(jù)集是大數(shù)據(jù)評(píng)測(cè)基準(zhǔn)重要而基本的需求。
可理解性
評(píng)測(cè)基準(zhǔn)需要具有簡(jiǎn)易性,易于理解,并易于部署和評(píng)測(cè),同時(shí)評(píng)測(cè)結(jié)果能夠指導(dǎo)系統(tǒng)的評(píng)價(jià)、改進(jìn)和優(yōu)化。然而,大數(shù)據(jù)系統(tǒng)本身非常復(fù)雜。僅僅從簡(jiǎn)單性的角度來選擇典型負(fù)載,可能會(huì)使基準(zhǔn)程序喪失代表性。因此,我們用可理解性來取代原有的簡(jiǎn)單性需要。可理解性有3點(diǎn)含義:能從基本操作單元和負(fù)載模式的角度理解典型負(fù)載;評(píng)測(cè)結(jié)果需要簡(jiǎn)單直觀,評(píng)測(cè)人員能夠根據(jù)負(fù)載的特性分析結(jié)果的合理性并判斷系統(tǒng)的瓶頸或者優(yōu)劣;評(píng)測(cè)結(jié)果需要具有穩(wěn)定性,其結(jié)果必須是可靠的并且可重現(xiàn)的。
大數(shù)據(jù)系統(tǒng)的蓬勃發(fā)展催生了大數(shù)據(jù)基準(zhǔn)測(cè)試的研究,如何公正地評(píng)價(jià)不同的大數(shù)據(jù)系統(tǒng)以及怎樣根據(jù)需求選取合適的系統(tǒng)成為了熱點(diǎn)問題。大家在使用的過程中,不妨也動(dòng)腦筋想一想,為什么選擇這些系統(tǒng)?按照評(píng)測(cè)的基準(zhǔn)還有哪些系統(tǒng)也值得了解?這樣你的編程之旅才不容易迷茫。
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市