訂閱
糾錯(cuò)
加入自媒體

阿里云為什么要重構(gòu)數(shù)據(jù)湖解決方案?

2020-11-11 11:25
IT168
關(guān)注

  數(shù)據(jù)湖并不是一個(gè)新概念,大概在十多年前,從有Hadoop開(kāi)始,就有很多人提出這樣的設(shè)想。面對(duì)海量數(shù)據(jù)增長(zhǎng),要想挖掘數(shù)據(jù)價(jià)值,首先得有一個(gè)能夠存儲(chǔ)各類(lèi)數(shù)據(jù)的“湖”,這個(gè)湖的“蓄水能力”要足夠強(qiáng)大,能存儲(chǔ)、分析和處理各類(lèi)數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、機(jī)器數(shù)據(jù)以及來(lái)自物聯(lián)網(wǎng)設(shè)備的數(shù)據(jù)等等。之后,隨著大數(shù)據(jù)、云計(jì)算以及云存儲(chǔ)技術(shù)的不斷成熟,數(shù)據(jù)湖解決方案被主流云計(jì)算廠(chǎng)商極力推崇,并且演繹出不同版本。走到今天,數(shù)據(jù)湖解決方案似乎已足夠成熟,但從應(yīng)用場(chǎng)景來(lái)看,一切才剛剛開(kāi)始,還有大量變革空間,這也是阿里云為什么要重構(gòu)數(shù)據(jù)湖解決方案,主推下一代技術(shù)的根本原因。

  什么是下一代數(shù)據(jù)湖解決方案?

  如何理解阿里云數(shù)據(jù)湖解決方案的最新特性?阿里云智能存儲(chǔ)產(chǎn)品資深總監(jiān)陳起鯤認(rèn)為,數(shù)據(jù)湖解決方案由數(shù)據(jù)分析架構(gòu)演化而來(lái)。

  早期大數(shù)據(jù)分析架構(gòu),是強(qiáng)耦合擴(kuò)容模式,同一份數(shù)據(jù)需要在不同的計(jì)算集群中重復(fù)拷貝,空間利用率低,計(jì)算資源過(guò)剩;但數(shù)據(jù)是不斷積累狀態(tài),并且有波峰波谷期,為了滿(mǎn)足業(yè)務(wù)需求,承載更多數(shù)據(jù),計(jì)算和存儲(chǔ)要一起擴(kuò)容。因?yàn)槭莾商紫到y(tǒng),從生產(chǎn)導(dǎo)入數(shù)據(jù)肯定需要時(shí)間,所以會(huì)出現(xiàn)數(shù)據(jù)導(dǎo)入緩慢的狀況,最終無(wú)法實(shí)時(shí)洞察業(yè)務(wù)。

  這時(shí),聰明人就提出了數(shù)據(jù)湖架構(gòu)。早期的數(shù)據(jù)湖架構(gòu)一般是分布式文件存儲(chǔ),可以橫向擴(kuò)展,通過(guò)糾刪碼提高資源利用率;同時(shí),計(jì)算和存儲(chǔ)是分離狀態(tài),你可以按需擴(kuò)展算力。另外,底層是分布式文件存儲(chǔ),基于塊存儲(chǔ)、對(duì)象存儲(chǔ)等很多協(xié)議,用戶(hù)可以把結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)放在一起,數(shù)據(jù)可以統(tǒng)一管理,底層的分布式存儲(chǔ)對(duì)元數(shù)據(jù)、小文件和性能都有一定提升。

  對(duì)于用戶(hù)來(lái)說(shuō),數(shù)據(jù)湖帶來(lái)的好處顯而易見(jiàn),不管是過(guò)去的數(shù)據(jù)倉(cāng)庫(kù),還是現(xiàn)在的大數(shù)據(jù)、運(yùn)營(yíng)數(shù)據(jù)、交互式查詢(xún),以及可視化數(shù)據(jù)、實(shí)時(shí)分析以及預(yù)測(cè)分析數(shù)據(jù),都能基于數(shù)據(jù)湖進(jìn)行存儲(chǔ)、分析,進(jìn)而獲得更大的商業(yè)價(jià)值。

  而從服務(wù)提供商的角度來(lái)看,各家都在說(shuō)自己是最先提供數(shù)據(jù)湖解決方案的企業(yè)。事實(shí)上,數(shù)據(jù)在哪里,分析就在哪里。這也是為什么云廠(chǎng)商在推出數(shù)據(jù)庫(kù)產(chǎn)品的時(shí)候,很多用戶(hù)都愿意去嘗試。因?yàn)楫a(chǎn)品本身就在承載互聯(lián)網(wǎng)場(chǎng)景應(yīng)用,具有海量數(shù)據(jù)云上處理能力,有更強(qiáng)大的計(jì)算引擎,能真正和生產(chǎn)環(huán)境融合在一起。云與互聯(lián)網(wǎng)應(yīng)用場(chǎng)景結(jié)合,才能孕育出最強(qiáng)大功能的解決方案,而在這方面,誰(shuí)更具有獨(dú)特優(yōu)勢(shì)?非阿里云莫屬!

  至于,阿里云的數(shù)據(jù)湖解決方案到底在哪些地方進(jìn)行了重構(gòu)?其實(shí)一句話(huà)就可以概括,那就是“云湖共生,數(shù)倉(cāng)同步”。

  云湖共生,數(shù)倉(cāng)同步

  “作為業(yè)內(nèi)首個(gè)云原生、企業(yè)級(jí)數(shù)據(jù)湖解決方案,阿里云數(shù)據(jù)湖解決方案可提供EB級(jí)數(shù)據(jù)存儲(chǔ)、分析能力,能實(shí)現(xiàn)一站式湖存儲(chǔ)、湖加速、湖管理、湖計(jì)算,幫助企業(yè)深入挖掘與分析數(shù)據(jù)!标惼瘀H強(qiáng)調(diào),數(shù)據(jù)湖雖然是一個(gè)早已存在的概念,但阿里云的數(shù)據(jù)湖在繼承以往優(yōu)勢(shì)的基礎(chǔ)上已演繹出新的特色。

  首先,最新數(shù)據(jù)湖解決方案要能承載移動(dòng)、互聯(lián)網(wǎng)、IoT業(yè)務(wù)的生產(chǎn)數(shù)據(jù)。數(shù)據(jù)湖不應(yīng)該只是解決分析環(huán)節(jié)的問(wèn)題,而是要和生產(chǎn)環(huán)境結(jié)合。尤其在現(xiàn)代業(yè)務(wù)環(huán)境下,很多企業(yè)的大部分?jǐn)?shù)據(jù)都來(lái)源于移動(dòng)應(yīng)用或者社交媒體,這種數(shù)據(jù)搬到分析引擎上,通常都是PB級(jí)別,如果等搬完后再分析,已不具備實(shí)時(shí)性。所以,真正的數(shù)據(jù)湖解決方案必須基于企業(yè)級(jí)的生產(chǎn)環(huán)境做大數(shù)據(jù)分析,在線(xiàn)生成環(huán)境產(chǎn)生的數(shù)據(jù),直接可以分析。其次,必須是一個(gè)能承載EB級(jí)數(shù)據(jù)量的數(shù)據(jù)湖。其三,具有秒級(jí)響應(yīng)能力,有SLA的保證,能滿(mǎn)足高性能和高彈性需求。其四,能對(duì)數(shù)據(jù)加密,并對(duì)數(shù)據(jù)高效管理,確保業(yè)務(wù)安全。

  如何理解這些能力呢?其實(shí)一切都是客戶(hù)應(yīng)用價(jià)值驅(qū)動(dòng)。比如:五年前,你問(wèn)一個(gè)客戶(hù),建了一個(gè)多大量的數(shù)據(jù)湖?用來(lái)干什么?他會(huì)說(shuō),有多少個(gè)TB,主要功能就是每天晚上做數(shù)據(jù)分析,等早晨把數(shù)據(jù)分析的結(jié)果打印出來(lái),給領(lǐng)導(dǎo)看,用于當(dāng)天決策。但是五年后的今天,很多分析都是PB級(jí),領(lǐng)導(dǎo)需要實(shí)時(shí)看到分析結(jié)果。如何讓生產(chǎn)環(huán)境具有高度的彈性和穩(wěn)定性?如何讓數(shù)據(jù)分析和業(yè)務(wù)保持強(qiáng)耦合狀態(tài)?一定要有SLA的保證!另外,數(shù)據(jù)是企業(yè)最寶貴的資源,必須要安全地存放,統(tǒng)一管理。

  基于客戶(hù)應(yīng)用場(chǎng)景的最新需求,阿里云在底層技術(shù)以及整體架構(gòu)上進(jìn)行了四個(gè)方面的重構(gòu)。

  阿里云提供了全球領(lǐng)先的、最高水平的SLA,引領(lǐng)對(duì)象存儲(chǔ)可用性SLA進(jìn)入5位數(shù)。阿里云承諾,在每十萬(wàn)次請(qǐng)求中,單可用區(qū)錯(cuò)誤概率不超過(guò)10次,多可用區(qū)錯(cuò)誤概率不超過(guò)5次,這比其他云廠(chǎng)商提供的服務(wù)提高了10-20倍的可用性。同時(shí),最多有12個(gè)9的持久性設(shè)計(jì),有多層的冗余架構(gòu)設(shè)計(jì)和主動(dòng)排查故障的能力。

  能支持全球數(shù)十EB級(jí)數(shù)據(jù)規(guī)模。在阿里云的數(shù)據(jù)湖應(yīng)用場(chǎng)景中,每天有上萬(wàn)億次的讀寫(xiě)或者API調(diào)用請(qǐng)求,因?yàn)閿?shù)據(jù)量非常大,通常會(huì)分標(biāo)準(zhǔn)型、低頻訪(fǎng)問(wèn)型、歸檔型,用戶(hù)可以按數(shù)據(jù)類(lèi)型分類(lèi)。同時(shí),數(shù)據(jù)架構(gòu)也是強(qiáng)一致性模型,用戶(hù)可以做全生命周期管理,系統(tǒng)會(huì)提供Bucket清單,方便企業(yè)盤(pán)點(diǎn)、查找資源。所以,用戶(hù)如果使用阿里云的數(shù)據(jù)湖解決方案,等于在用上EB別的數(shù)據(jù)管理功能去管理企業(yè)的數(shù)據(jù)。

  用戶(hù)可以靈活、更具彈性地選擇計(jì)算引擎。在算力方面,阿里云承諾在單客戶(hù)、單可用區(qū)3分鐘提供50萬(wàn)核vCPU交付能力。在存儲(chǔ)上,阿里云可以提供上TB級(jí)別的數(shù)據(jù)吞吐量,同時(shí)有海量數(shù)據(jù)的處理能力。在現(xiàn)實(shí)業(yè)務(wù)環(huán)境中,企業(yè)應(yīng)用往往遭遇巨大的性能挑戰(zhàn),如果有一個(gè)資源爆掉,其他資源會(huì)受影響。比如:在一個(gè)Bucket里面,可能會(huì)有很多業(yè)務(wù)在同時(shí)分析,會(huì)互相干擾。即使只有一個(gè)業(yè)務(wù)在分析,也有腳本的優(yōu)先級(jí)。為了從性能方面保障高可用性,阿里云提供了同Bucket分業(yè)務(wù)的QoS性能隔離功能,滿(mǎn)足客戶(hù)不同業(yè)務(wù)分析需求。最重要的是,不管是機(jī)器學(xué)習(xí)引擎還是深度學(xué)習(xí)引擎,都可以自然接入阿里云OSS, 讓一份數(shù)據(jù)用于多個(gè)計(jì)算引擎。

  數(shù)據(jù)安全。很多人擔(dān)心上云后數(shù)據(jù)不安全。實(shí)際上,只有上云后數(shù)據(jù)才安全。在阿里云上,只需點(diǎn)擊幾個(gè)按鈕,就可以全鏈路加密云上數(shù)據(jù),并且密鑰可管可控,你可以集成阿里云的密鑰管理服務(wù),也可以集成自己的KMS服務(wù),系統(tǒng)支持多種加密算法。另外,云上數(shù)據(jù)加密,不能影響性能,還要有防誤刪、自帶DDoS攻擊防護(hù)功能?赡苡腥藭(huì)問(wèn),那萬(wàn)一阿里的人干了什么壞事,怎么辦?這點(diǎn)無(wú)需擔(dān)心!阿里云資源的所有操作,都通過(guò)日志這種不能篡改的方式記錄,并且阿里內(nèi)部對(duì)用戶(hù)資源的日志可以實(shí)現(xiàn)對(duì)外透明化,你可以通過(guò)第三方審計(jì)來(lái)核實(shí)。

  值得一提的是,為了更好地提升客戶(hù)體驗(yàn),阿里云圍繞數(shù)據(jù)湖解決方案推出了一系列新產(chǎn)品。比如:對(duì)象存儲(chǔ)OSS加速器功能,主要用于數(shù)據(jù)湖重復(fù)復(fù)讀場(chǎng)景,能極大地解決讀吞吐挑戰(zhàn),從根本上解決數(shù)據(jù)讀取的一致性問(wèn)題。同時(shí),阿里云針對(duì)對(duì)象存儲(chǔ)OSS,還重磅發(fā)布了冷歸檔存儲(chǔ)類(lèi)型產(chǎn)品,提供接近磁帶級(jí)的成本,并解決磁帶方案在兼容性、數(shù)據(jù)失效、取回效率低等的問(wèn)題,是海量數(shù)據(jù)長(zhǎng)期留存的最佳解決方案。另外,在構(gòu)建數(shù)據(jù)洞察力方面,開(kāi)源Spark性能差,資源成本較高,阿里云最新發(fā)布的Databricks數(shù)據(jù)洞察產(chǎn)品內(nèi)置了商業(yè)版的Spark和DataLake,可以為用戶(hù)帶來(lái)高于開(kāi)源Spark50倍的性能計(jì)算能力,確保結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及流式數(shù)據(jù)處理的高性能、高可靠和彈性擴(kuò)展。

  目前,阿里云最新推出的數(shù)據(jù)湖解決方案已經(jīng)在互聯(lián)網(wǎng)、金融、教育、游戲等技術(shù)前沿領(lǐng)域落地,尤其在人工智能、物聯(lián)網(wǎng)、自動(dòng)駕駛等擁有海量數(shù)據(jù)場(chǎng)景的新興行業(yè),未來(lái)大有廣闊空間。另外,混合云趨勢(shì)的到來(lái),也會(huì)加速推動(dòng)數(shù)據(jù)湖解決方案的落地。公共云+私有云的結(jié)合,導(dǎo)致很多企業(yè)會(huì)把一部分?jǐn)?shù)據(jù)遷移到云端,因?yàn)橄鄬?duì)于IDC架構(gòu),云更有彈性、技術(shù)創(chuàng)新更快,企業(yè)成本更低、業(yè)務(wù)迭代可以更敏捷。同時(shí),隨著業(yè)務(wù)數(shù)字化、在線(xiàn)化,數(shù)據(jù)的容災(zāi)保護(hù)更加重要,企業(yè)會(huì)更重視對(duì)生產(chǎn)環(huán)境的災(zāi)備。而從降本增效的角度考慮,企業(yè)也更愿意對(duì)數(shù)據(jù)進(jìn)行冷熱分層,把一部分?jǐn)?shù)據(jù)留在本地,把剩余的數(shù)據(jù)放在云端,然后在云上可以基于大數(shù)據(jù)、AI來(lái)做訓(xùn)練和分析。

  總體來(lái)看,數(shù)據(jù)湖的未來(lái)發(fā)展前景更加可期,而隨著企業(yè)應(yīng)用上云進(jìn)程的加快,阿里云將勇往直前,秒殺所有對(duì)手!

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀(guān)點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)