訂閱
糾錯(cuò)
加入自媒體

昨晚,谷歌全球宕機(jī):硬盤滿了

物聯(lián)網(wǎng)智庫 原創(chuàng)

轉(zhuǎn)載請(qǐng)注明來源和出處

導(dǎo)  讀

12月14日,美國科技巨頭谷歌(Google)的許多服務(wù)在全球范圍突然一度宕機(jī),旗下用戶大受影響。據(jù)悉,谷歌公司的自動(dòng)系統(tǒng)直到服務(wù)中斷了30分鐘仍在匯報(bào)任何服務(wù)都沒有出現(xiàn)問題,包括消費(fèi)者服務(wù)和面向開發(fā)者的云服務(wù)。

12月14日,美國科技巨頭谷歌(Google)的許多服務(wù)在全球范圍突然一度宕機(jī),旗下用戶大受影響。

綜合多家媒體報(bào)導(dǎo),監(jiān)察故障的網(wǎng)站“Downdetector”顯示了超過9000個(gè)報(bào)告YouTube出現(xiàn)問題的用戶報(bào)告。當(dāng)用戶嘗試登錄YouTube時(shí),會(huì)出現(xiàn)一只猴子,并看到“出了點(diǎn)問題”的字句。

除了YouTube,谷歌旗下Gmail郵箱,Google日歷、Google Drive、Google Search等服務(wù)也都受到影響,但大部分搜索引擎業(yè)務(wù)仍然完好,影響波及美國、歐洲、印度、加拿大、南非、中南美洲國家、澳大利亞和其他一些國家的用戶。

據(jù)英國《衛(wèi)報(bào)》當(dāng)天報(bào)道,Google服務(wù)的大面積癱瘓大約從格林尼治標(biāo)準(zhǔn)時(shí)間(GMT)12月14日上午11時(shí)50分開始(北京時(shí)間19時(shí)50分),影響了公司旗下絕大多數(shù)的服務(wù)。而谷歌公司的自動(dòng)系統(tǒng)直到服務(wù)中斷了30分鐘仍在匯報(bào)任何服務(wù)都沒有出現(xiàn)問題,包括消費(fèi)者服務(wù)和面向開發(fā)者的云服務(wù)。12時(shí)25分,谷歌才終于發(fā)現(xiàn)了問題。

隨后,Google Cloud在推特上回應(yīng):宕機(jī)是由于硬盤滿了。

谷歌宕機(jī),由來已久

據(jù)谷歌官方聲明,本次事故原因是由于服務(wù)器上的硬盤空間分配出了問題,導(dǎo)致認(rèn)證系統(tǒng)出了故障。其實(shí),早前就有消息傳出,谷歌云端運(yùn)算服務(wù)容量存在問題。前段時(shí)間,谷歌宣布明年停止免費(fèi)照片上傳容量, 并鼓勵(lì)訂閱Google One也能說明這一點(diǎn)。

時(shí)至今日,谷歌終于還是栽了。

其實(shí),這已經(jīng)是谷歌今年第3次宕機(jī)事件了。9月25日,谷歌就曾上演過一次全球宕機(jī),當(dāng)時(shí)谷歌系統(tǒng)癱瘓多半集中在美國東岸,Gmail、YouTube、谷歌云端在系統(tǒng)宕機(jī)時(shí),不斷有用戶持續(xù)嘗試進(jìn)入,但都無法順利使用。

再往前,美東時(shí)間6月2號(hào),基于谷歌云架構(gòu)服務(wù)的諸多谷歌服務(wù)也在全球范圍內(nèi)遭遇大規(guī)模中斷,宕機(jī)近4小時(shí)。據(jù)悉,不僅是Snapchat、Vimeo、Shopify、Pokemon GO等外部服務(wù),包括如YouTube、Gmail、Google Search等谷歌自家服務(wù)的運(yùn)行也受到了影響。

美國東海岸用戶率先報(bào)告了這個(gè)問題,同時(shí),宕機(jī)監(jiān)控器DownDetector的報(bào)告表明,北美、英國、歐洲、南美等全球多地也受此影響。對(duì)于這個(gè)問題,谷歌公司表示是因?yàn)榫W(wǎng)絡(luò)系統(tǒng)出現(xiàn)了問題,以后一定加強(qiáng)管理。

宕機(jī)的代價(jià)有多大?或許無人知曉確切的答案,但是可以粗略的估算一下。2013年谷歌曾發(fā)生過一次5分鐘的宕機(jī),谷歌當(dāng)年第二季度營收達(dá)到141億美元,相當(dāng)于每分鐘營收10.8萬美元,換句話說,谷歌所有服務(wù)宕機(jī)5分鐘,其直接損失就是54.5萬美元,還不算由此帶來的企業(yè)商譽(yù)影響和對(duì)客戶業(yè)務(wù)的間接影響。

由此算來,谷歌單單今年的幾次宕機(jī),所帶來的損失就已經(jīng)難以估量。而這其中,幾乎所有問題都圍繞其云架構(gòu)服務(wù)展開,而云架構(gòu)講究多地多活,防止單點(diǎn)故障。一個(gè)服務(wù)器出故障應(yīng)該可以在幾分鐘內(nèi)檢測(cè)到,然后引流到其它服務(wù)器,同時(shí)啟動(dòng)休眠的服務(wù)器。

可見,谷歌云的市場(chǎng)占有率始終干不過前面兩家大廠,也是有原因的。

主流廠商,競相爭“宕”

其實(shí),不只是谷歌,微軟也曾在云和硬盤方面發(fā)生過事故。

今年9月初,Windows 10的更新就出現(xiàn)了翻車事故。據(jù)了解,微軟在更新中修復(fù)了Windows 10 2004的一些bug,但同時(shí)又引入了幾個(gè)新的問題,導(dǎo)致用戶頻繁遇到PC崩潰、循環(huán)重啟等情況。

而在之后的修復(fù)過程中,微軟除修復(fù)一些常規(guī)bug,還特意更新解決了NVME固態(tài)硬盤引起的系統(tǒng)崩潰。據(jù)了解,Windows和NVMe固態(tài)硬盤的兼容問題一直都很差。此前,Windows 7就不支持使用NVMe的固態(tài)硬盤,因此裝有NVME固態(tài)的電腦需要單獨(dú)集成相關(guān)驅(qū)動(dòng)才可使用。而即使此次修復(fù),由于存儲(chǔ)設(shè)備兼容性問題,也不是每個(gè)人的電腦都能夠收到此次更新。

在云端,微軟云計(jì)算服務(wù)Azure的主要組件在2014年8月就發(fā)生全球大范圍宕機(jī)。微軟表示,Azure服務(wù)當(dāng)時(shí)處于中斷狀態(tài),原因是位于全球多個(gè)數(shù)據(jù)中心的至少6個(gè)主要Azure組件無法提供服務(wù)。Azure允許企業(yè)獲取計(jì)算資源,通過互聯(lián)網(wǎng)運(yùn)行程序。

更令人震驚的是,2018年9月4日,微軟在美國中南部地區(qū)的圣安東尼奧數(shù)據(jù)中心由于雷電天氣影響導(dǎo)致電壓激增,數(shù)據(jù)中心的冷卻系統(tǒng)發(fā)生故障。為保證數(shù)據(jù)和硬件完整性,數(shù)據(jù)中心的自動(dòng)化措施強(qiáng)制關(guān)閉了系統(tǒng)電源以防止機(jī)器因過熱造成損壞。這一事故引發(fā)了 Azure 中斷,Office 365 以及 Azure Active Directory 服務(wù)都受到影響,并且恢復(fù)相關(guān)存儲(chǔ)服務(wù)經(jīng)歷了很長時(shí)間。

故障從9月4日上午9點(diǎn)(北京時(shí)間9月4日17:00)左右開始出現(xiàn)問題,一直持續(xù)到9月5日13點(diǎn)左右(北京時(shí)間9月5日21:00左右),整個(gè)故障中斷時(shí)間超過 24 小時(shí)。

除了谷歌和微軟,即使全球最領(lǐng)先的亞馬遜云也曾屢次三番出現(xiàn)故障。

據(jù)外媒報(bào)道,2020年11月25日,亞馬遜云端服務(wù)Amazon Web Services(AWS)遭遇了持續(xù)數(shù)小時(shí)的故障,導(dǎo)致部分網(wǎng)站和服務(wù)系統(tǒng)崩潰。AWS的服務(wù)狀態(tài)頁面上的通知顯示,因其處理大量數(shù)據(jù)流的服務(wù)器Kinesis出現(xiàn)問題,導(dǎo)致一些網(wǎng)站的“錯(cuò)誤率增加”,亞馬遜已經(jīng)對(duì)該問題進(jìn)行了修復(fù),但完全恢復(fù)還需要一段時(shí)間,并貼出了當(dāng)前受到影響的服務(wù)。

值得一提的是,正值北美“黑色星期五”前夕,AWS宕機(jī)可能影響到亞馬遜的電商業(yè)務(wù)。有賣家稱,其亞馬遜上的訂單數(shù)據(jù)突然急劇下降,甚至廣告費(fèi)用也出現(xiàn)了異常。

此前,AWS云存儲(chǔ)服務(wù)S3也曾在2017年出現(xiàn)大宕機(jī),該錯(cuò)誤持續(xù)了4個(gè)小時(shí),彼時(shí)AWS解釋稱該故障是由于一名程序員在調(diào)試系統(tǒng)的時(shí)候,運(yùn)行了一條原本打算刪除少量服務(wù)器的腳本,結(jié)果輸錯(cuò)了一個(gè)字母,導(dǎo)致大量服務(wù)器被刪。被錯(cuò)誤移除的服務(wù)其中運(yùn)行著兩套S3的子系統(tǒng),從而導(dǎo)致S3不能正常工作,S3 API處于不可用狀態(tài)。

不只是國外巨頭,國內(nèi)包括阿里云、華為云在內(nèi)的業(yè)內(nèi)巨頭也曾出現(xiàn)宕機(jī)事故。

2020年4月10日上午,大批網(wǎng)友在微博反饋華為云崩了,出現(xiàn)登錄異常、管理后臺(tái)無法訪問等情況。從網(wǎng)友曬圖來看,不少使用云服務(wù)的后臺(tái)都出現(xiàn)了“服務(wù)器暫時(shí)過載或處于維護(hù)中,請(qǐng)稍后重試!薄敖(shù)據(jù)庫連接時(shí)出錯(cuò)”等提示。

2019年3月20日下午,阿里系多款產(chǎn)品短時(shí)無法正常運(yùn)作,時(shí)長約10分鐘,涉及App包括淘寶、天貓、淘寶直播、閑魚等。新浪科技親測(cè)發(fā)現(xiàn),淘寶和閑魚均出現(xiàn)“重新加載”提示。

讓外界頗感意外的是,阿里對(duì)外僅答復(fù)“修好了”,并未公布阿里系應(yīng)用全線“崩潰”的原因。另外,僅僅1天后,3月21日,部署在阿里云上的鐵路12306部分服務(wù)又一次發(fā)生故障。當(dāng)用戶搜索車票時(shí)系統(tǒng)顯示“很抱歉,查詢失敗,您可以稍后點(diǎn)擊下面按鈕重試”。

由此可見,在越來越依賴“云計(jì)算”的今天,目前主流的云服務(wù)廠商依然不能確保萬無一失。然而,在萬物上云的今天,云服務(wù)一旦出現(xiàn)問題,所將造成的損失也將更加巨大。

如何避免云服務(wù)/云平臺(tái)故障給自身業(yè)務(wù)帶來損失?

毫無疑問,云服務(wù)在未來將成為電力一樣的新型基礎(chǔ)設(shè)施。然而,正如人類至今也沒做到絕對(duì)避免停電一樣,云服務(wù)在漫長的運(yùn)行過程中發(fā)生故障亦在所難免,我們所要做的就是避免停電損失擴(kuò)大化。

對(duì)于大部分業(yè)務(wù)來說,云平臺(tái)的故障造成的損失并不致命。因此,我們可以通過多重保障,以避免云平臺(tái)故障造成的損失擴(kuò)大化,從而讓損失可控。例如:

核心數(shù)據(jù)定期異地備份,尤其需要保證備份的可用性。

保留少量自有服務(wù)器或其它云平臺(tái)主機(jī),一旦發(fā)生故障,及時(shí)發(fā)布公告告知用戶。

組織運(yùn)維人員配合云平臺(tái)恢復(fù)服務(wù),核心運(yùn)維保持隨時(shí)在線。

及時(shí)對(duì)損失做出評(píng)估。

當(dāng)然,在消費(fèi)等服務(wù)之外,包括智慧醫(yī)療、智能交通等服務(wù)也將成為未來的主流應(yīng)用場(chǎng)景之一。在這些領(lǐng)域,即使細(xì)微延遲都可能導(dǎo)致“人命關(guān)天”。對(duì)此,應(yīng)該在邊緣側(cè)部署相對(duì)應(yīng)的分析與計(jì)算能力,通過云邊協(xié)同,保障場(chǎng)景的連續(xù)性、穩(wěn)定性。

隨著科技的不斷發(fā)展,未來或?qū)⒂性絹碓蕉嗟墓收习l(fā)生。為此,雞蛋不能裝在一個(gè)籃子里,請(qǐng)?zhí)崆白龊肞lan B。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)