訂閱
糾錯(cuò)
加入自媒體

大數(shù)據(jù)時(shí)代的幾點(diǎn)思考

近年來,大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等概念備受人們追捧,高科技成為各國越來越關(guān)注的一個(gè)戰(zhàn)略重點(diǎn)。隨著互聯(lián)網(wǎng)與計(jì)算機(jī)科技的不斷發(fā)展,越來越多的數(shù)據(jù)在互聯(lián)網(wǎng)終端產(chǎn)生、并被記錄,存儲設(shè)備和云計(jì)算的進(jìn)步極大降低了數(shù)據(jù)存儲成本及數(shù)據(jù)處理成本,使巨量互聯(lián)網(wǎng)數(shù)據(jù)得以保存并用于數(shù)據(jù)分析。且此類巨量數(shù)據(jù)的分析、利用被證明是可以帶來巨大的經(jīng)濟(jì)效益的,由此,大數(shù)據(jù)出現(xiàn)爆發(fā)式的發(fā)展。

人類社會經(jīng)歷了三次工業(yè)革命,從蒸汽時(shí)代、電氣時(shí)代、到信息時(shí)代。已經(jīng)發(fā)展了半個(gè)多世紀(jì)的信息技術(shù)到現(xiàn)在開始進(jìn)入了信息、數(shù)據(jù)爆炸時(shí)代。正如顯微鏡能觀測微生物、望遠(yuǎn)鏡能觀測浩瀚宇宙,大數(shù)據(jù)也為我們提供了一個(gè)前所未有的觀測世界的角度。比如,2009年谷歌工程師發(fā)表了一遍關(guān)于他們?nèi)绾卫糜脩羲阉饔涗泚眍A(yù)測冬季流感傳播的論文,文中預(yù)測的及時(shí)和高效震驚了科學(xué)界和公共衛(wèi)生領(lǐng)域的專家們。相比之下,美國公共衛(wèi)生部門在防治同年爆發(fā)的H1N1流感時(shí),對流感爆發(fā)地點(diǎn)和傳播路徑的調(diào)查和預(yù)測方面遇到了巨大困難,現(xiàn)有衛(wèi)生系統(tǒng)信息反饋的滯后為流感防治帶來了極大的困難。

大數(shù)據(jù)時(shí)代的思維變革

在大數(shù)據(jù)時(shí)代,各個(gè)行業(yè)產(chǎn)生了超大量的數(shù)據(jù)積累,量變引起質(zhì)變,使得人們對于事物規(guī)律的認(rèn)識和預(yù)測方式也發(fā)生了質(zhì)的改變,不再依賴盡量精確的抽樣調(diào)查,也不再熱衷追逐某單一方向的精確,不再那么汲汲于因果關(guān)系的探索,而是通過對整體大數(shù)據(jù)的理解和分析,來獲取自己想要的那一部分關(guān)于世界的真相。

首先,過去計(jì)算機(jī)的存儲和計(jì)算能力有限,人們只能通過抽樣的方式從某個(gè)大范圍的群體中隨機(jī)抽取極少數(shù)的一部分樣本來代表他們,我們的數(shù)理統(tǒng)計(jì)學(xué)理論幾乎都是基于這個(gè)發(fā)展起來的。就像,由于我們內(nèi)存有限,只能將一張高清照片壓縮成低精度的照片來存儲,每一次壓縮都會丟失很多照片原本的信息,且無法找回來。那,在計(jì)算機(jī)存儲能力和計(jì)算能力發(fā)展成熟的時(shí)候,我們完全可以保存這個(gè)事物的所有信息,呈現(xiàn)事物原原本本的整體給大家看。在分析這個(gè)事物的時(shí)候,可以抓取這個(gè)事物的各方面信息而不擔(dān)心失真。這就是利用所有的數(shù)據(jù)而不僅僅是一小部分?jǐn)?shù)據(jù)帶來的優(yōu)勢。隨機(jī)抽樣調(diào)查可能在某個(gè)范圍內(nèi)對某種情況的分析具有較強(qiáng)的針對性,但是在抽樣的過程中動用的人力物力資源、如何保證抽樣的隨機(jī)性和準(zhǔn)確性以及每針對某方面的調(diào)查都需要重新組織抽樣調(diào)查帶來的反復(fù)工作都是很值得反思的問題。

其次,在大數(shù)據(jù)時(shí)代,通常得到的數(shù)據(jù)都是各種信息混雜在一起,也并非所有數(shù)據(jù)都恰如其分地對應(yīng)用戶的需要,這種混雜性和不精確性在大數(shù)據(jù)中的允許存在的,大數(shù)據(jù)通常通過概率來說話而非“確鑿無疑”。1954年IBM利用穿孔卡片來進(jìn)行機(jī)器翻譯,通過讓電腦學(xué)會語言的常用規(guī)則來翻譯語言,但是要做到某些語句在具體場景下的含義就顯得非常困難。比如法語中的“bonjour”可能在不同場景、不同語氣下會有“早上好”、“吃了嗎”、“今天天氣不錯(cuò)”、“喂”?等意思,這在不同語言系統(tǒng)中都是非常常見的事情,對于機(jī)器翻譯來說就無法通過學(xué)習(xí)常用語言規(guī)則來翻譯。而20世紀(jì)80年代,一個(gè)IBM研究人員提出讓機(jī)器自己估算一個(gè)詞與另一種語言的一個(gè)詞的匹配程度來翻譯,將300多萬句加拿大議會資料翻譯成英語和法語,短時(shí)間內(nèi)極大提高了機(jī)器翻譯能力。到了2006年谷歌通過全球互聯(lián)網(wǎng)收集全世界的資源來訓(xùn)練計(jì)算機(jī),從各種網(wǎng)站上找對譯文檔,在經(jīng)過不同質(zhì)量上萬億語料庫的訓(xùn)練,到2012年谷歌數(shù)據(jù)庫涵蓋了60多種語言,能接受14種語言的語音輸入,完成流利的對等翻譯。它把語言視為能夠判別的可能性數(shù)據(jù),而非語言本身,在龐大的語料庫數(shù)量上,使得它可以完美解決語料庫存在某些錯(cuò)誤數(shù)據(jù)、不夠精確的缺點(diǎn)。

再者,傳統(tǒng)的方式中,我們對一個(gè)事物的分析和預(yù)測都是期望通過抽樣調(diào)查認(rèn)識事物的本質(zhì),事物發(fā)展的因果關(guān)系,利用因果關(guān)系來預(yù)測未來。在大數(shù)據(jù)時(shí)代不是這樣,因果關(guān)系的獲取需要巨大的投入,需要通過長時(shí)間的基礎(chǔ)科學(xué)研究,理論分析、試驗(yàn)驗(yàn)證、再到實(shí)際應(yīng)用等一系列過程,所有的這些過程都耗時(shí)耗力。當(dāng)然,這些東西是必要的,但在某些情況下,可能不需要這么大費(fèi)周章就能獲取到我們需要的結(jié)果。我們不需要每件事都知道發(fā)生的緣由是什么,只需要知道這件事情發(fā)生和另一件相關(guān)的事情發(fā)生的相關(guān)關(guān)系,就能通過相關(guān)的事情來預(yù)測我們想要知道的這件事情發(fā)生的可能性。而大數(shù)據(jù)就是找到這些相關(guān)關(guān)系的絕佳手段,比如,沃爾瑪在自己龐大的數(shù)據(jù)庫中發(fā)現(xiàn),每當(dāng)季節(jié)性颶風(fēng)來臨的時(shí)候,不止手電筒的銷量增加了,蛋撻的銷量也增加了,于是沃爾瑪便把這兩者擺到了一起放在靠近颶風(fēng)防護(hù)用品的旁邊,既方便了客戶又增加了銷量。

大數(shù)據(jù)時(shí)代的商業(yè)變革

大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和渴望分析了解世界的好奇心。現(xiàn)在信息技術(shù)發(fā)展到一定階段,信息技術(shù)的重點(diǎn)由技術(shù)轉(zhuǎn)向了信息,大數(shù)據(jù)也是計(jì)算機(jī)技術(shù)發(fā)展到一定階段的一個(gè)象征。隨著計(jì)算及存儲能力的提升,使得原本受限于技術(shù)條件無法實(shí)現(xiàn)的傳統(tǒng)信息開始慢慢轉(zhuǎn)向數(shù)據(jù)化,所謂數(shù)據(jù)化就是把現(xiàn)實(shí)中的事物和現(xiàn)象轉(zhuǎn)變?yōu)榭梢灾票矸治龅牧炕问降倪^程,而世間萬物紛繁復(fù)雜,要完成這一過程必須要借助具備更為強(qiáng)大存儲和計(jì)算分析能力的工具來實(shí)現(xiàn),這就是大數(shù)據(jù)時(shí)代產(chǎn)生的背景和時(shí)代需要。地理信息可以數(shù)據(jù)化成為電子地圖、地質(zhì)調(diào)查信息為生活、工程、采礦、航海等提供服務(wù);指紋、虹膜可以成為個(gè)人身份信息驗(yàn)證的絕佳手段;基因測序信息可以幫助人們更好地了解自己的身體隨年齡和環(huán)境的改變產(chǎn)生的變化、下一代的出生前的健康狀況;社交軟件的信息可以成為分析社會現(xiàn)象、調(diào)查大眾喜好甚至政治傾向的數(shù)據(jù);可穿戴設(shè)備可以監(jiān)測人體心跳、呼吸、睡眠、血壓為醫(yī)療健康行業(yè)更好地了解客戶、提供更貼心的服務(wù)創(chuàng)造了條件;甚至地板、座墊亦可以采集微妙的個(gè)人信息來進(jìn)行身份識別,突發(fā)情況警報(bào)等。

此外,數(shù)據(jù)不再被認(rèn)為是靜止的陳舊的一個(gè)東西,用完之后便失去作用了,數(shù)據(jù)的擁有者不僅僅能在我們已知的某種數(shù)據(jù)用途上獲取商業(yè)價(jià)值,更有可能在未來我們現(xiàn)在無法預(yù)測的某個(gè)時(shí)間節(jié)點(diǎn)對數(shù)據(jù)進(jìn)行重組,發(fā)現(xiàn)數(shù)據(jù)蘊(yùn)藏的更大潛能。谷歌街景和GPS數(shù)據(jù)所收集的地理位置信息數(shù)據(jù)一開始的目的僅僅是為了電子地圖和導(dǎo)航服務(wù)的,到了今天卻發(fā)現(xiàn)在無人駕駛領(lǐng)域,這樣的數(shù)據(jù)能發(fā)揮更大的作用,能夠?yàn)闊o人駕駛汽車提供精準(zhǔn)的位置服務(wù)及復(fù)雜場景下計(jì)算機(jī)視覺識別的訓(xùn)練。發(fā)掘數(shù)據(jù)的潛在商業(yè)價(jià)值、重復(fù)利用數(shù)據(jù)是大數(shù)據(jù)的重要特征。作為數(shù)據(jù)最大采集機(jī)構(gòu)的政府每年要在全國各行業(yè)、全方位統(tǒng)計(jì)各方面信息(包括我們的國家統(tǒng)計(jì)局及各行政主管部門),作為國家發(fā)展評估和決策的依據(jù),這部分?jǐn)?shù)據(jù)如果能及時(shí)公開與社會共享,將為國家的發(fā)展和運(yùn)行提供極大幫助。

大數(shù)據(jù)時(shí)代的管理變革

科技的發(fā)展從來不是有百利而無一害的,大數(shù)據(jù)的發(fā)展帶來便利和繁榮的同時(shí)也給我們的個(gè)人隱私造成了極大威脅。我們所有的個(gè)人信息、出行、購物、喜好全被“第三只眼”看得清清楚楚,時(shí)刻面臨著信息泄露、濫用的危險(xiǎn),也飽受被各種推銷電話的騷擾。且大型數(shù)據(jù)公司形成數(shù)據(jù)壟斷,一旦執(zhí)掌這些機(jī)構(gòu)的人出于什么好壞好意的目的,或者獨(dú)裁者利用大數(shù)據(jù)對人民進(jìn)行監(jiān)控來維護(hù)自己的統(tǒng)治,抹殺異己之聲,將造成不可磨滅的可怕后果。因而,大數(shù)據(jù)發(fā)展的同時(shí),需要相應(yīng)的監(jiān)管條例來管控?cái)?shù)據(jù)的使用,避免數(shù)據(jù)濫用造成的嚴(yán)重后果。

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

智慧海洋 獵頭職位 更多
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號