訂閱
糾錯(cuò)
加入自媒體

大模型風(fēng)起云涌,向量數(shù)據(jù)庫(kù)終有“用武之地”?

每逢淘金熱,最后的贏家都是賣鏟人,而非淘金者。在近兩年的大模型風(fēng)口下,向量數(shù)據(jù)庫(kù)就成了這把鏟子。

隨著大模型快速發(fā)展,向量數(shù)據(jù)庫(kù)正在成為企業(yè)便捷使用大模型、最大化發(fā)揮數(shù)據(jù)價(jià)值的關(guān)鍵工具。據(jù)IDC調(diào)查數(shù)據(jù)顯示,全球在AI技術(shù)和服務(wù)上的支出2023年將達(dá)到1540億美元,到2026年將超過(guò)3000億美元。其中,向量數(shù)據(jù)庫(kù)為AI的開(kāi)發(fā)、增強(qiáng)內(nèi)容生成的準(zhǔn)確性提供了重要技術(shù)支撐。 

在今年數(shù)據(jù)庫(kù)領(lǐng)域所有的技術(shù)趨勢(shì)中,向量數(shù)據(jù)庫(kù)無(wú)疑成為了最受資本熱捧的一個(gè)。隨著5月份大模型廠商掀起一輪又一輪價(jià)格戰(zhàn),接連調(diào)低大模型API的價(jià)格,高性價(jià)比的大模型+向量數(shù)據(jù)庫(kù),在行業(yè)應(yīng)用、企業(yè)市場(chǎng)又顯現(xiàn)出了商業(yè)價(jià)值。

為什么向量數(shù)據(jù)庫(kù)會(huì)隨著大模型的發(fā)展而爆發(fā)?它又將給AI行業(yè)帶來(lái)怎樣的機(jī)會(huì)?

大模型的必經(jīng)之路

首先,我們需要厘清向量數(shù)據(jù)庫(kù)在大模型當(dāng)中扮演了什么角色。

大模型解決的是計(jì)算問(wèn)題,而向量數(shù)據(jù)庫(kù)則解決存儲(chǔ)問(wèn)題。這是從2023年初向量數(shù)據(jù)庫(kù)崛起開(kāi)始,至今為止行業(yè)內(nèi)公認(rèn)的看法。

人們常常把大語(yǔ)言模型比喻成大腦,但這是一個(gè)被切除了顳葉的大腦,缺乏記憶,并且常常出現(xiàn)幻覺(jué)。為了解決這些問(wèn)題,常常需要借助向量數(shù)據(jù)庫(kù)。

現(xiàn)實(shí)生活中兩人進(jìn)行對(duì)話,大致需要三步流程:一方首先拋出話題作引子;另一方會(huì)先調(diào)動(dòng)記憶判斷自己是否了解這個(gè)話題,然后再分析給出應(yīng)該做出何種回答。如此循環(huán)往復(fù)直到互動(dòng)結(jié)束。

為讓計(jì)算機(jī)完成這樣的互動(dòng)過(guò)程,并持續(xù)在一對(duì)一或一對(duì)多的情況下變成日常,AI科學(xué)家提出了CVP結(jié)構(gòu),即“ChatGPT(以ChatGPT為代表的大模型)+Vector Database(向量數(shù)據(jù)庫(kù))+Prompt(提示詞)”,分別承擔(dān)計(jì)算機(jī)分析、記憶、引子的功能。

放到大模型上,針對(duì)其有可能出現(xiàn)的幻覺(jué)問(wèn)題,可以將所需領(lǐng)域的專業(yè)知識(shí)存入向量數(shù)據(jù)庫(kù),當(dāng)要prompt時(shí),系統(tǒng)自動(dòng)的從向量數(shù)據(jù)庫(kù)中根據(jù)相似度查找最相關(guān)的專業(yè)知識(shí),把這些知識(shí)和你的提示詞一同提交給大模型,這樣就可以有效減少幻覺(jué)的出現(xiàn)。記憶的問(wèn)題也類似,可以選擇把部分你和大模型的聊天記錄存入向量數(shù)據(jù)庫(kù)。這是向量數(shù)據(jù)庫(kù)近期出現(xiàn)熱度的原因。

向量數(shù)據(jù)庫(kù)和傳統(tǒng)數(shù)據(jù)庫(kù)的不同點(diǎn)之一是,傳統(tǒng)的數(shù)據(jù)庫(kù)只能處理計(jì)算機(jī)容易了解和處理的數(shù)據(jù)、字符串等結(jié)構(gòu)化數(shù)據(jù),通過(guò)點(diǎn)查和范圍查進(jìn)行精確匹配,輸出只有符合查詢條件和不符合條件的答案,而向量數(shù)據(jù)庫(kù)處理的是各種AI應(yīng)用產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),通過(guò)近似查進(jìn)行模糊匹配,輸出的是概率上的提供相對(duì)最符合條件的答案,而非精確的標(biāo)準(zhǔn)答案。

以O(shè)penAI背后的GPT模型預(yù)訓(xùn)練所用的數(shù)據(jù)為例,GPT-3.5的“知識(shí)庫(kù)”共包含3000億單詞的數(shù)據(jù),匯聚了來(lái)自開(kāi)源語(yǔ)料庫(kù)、維基百科、各類圖書(shū)與新聞報(bào)道、Reddit與Twitter平臺(tái)文章等大量互聯(lián)網(wǎng)文本數(shù)據(jù)。GPT-4在此基礎(chǔ)上體量更大,且為了支持多模態(tài)專門(mén)收集各類圖像、視頻素材,這其中非結(jié)構(gòu)化數(shù)據(jù)應(yīng)占有極大比重。

正如冰山效應(yīng)所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉沒(méi)在水面之下”,真實(shí)世界中絕約80%的數(shù)據(jù)都為非結(jié)構(gòu)化數(shù)據(jù),只有約20%的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)復(fù)雜且難處理,反而導(dǎo)致有效利用率遠(yuǎn)低于結(jié)構(gòu)化數(shù)據(jù)。因此,打造面向非結(jié)構(gòu)化數(shù)據(jù)的向量數(shù)據(jù)庫(kù)也變成了一場(chǎng)從0到1的拓荒。

近年來(lái),一些數(shù)據(jù)庫(kù)廠商已經(jīng)開(kāi)始原生支持向量嵌入和向量搜索的功能,并提供了相應(yīng)的向量索引和查詢優(yōu)化技術(shù)。這使得開(kāi)發(fā)人員能夠更方便地在數(shù)據(jù)庫(kù)中存儲(chǔ)和查詢向量數(shù)據(jù),而無(wú)需依賴額外的工具或庫(kù)。

除了大語(yǔ)言模型的推動(dòng)外,向量數(shù)據(jù)庫(kù)在自身技術(shù)上也取得了重大突破,特別是在性能優(yōu)化、數(shù)據(jù)處理能力和安全性方面。各數(shù)據(jù)庫(kù)廠商和研究機(jī)構(gòu)都在致力于改進(jìn)向量數(shù)據(jù)庫(kù)的算法和架構(gòu),以提高其處理大規(guī)模數(shù)據(jù)的能力。

ChatGPT的爆發(fā)徹底改變了向量數(shù)據(jù)庫(kù)的發(fā)展速度。2023年3月,在英偉達(dá)全球開(kāi)發(fā)者大會(huì)上,CEO黃仁勛力挺向量數(shù)據(jù)庫(kù)對(duì)構(gòu)建專有大型語(yǔ)言模型的重要價(jià)值,“向量數(shù)據(jù)庫(kù)的一個(gè)新型重要用例是大型語(yǔ)言模型,在文本生成過(guò)程中可用于檢索領(lǐng)域特定事實(shí)或?qū)S惺聦?shí)。英偉達(dá)將推出一個(gè)新的庫(kù),即RAFT,用于加速索引、數(shù)據(jù)加載和近鄰檢索。我們正在將RAFT的加速引入到Meta的AI向量相似性搜索FAISS、Milvus開(kāi)源向量數(shù)據(jù)庫(kù)以及Redis。”他如是說(shuō)。

在資本市場(chǎng),近一年來(lái)向量數(shù)據(jù)庫(kù)是當(dāng)之無(wú)愧的“資本寵兒”,Qdrant、Chroma、Weaviate先后獲得融資,成立短短幾年的Pinecone宣布1億美元B輪融資,估值達(dá)到7.5億美元。可見(jiàn),無(wú)論從技術(shù)演進(jìn)還是資本市場(chǎng)來(lái)看,向量數(shù)據(jù)庫(kù)都是這兩年最亮眼的技術(shù)。

向量數(shù)據(jù)庫(kù)的商業(yè)化探索

在大模型興起之前,傳統(tǒng)數(shù)據(jù)庫(kù)已經(jīng)在不斷嘗試與AI結(jié)合,主要涉及以下幾個(gè)方向:AI for DB、DB for AI、預(yù)測(cè)估算。隨著大模型的興起,可以看到在這些方向上,數(shù)據(jù)庫(kù)與AI間的關(guān)聯(lián)比以往任何時(shí)候都要密切。

在“AI for DB”方面,將AI技術(shù)嵌入到傳統(tǒng)數(shù)據(jù)庫(kù)中,使其具備更智能的功能。例如,通過(guò)大模型,數(shù)據(jù)庫(kù)可以實(shí)現(xiàn)更高級(jí)的數(shù)據(jù)分析、智能搜索和推薦等功能。AI技術(shù)的應(yīng)用使得數(shù)據(jù)庫(kù)能夠更好地理解和處理數(shù)據(jù),提供更精確的查詢結(jié)果和分析報(bào)告。

對(duì)于“DB for AI”方面,傳統(tǒng)數(shù)據(jù)庫(kù)可以為大模型提供結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)高效的存儲(chǔ)和查詢能力。由于大模型通常需要處理大規(guī)模的數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫(kù)的可伸縮性和性能變得尤為重要。數(shù)據(jù)庫(kù)可以通過(guò)融合查詢和差異化存儲(chǔ)等技術(shù),提供快速的數(shù)據(jù)訪問(wèn)和處理能力,滿足大模型對(duì)數(shù)據(jù)的高效需求。

此外,大模型的興起還為數(shù)據(jù)庫(kù)注入了預(yù)測(cè)估算的能力。大模型可以通過(guò)學(xué)習(xí)歷史數(shù)據(jù)和模式,對(duì)未來(lái)的趨勢(shì)和結(jié)果進(jìn)行預(yù)測(cè)和估算。傳統(tǒng)數(shù)據(jù)庫(kù)可以集成模型,實(shí)現(xiàn)對(duì)數(shù)據(jù)的預(yù)測(cè)分析。這使得數(shù)據(jù)庫(kù)可以不僅提供對(duì)歷史數(shù)據(jù)的查詢和分析,還能夠提供對(duì)未來(lái)數(shù)據(jù)的預(yù)測(cè)和估算結(jié)果,幫助用戶做出更準(zhǔn)確的決策。

事實(shí)上,不僅是大模型廠商,云計(jì)算廠商憑借在AI基礎(chǔ)設(shè)施、商業(yè)生態(tài)、市場(chǎng)規(guī)模效應(yīng)方面的已有優(yōu)勢(shì),也開(kāi)始聚焦向量數(shù)據(jù)庫(kù)市場(chǎng)進(jìn)行各種技術(shù)和商業(yè)化嘗試,這些嘗試或許會(huì)讓向量數(shù)據(jù)庫(kù)加速走向商業(yè)成功。

首先,多元化部署能力。垂直行業(yè)大模型,數(shù)據(jù)都是私有機(jī)密的,客戶一般不愿意放到公有云上,這對(duì)一部分支持混合多云的云廠商是一大利好,通過(guò)私有部署、分布式、混合云等多種方案,打消行業(yè)客戶將數(shù)據(jù)放到云端的現(xiàn)實(shí)疑慮。

其次,一體化AI能力。向量數(shù)據(jù)庫(kù)的火爆,本質(zhì)是由AI驅(qū)動(dòng)的,而AI Native時(shí)代的數(shù)據(jù)工程,還有許多復(fù)雜問(wèn)題尚待解決,比如檢索效率,在處理大規(guī)模數(shù)據(jù)的并行任務(wù)時(shí),保持快速響應(yīng)時(shí)間是一個(gè)挑戰(zhàn),需要優(yōu)化索引結(jié)構(gòu)和搜索算法;高負(fù)載下的系統(tǒng)穩(wěn)定性,需要確保數(shù)據(jù)庫(kù)系統(tǒng)具備高可用性和容錯(cuò)能力,防止服務(wù)中斷;存儲(chǔ)海量的向量數(shù)據(jù),成本效益比要進(jìn)一步優(yōu)化……目前來(lái)看,云廠商具備從底層算力集群、Maas模型平臺(tái)到全棧工具鏈的AI能力,有望通過(guò)技術(shù)協(xié)同創(chuàng)新,持續(xù)優(yōu)化向量數(shù)據(jù)庫(kù)的性能和成本。

第三,產(chǎn)業(yè)服務(wù)能力。各行業(yè)對(duì)AI與業(yè)務(wù)的結(jié)合熱情高漲,但大多還處于嘗試探索期,需要結(jié)合自身場(chǎng)景、AI應(yīng)用、IT設(shè)施等多種因素試錯(cuò)并迭代。這個(gè)過(guò)程中,隨叫隨到、幫助客戶及時(shí)解決問(wèn)題的ToB服務(wù)能力,也是非?粗氐摹I罡a(chǎn)業(yè)的公有云,有望降低很多企業(yè)在AI技術(shù)革命中的機(jī)會(huì)成本。

從某種程度上而言,無(wú)論是向量數(shù)據(jù)庫(kù),還是大模型,歸根結(jié)底,人們?cè)谧放跛鼤r(shí)的心態(tài),焦慮大于需求。而這種焦慮則來(lái)源于“害怕被落下”。

而向量數(shù)據(jù)庫(kù)的熱潮,在一定程度上外化了人們的焦慮。但這并不能否定向量數(shù)據(jù)庫(kù)的實(shí)際價(jià)值,甚至更長(zhǎng)遠(yuǎn)的價(jià)值。

雖然,目前向量數(shù)據(jù)庫(kù)仍處于發(fā)展初期,但可以確定的是,向量數(shù)據(jù)庫(kù)與大模型一定是捆綁關(guān)系。因此,未來(lái)其演進(jìn)方向也一定隨著大模型能力的演進(jìn)而發(fā)生變化。

不可否認(rèn)的是,向量數(shù)據(jù)庫(kù)的未來(lái)有星辰大海,也有曲折的前路。背靠大模型,向量數(shù)據(jù)庫(kù)成為資本追捧的“寵兒”。然而,在未來(lái)的AGI時(shí)代,向量數(shù)據(jù)庫(kù)還有更多實(shí)事要干。

【科技云報(bào)道原創(chuàng)】

轉(zhuǎn)載請(qǐng)注明“科技云報(bào)道”并附本文鏈接

       原文標(biāo)題 : 大模型風(fēng)起云涌,向量數(shù)據(jù)庫(kù)終有“用武之地”?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)