侵權(quán)投訴
訂閱
糾錯
加入自媒體

人工智能利用生物數(shù)據(jù)的難點

前言

人工智能(AI)最近在圖像和語音識別等領(lǐng)域產(chǎn)生了深遠的影響,這一進展已經(jīng)轉(zhuǎn)化為實際應(yīng)用。然而,在藥物發(fā)現(xiàn)領(lǐng)域,這種進展仍然很少,其中一個原因是所使用的數(shù)據(jù)本身。不同領(lǐng)域的數(shù)據(jù)存在顯著的差異,即圖像、語音、化學(xué)和生物領(lǐng)域,尤其在生物領(lǐng)域受限于可用數(shù)據(jù)的數(shù)量,以及與藥物發(fā)現(xiàn)的相關(guān)性,這些都限制了AI在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用。

未來需要我們改進對生物系統(tǒng)的理解,以及隨后產(chǎn)生的足夠數(shù)量的實際相關(guān)數(shù)據(jù),以真正推進AI在藥物發(fā)現(xiàn)領(lǐng)域的發(fā)展,從而能夠發(fā)現(xiàn)新的化合物,以及新的作用模式,從而能夠在實際的臨床應(yīng)用中表現(xiàn)出理想的療效和安全性。

物理數(shù)據(jù)和生物數(shù)據(jù)的差異

人工智能已經(jīng)改變了許多領(lǐng)域,可能最顯著的是圖像和語音識別領(lǐng)域,除了算法,對于數(shù)據(jù)的要求也非常重要。特別是在“深度學(xué)習(xí)”的背景下,數(shù)據(jù)更是至關(guān)重要的,這涉及到可用數(shù)據(jù)的數(shù)量及其分布。

不同領(lǐng)域的可用數(shù)據(jù)量差別很大,從僅有數(shù)百個帶有體內(nèi)注釋的數(shù)據(jù)點(例如注釋有可能誘發(fā)藥物性肝損傷的藥物,DILI)到特斯拉運營的車隊每年可用的Zettabytes(1021字節(jié))。在其他領(lǐng)域,可供使用的化學(xué)和生物數(shù)據(jù)量相對較少。

除了大量可用數(shù)據(jù)外,以計算機可修改的形式表示數(shù)據(jù)的能力也至關(guān)重要,為數(shù)據(jù)挖掘使用相關(guān)端點標記數(shù)據(jù)的能力也是如此。在這方面圖像識別和化學(xué),生物領(lǐng)域具有顯著的差異。

在對圖像和語音進行分類時,對對象的模型結(jié)構(gòu)的表示和呈現(xiàn)比使用化學(xué)和生物數(shù)據(jù)時更為完整,標簽的分配也相對不那么模糊。在化學(xué)領(lǐng)域,一個物體的最佳表征通常是未知的,一種化學(xué)物質(zhì)的不同方面導(dǎo)致不同類型的效應(yīng),有些可能與官能團有關(guān),有些可能與表面性質(zhì)有關(guān)。而在生物領(lǐng)域,哪種類型的信息提供了與哪個終點相關(guān)的信息也是很模糊的。化學(xué)和生物領(lǐng)域的共同點是,標簽在很大程度上取決于特定實驗的設(shè)置,即使這些相同的東西在“原則上”是可測量的。

人工智能在圍棋等類型的游戲上取得了突破性的進展,但這樣的游戲比藥物發(fā)現(xiàn)設(shè)置簡單得多,因為存在一組有限的狀態(tài),規(guī)則是明確定義的,并且可以窮盡地計算(至少在理論上是)。然而在生物學(xué)領(lǐng)域,系統(tǒng)通常不遵循明確定義的規(guī)則(或者至少那些通常屬于未知的規(guī)則,并且只能從可用的有限數(shù)據(jù)中獲。O喾,系統(tǒng)可以在大量不同的水平上定義,例如轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)水平,也可以從表觀遺傳和功能相互作用水平,以時間和空間分辨的方式,同時考慮細胞內(nèi)和細胞間信號,從細胞到生物整體水平。

此外,在生物領(lǐng)域的觀察是高度條件性的(取決于大量的參數(shù)),這通常是未知的。在諸如副作用資源(SIDER)之類的數(shù)據(jù)庫中,人們可以對具有特定副作用的藥物進行注釋,并使用這些信息訓(xùn)練計算模型以進行預(yù)測。然而,除了給藥本身外,這種效應(yīng)還取決于:(i)劑量;(ii)受體的遺傳設(shè)置或遺傳多態(tài)性;(iii)影響藥物藥代動力學(xué)(PK)特性的因素(如食物攝入量);(iv)聯(lián)合用藥;(v)疾病狀態(tài);(vi)性別;(vii)年齡;或者(viii)微生物組;然后副作用可能只發(fā)生在特定的一部分患者身上,而且可能在不同的嚴重程度、不同的器官中以不同的形式出現(xiàn)?梢悦黠@看出,不同領(lǐng)域的數(shù)據(jù)及其含義存在很大差異,并非每個在一個領(lǐng)域有效的方法都可以直接轉(zhuǎn)移到另一個領(lǐng)域;瘜W(xué)和生物數(shù)據(jù)的使用必須非常謹慎,并始終在其背景下加以解釋。

難點1:如何將生物活性和不良反應(yīng)聯(lián)系起來

我們現(xiàn)在根據(jù)間接的藥理學(xué)分析數(shù)據(jù),并將蛋白質(zhì)基團的生物活性與生理功能聯(lián)系起來,試圖說明化學(xué)和生物領(lǐng)域結(jié)論的復(fù)雜性。盡管人們可以假設(shè),針對蛋白質(zhì)靶點的活性足以理解并預(yù)測其在生物系統(tǒng)中的作用(這確實有利于藥物發(fā)現(xiàn)中的人工智能方法),但不幸的是,實際情況并非如此。

例如,基于FDA不良事件報告系統(tǒng)(FAERS)在考慮靶細胞生物活性與未結(jié)合血漿濃度的比值時,即如果一種藥物的血漿濃度高于作用于某一特定靶點所需的閾值,那么假定人們就會看到一種特定類型的副作用(或者更普遍地說,生物效應(yīng)),分析結(jié)果如下圖所示。

根據(jù)體外生物活性與血漿游離濃度的比值進行分析,針對靶點具有高陽性預(yù)測值(PPV)的不良事件往往具有較低的命中率,這意味著只有一小部分與不良事件相關(guān)的藥物與靶點的生物活性相關(guān)。另外,高命中率與低PPV相關(guān),表明該靶點活性與不良事件對應(yīng)的高假陽性率。因此,總的來說,靶向活性與給藥后觀察到的不良事件之間不存在明確的一對一關(guān)系。

此外,這種分析過于簡單,因為在這種分析中沒有考慮到許多因素(如化合物代謝、完整的PK、脫靶效應(yīng)等),化合物的單一(甚至沒有)描述將無法解釋預(yù)測藥物效應(yīng)的全部生物學(xué)復(fù)雜性,然而,這是許多計算藥物發(fā)現(xiàn)方法的基本假定。

比如氯胺酮,氯胺酮既是一種麻醉劑,也是一種街頭毒品,在2000年發(fā)現(xiàn),當明顯低于用作麻醉劑的劑量時,其表現(xiàn)出抗抑郁的效果,此外,其支氣管擴張?zhí)匦砸彩潜娝苤摹1M管氯胺酮長期以來被認為是通過阻斷NMDA受體發(fā)揮作用,但其他NMDA阻斷劑,如美金剛和蘭尼西明,在臨床試驗中并沒有成功,這暗示了它們各自作用方式的不同,這一點還有待充分了解。除了NMDA受體外,研究發(fā)現(xiàn)阿片受體系統(tǒng)也與氯胺酮的作用有關(guān)。此外,最近發(fā)現(xiàn)氯胺酮的代謝物在抑郁癥動物模型中具有活性,人類對氯胺酮的研究仍然有許多未知。這個案例說明了用明確的作用模式和適應(yīng)癥來注釋藥物的困難,因為這些通常都不知道細節(jié),并且取決于劑量、代謝以及其他因素。這使得人工智能在藥物發(fā)現(xiàn)中對這些注釋很差的數(shù)據(jù)的應(yīng)用變得極為艱難。

難點2:藥物發(fā)現(xiàn)中的數(shù)據(jù)和問題設(shè)定

為了在藥物發(fā)現(xiàn)領(lǐng)域使用數(shù)據(jù)分析方法,我們通?梢詤^(qū)分兩種類型的模型:(i)基于大規(guī)模和代替指標的模型,這些模型通常旨在從大量物理可用或虛擬分子(例如,在虛擬篩選中)中選擇化合物,在性質(zhì)上更傾向于定性的模型,包括溶解度、脂溶性或蛋白質(zhì)靶點生物活性的模型通常屬于這一類;以及(ii)基于通常規(guī)模較小的可用數(shù)據(jù)的模型(但通常是與體內(nèi)終點更相關(guān)的數(shù)據(jù)),其中具有更定量的性質(zhì),旨在預(yù)測安全性或療效相關(guān)終點,更復(fù)雜的模型,如動物模型(人體藥效或安全性數(shù)據(jù))屬于這一類。

在藥物發(fā)現(xiàn)中,通過相對簡單的分析類型可以生成大量的數(shù)據(jù)點,這有利于培訓(xùn)所需的數(shù)據(jù)量。然而,在代理指標對相關(guān)體內(nèi)終點的預(yù)測性相對較低的情況下,單純的數(shù)據(jù)量往往不足以生成實際有用的模型。而相比之下,復(fù)雜生物學(xué)的定量讀數(shù)在人體內(nèi)相關(guān)性方面可能更有利,但這些數(shù)據(jù)更難生成和建模。

總而言之,我們目前還沒有合適類型的數(shù)據(jù)來生成模型,從而真正利用人工智能進行藥物發(fā)現(xiàn)。因此,對這些代理終點進行建模的能力的增量變化也不會改變游戲規(guī)則,因為它們不會轉(zhuǎn)化為與藥物安全性和療效相關(guān)的任何體內(nèi)終點。在許多情況下,我們對生物學(xué)的理解還不足以指導(dǎo)我們需要測量什么,而替代終點的選擇(與理化性質(zhì)、PK、療效或安全性相關(guān))總是與它們?nèi)绾无D(zhuǎn)化為臨床的重大不確定性相關(guān)。鑒于可用基礎(chǔ)數(shù)據(jù)的這一特性,無論使用何種算法也無法改善當前的情況。

難點3:藥物發(fā)現(xiàn)中的數(shù)據(jù)注釋與標識

由于各種原因,生物注釋通常遠遠不適合用于數(shù)據(jù)挖掘,例如藥物的“作用模式”概念,其中通常使用解剖治療分類(ATC)代碼來提供這種類型的標簽。然而,ATC代碼在歷史上一直在增長,ATC的最高級別類別是器官級別,這與任何有意義的生物學(xué)行為模式都沒有聯(lián)系。

那么還有哪些選擇?例如,在特定靶標上的活性是一種常見的選擇,可以使用Entrez基因ID作為目標標識符,然而,情況并不是那么簡單。如果一個唯一可識別的基因不是靶標,而只是一個特定的剪接變體,或者一個的特定激活狀態(tài)(例如激酶的磷酸化形式),或者一個特定的變構(gòu)結(jié)合位點,那么應(yīng)該使用哪個標識符?此外,該靶點也可能被抑制(而其濃度保持不變),或其表達可能被改變(例如,跨細胞類型或狀態(tài)),或可能通過PROTACs標記降解,等等。

因此,有許多不同的方式與藥物靶點相互作用,其中只有少數(shù)是功能等效的。此外,同一靶點上不同類型的相互作用可能導(dǎo)致不同的效果;在最簡單的情況下,這可能是蛋白質(zhì)上的激動劑和拮抗劑之間的差異;但受體藥理學(xué)當然比這更微妙,而且偏倚的信號傳遞或考慮配體-受體相互作用的藥效學(xué),它們的功能性后果,導(dǎo)致了如何用行為模式“標記”特定化合物以實現(xiàn)數(shù)據(jù)挖掘的進一步復(fù)雜化。因此,即使一個人接受這樣一個前提,即針對特定靶點的活性可以被用來注釋化合物的作用模式(這本身就是一個很大的“如果”),那么用于這個目的的標簽決不是無足輕重的。

未來AI在藥物發(fā)現(xiàn)中的發(fā)展方向

目前,我們經(jīng)常“在數(shù)據(jù)所在的地方建模”,這就像只在燈光所在的地方去尋找車鑰匙,而不是真正期望在哪里找到它們,僅僅擁有“數(shù)據(jù)”是沒有幫助的,我們需要的是正確的數(shù)據(jù),以正確的格式提供,并用于正確的目的,藥物發(fā)現(xiàn)中的人工智能才能給該領(lǐng)域帶來真正的變化。

人們已經(jīng)認識到,藥物發(fā)現(xiàn)數(shù)據(jù)需要更好地被組織起來,目前,我們已經(jīng)能夠更好地進行數(shù)據(jù)查找、編目和搜索,所有這些都是有用的。然而,要進入下一個層次,我們需要超越現(xiàn)有數(shù)據(jù)的局限性,并根據(jù)這些數(shù)據(jù)所包含的信息來決定我們需要哪些數(shù)據(jù)來回答與體內(nèi)安全性和有效性相關(guān)的問題。

科學(xué)問題或假設(shè),是任何模型的開始,這使我們能夠以一種有針對性的方式生成數(shù)據(jù),我們需要以適當?shù)姆绞奖硎具@些數(shù)據(jù),并最終使用適當?shù)姆椒ǚ治鰯?shù)據(jù)。

為了能夠在藥物發(fā)現(xiàn)的決策中真正使用化學(xué)和生物數(shù)據(jù),我們需要超越技術(shù)“推動”產(chǎn)生的數(shù)據(jù),朝著科學(xué)需求的“拉動”方向發(fā)展。因此,我們首先需要更好地確定要測量什么。

小結(jié)

藥物發(fā)現(xiàn)領(lǐng)域的可用數(shù)據(jù)本質(zhì)上與人工智能最近取得巨大進展的其他領(lǐng)域(如圖像識別領(lǐng)域)的數(shù)據(jù)有根本不同。在許多情況下,生命科學(xué)數(shù)據(jù)很難標記,這是人工智能方法在藥物發(fā)現(xiàn)領(lǐng)域應(yīng)用時的一個嚴重問題。

為了真正推動這一領(lǐng)域的發(fā)展,我們需要了解為哪種目的生成哪些數(shù)據(jù),這首先涉及到更好地理解生物學(xué)。只有當我們能夠在體內(nèi)測量和捕捉相關(guān)的生物終點時,我們才能在這一領(lǐng)域取得更大的進展,并將目前可用的計算算法有效地應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域,以提高化合物在臨床上的療效和安全性。

參考文獻:

1.Artificial intelligence in drug discovery: what is realistic, whatare illusions? Part 2: a discussion of chemical and biological data. DrugDiscov Today. 2021 Jan 27;S1359-6446(21)00042-8.

       原文標題 : 人工智能利用生物數(shù)據(jù)的難點

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

醫(yī)療科技 獵頭職位 更多
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號