A级毛片在线看,日本无遮挡H肉动漫在线观看网站

人工智能利用生物數(shù)據(jù)的難點

2023-10-08 11:26

前言

人工智能（AI）最近在圖像和語音識別等領(lǐng)域產(chǎn)生了深遠的影響，這一進展已經(jīng)轉(zhuǎn)化為實際應(yīng)用。然而，在藥物發(fā)現(xiàn)領(lǐng)域，這種進展仍然很少，其中一個原因是所使用的數(shù)據(jù)本身。不同領(lǐng)域的數(shù)據(jù)存在顯著的差異，即圖像、語音、化學(xué)和生物領(lǐng)域，尤其在生物領(lǐng)域受限于可用數(shù)據(jù)的數(shù)量，以及與藥物發(fā)現(xiàn)的相關(guān)性，這些都限制了AI在藥物發(fā)現(xiàn)領(lǐng)域的應(yīng)用。

未來需要我們改進對生物系統(tǒng)的理解，以及隨后產(chǎn)生的足夠數(shù)量的實際相關(guān)數(shù)據(jù)，以真正推進AI在藥物發(fā)現(xiàn)領(lǐng)域的發(fā)展，從而能夠發(fā)現(xiàn)新的化合物，以及新的作用模式，從而能夠在實際的臨床應(yīng)用中表現(xiàn)出理想的療效和安全性。

物理數(shù)據(jù)和生物數(shù)據(jù)的差異

人工智能已經(jīng)改變了許多領(lǐng)域，可能最顯著的是圖像和語音識別領(lǐng)域，除了算法，對于數(shù)據(jù)的要求也非常重要。特別是在“深度學(xué)習(xí)”的背景下，數(shù)據(jù)更是至關(guān)重要的，這涉及到可用數(shù)據(jù)的數(shù)量及其分布。

不同領(lǐng)域的可用數(shù)據(jù)量差別很大，從僅有數(shù)百個帶有體內(nèi)注釋的數(shù)據(jù)點（例如注釋有可能誘發(fā)藥物性肝損傷的藥物，DILI）到特斯拉運營的車隊每年可用的Zettabytes（1021字節(jié)）。在其他領(lǐng)域，可供使用的化學(xué)和生物數(shù)據(jù)量相對較少。

除了大量可用數(shù)據(jù)外，以計算機可修改的形式表示數(shù)據(jù)的能力也至關(guān)重要，為數(shù)據(jù)挖掘使用相關(guān)端點標記數(shù)據(jù)的能力也是如此。在這方面圖像識別和化學(xué)，生物領(lǐng)域具有顯著的差異。

在對圖像和語音進行分類時，對對象的模型結(jié)構(gòu)的表示和呈現(xiàn)比使用化學(xué)和生物數(shù)據(jù)時更為完整，標簽的分配也相對不那么模糊。在化學(xué)領(lǐng)域，一個物體的最佳表征通常是未知的，一種化學(xué)物質(zhì)的不同方面導(dǎo)致不同類型的效應(yīng)，有些可能與官能團有關(guān)，有些可能與表面性質(zhì)有關(guān)。而在生物領(lǐng)域，哪種類型的信息提供了與哪個終點相關(guān)的信息也是很模糊的。化學(xué)和生物領(lǐng)域的共同點是，標簽在很大程度上取決于特定實驗的設(shè)置，即使這些相同的東西在“原則上”是可測量的。

人工智能在圍棋等類型的游戲上取得了突破性的進展，但這樣的游戲比藥物發(fā)現(xiàn)設(shè)置簡單得多，因為存在一組有限的狀態(tài)，規(guī)則是明確定義的，并且可以窮盡地計算（至少在理論上是）。然而在生物學(xué)領(lǐng)域，系統(tǒng)通常不遵循明確定義的規(guī)則（或者至少那些通常屬于未知的規(guī)則，并且只能從可用的有限數(shù)據(jù)中獲�。Ｏ喾�，系統(tǒng)可以在大量不同的水平上定義，例如轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)和代謝組學(xué)水平，也可以從表觀遺傳和功能相互作用水平，以時間和空間分辨的方式，同時考慮細胞內(nèi)和細胞間信號，從細胞到生物整體水平。

此外，在生物領(lǐng)域的觀察是高度條件性的（取決于大量的參數(shù)），這通常是未知的。在諸如副作用資源（SIDER）之類的數(shù)據(jù)庫中，人們可以對具有特定副作用的藥物進行注釋，并使用這些信息訓(xùn)練計算模型以進行預(yù)測。然而，除了給藥本身外，這種效應(yīng)還取決于：（i）劑量；（ii）受體的遺傳設(shè)置或遺傳多態(tài)性；（iii）影響藥物藥代動力學(xué)（PK）特性的因素（如食物攝入量）；（iv）聯(lián)合用藥；（v）疾病狀態(tài)；（vi）性別；（vii）年齡；或者（viii）微生物組；然后副作用可能只發(fā)生在特定的一部分患者身上，而且可能在不同的嚴重程度、不同的器官中以不同的形式出現(xiàn)�？梢悦黠@看出，不同領(lǐng)域的數(shù)據(jù)及其含義存在很大差異，并非每個在一個領(lǐng)域有效的方法都可以直接轉(zhuǎn)移到另一個領(lǐng)域�；瘜W(xué)和生物數(shù)據(jù)的使用必須非常謹慎，并始終在其背景下加以解釋。

難點1：如何將生物活性和不良反應(yīng)聯(lián)系起來

我們現(xiàn)在根據(jù)間接的藥理學(xué)分析數(shù)據(jù)，并將蛋白質(zhì)基團的生物活性與生理功能聯(lián)系起來，試圖說明化學(xué)和生物領(lǐng)域結(jié)論的復(fù)雜性。盡管人們可以假設(shè)，針對蛋白質(zhì)靶點的活性足以理解并預(yù)測其在生物系統(tǒng)中的作用（這確實有利于藥物發(fā)現(xiàn)中的人工智能方法），但不幸的是，實際情況并非如此。

例如，基于FDA不良事件報告系統(tǒng)（FAERS）在考慮靶細胞生物活性與未結(jié)合血漿濃度的比值時，即如果一種藥物的血漿濃度高于作用于某一特定靶點所需的閾值，那么假定人們就會看到一種特定類型的副作用（或者更普遍地說，生物效應(yīng)），分析結(jié)果如下圖所示。

根據(jù)體外生物活性與血漿游離濃度的比值進行分析，針對靶點具有高陽性預(yù)測值（PPV）的不良事件往往具有較低的命中率，這意味著只有一小部分與不良事件相關(guān)的藥物與靶點的生物活性相關(guān)。另外，高命中率與低PPV相關(guān)，表明該靶點活性與不良事件對應(yīng)的高假陽性率。因此，總的來說，靶向活性與給藥后觀察到的不良事件之間不存在明確的一對一關(guān)系。

此外，這種分析過于簡單，因為在這種分析中沒有考慮到許多因素（如化合物代謝、完整的PK、脫靶效應(yīng)等），化合物的單一（甚至沒有）描述將無法解釋預(yù)測藥物效應(yīng)的全部生物學(xué)復(fù)雜性，然而，這是許多計算藥物發(fā)現(xiàn)方法的基本假定。

比如氯胺酮，氯胺酮既是一種麻醉劑，也是一種街頭毒品，在2000年發(fā)現(xiàn)，當明顯低于用作麻醉劑的劑量時，其表現(xiàn)出抗抑郁的效果，此外，其支氣管擴張?zhí)匦砸彩潜娝苤摹１M管氯胺酮長期以來被認為是通過阻斷NMDA受體發(fā)揮作用，但其他NMDA阻斷劑，如美金剛和蘭尼西明，在臨床試驗中并沒有成功，這暗示了它們各自作用方式的不同，這一點還有待充分了解。除了NMDA受體外，研究發(fā)現(xiàn)阿片受體系統(tǒng)也與氯胺酮的作用有關(guān)。此外，最近發(fā)現(xiàn)氯胺酮的代謝物在抑郁癥動物模型中具有活性，人類對氯胺酮的研究仍然有許多未知。這個案例說明了用明確的作用模式和適應(yīng)癥來注釋藥物的困難，因為這些通常都不知道細節(jié)，并且取決于劑量、代謝以及其他因素。這使得人工智能在藥物發(fā)現(xiàn)中對這些注釋很差的數(shù)據(jù)的應(yīng)用變得極為艱難。

難點2：藥物發(fā)現(xiàn)中的數(shù)據(jù)和問題設(shè)定

為了在藥物發(fā)現(xiàn)領(lǐng)域使用數(shù)據(jù)分析方法，我們通�？梢詤^(qū)分兩種類型的模型：（i）基于大規(guī)模和代替指標的模型，這些模型通常旨在從大量物理可用或虛擬分子（例如，在虛擬篩選中）中選擇化合物，在性質(zhì)上更傾向于定性的模型，包括溶解度、脂溶性或蛋白質(zhì)靶點生物活性的模型通常屬于這一類；以及（ii）基于通常規(guī)模較小的可用數(shù)據(jù)的模型（但通常是與體內(nèi)終點更相關(guān)的數(shù)據(jù)），其中具有更定量的性質(zhì)，旨在預(yù)測安全性或療效相關(guān)終點，更復(fù)雜的模型，如動物模型（人體藥效或安全性數(shù)據(jù)）屬于這一類。

在藥物發(fā)現(xiàn)中，通過相對簡單的分析類型可以生成大量的數(shù)據(jù)點，這有利于培訓(xùn)所需的數(shù)據(jù)量。然而，在代理指標對相關(guān)體內(nèi)終點的預(yù)測性相對較低的情況下，單純的數(shù)據(jù)量往往不足以生成實際有用的模型。而相比之下，復(fù)雜生物學(xué)的定量讀數(shù)在人體內(nèi)相關(guān)性方面可能更有利，但這些數(shù)據(jù)更難生成和建模。

總而言之，我們目前還沒有合適類型的數(shù)據(jù)來生成模型，從而真正利用人工智能進行藥物發(fā)現(xiàn)。因此，對這些代理終點進行建模的能力的增量變化也不會改變游戲規(guī)則，因為它們不會轉(zhuǎn)化為與藥物安全性和療效相關(guān)的任何體內(nèi)終點。在許多情況下，我們對生物學(xué)的理解還不足以指導(dǎo)我們需要測量什么，而替代終點的選擇（與理化性質(zhì)、PK、療效或安全性相關(guān)）總是與它們?nèi)绾无D(zhuǎn)化為臨床的重大不確定性相關(guān)。鑒于可用基礎(chǔ)數(shù)據(jù)的這一特性，無論使用何種算法也無法改善當前的情況。

難點3：藥物發(fā)現(xiàn)中的數(shù)據(jù)注釋與標識

由于各種原因，生物注釋通常遠遠不適合用于數(shù)據(jù)挖掘，例如藥物的“作用模式”概念，其中通常使用解剖治療分類（ATC）代碼來提供這種類型的標簽。然而，ATC代碼在歷史上一直在增長，ATC的最高級別類別是器官級別，這與任何有意義的生物學(xué)行為模式都沒有聯(lián)系。

那么還有哪些選擇？例如，在特定靶標上的活性是一種常見的選擇，可以使用Entrez基因ID作為目標標識符，然而，情況并不是那么簡單。如果一個唯一可識別的基因不是靶標，而只是一個特定的剪接變體，或者一個的特定激活狀態(tài)（例如激酶的磷酸化形式），或者一個特定的變構(gòu)結(jié)合位點，那么應(yīng)該使用哪個標識符？此外，該靶點也可能被抑制（而其濃度保持不變），或其表達可能被改變（例如，跨細胞類型或狀態(tài)），或可能通過PROTACs標記降解，等等。

因此，有許多不同的方式與藥物靶點相互作用，其中只有少數(shù)是功能等效的。此外，同一靶點上不同類型的相互作用可能導(dǎo)致不同的效果；在最簡單的情況下，這可能是蛋白質(zhì)上的激動劑和拮抗劑之間的差異；但受體藥理學(xué)當然比這更微妙，而且偏倚的信號傳遞或考慮配體-受體相互作用的藥效學(xué)，它們的功能性后果，導(dǎo)致了如何用行為模式“標記”特定化合物以實現(xiàn)數(shù)據(jù)挖掘的進一步復(fù)雜化。因此，即使一個人接受這樣一個前提，即針對特定靶點的活性可以被用來注釋化合物的作用模式（這本身就是一個很大的“如果”），那么用于這個目的的標簽決不是無足輕重的。

未來AI在藥物發(fā)現(xiàn)中的發(fā)展方向

目前，我們經(jīng)常“在數(shù)據(jù)所在的地方建模”，這就像只在燈光所在的地方去尋找車鑰匙，而不是真正期望在哪里找到它們，僅僅擁有“數(shù)據(jù)”是沒有幫助的，我們需要的是正確的數(shù)據(jù)，以正確的格式提供，并用于正確的目的，藥物發(fā)現(xiàn)中的人工智能才能給該領(lǐng)域帶來真正的變化。

人們已經(jīng)認識到，藥物發(fā)現(xiàn)數(shù)據(jù)需要更好地被組織起來，目前，我們已經(jīng)能夠更好地進行數(shù)據(jù)查找、編目和搜索，所有這些都是有用的。然而，要進入下一個層次，我們需要超越現(xiàn)有數(shù)據(jù)的局限性，并根據(jù)這些數(shù)據(jù)所包含的信息來決定我們需要哪些數(shù)據(jù)來回答與體內(nèi)安全性和有效性相關(guān)的問題。

科學(xué)問題或假設(shè)，是任何模型的開始，這使我們能夠以一種有針對性的方式生成數(shù)據(jù)，我們需要以適當?shù)姆绞奖硎具@些數(shù)據(jù)，并最終使用適當?shù)姆椒ǚ治鰯?shù)據(jù)。

為了能夠在藥物發(fā)現(xiàn)的決策中真正使用化學(xué)和生物數(shù)據(jù)，我們需要超越技術(shù)“推動”產(chǎn)生的數(shù)據(jù)，朝著科學(xué)需求的“拉動”方向發(fā)展。因此，我們首先需要更好地確定要測量什么。

小結(jié)

藥物發(fā)現(xiàn)領(lǐng)域的可用數(shù)據(jù)本質(zhì)上與人工智能最近取得巨大進展的其他領(lǐng)域（如圖像識別領(lǐng)域）的數(shù)據(jù)有根本不同。在許多情況下，生命科學(xué)數(shù)據(jù)很難標記，這是人工智能方法在藥物發(fā)現(xiàn)領(lǐng)域應(yīng)用時的一個嚴重問題。

為了真正推動這一領(lǐng)域的發(fā)展，我們需要了解為哪種目的生成哪些數(shù)據(jù)，這首先涉及到更好地理解生物學(xué)。只有當我們能夠在體內(nèi)測量和捕捉相關(guān)的生物終點時，我們才能在這一領(lǐng)域取得更大的進展，并將目前可用的計算算法有效地應(yīng)用于藥物發(fā)現(xiàn)領(lǐng)域，以提高化合物在臨床上的療效和安全性。

參考文獻：

1.Artificial intelligence in drug discovery: what is realistic, whatare illusions? Part 2: a discussion of chemical and biological data. DrugDiscov Today. 2021 Jan 27;S1359-6446(21)00042-8.

原文標題 : 人工智能利用生物數(shù)據(jù)的難點