DrugGPT離ChatGPT還有多遠？ AI製藥企業：“卡脖子”的不是算力是數據

Question

**來源：**《科創板日報》**記者：余詩琪朱潔琰**![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-2443b7d710-dd1a6f-7649e1) 圖片來源：由無界AI‌ 生成在剛剛過去的2023WAIC世界人工智能大會上，生成式AI的熱潮幾乎貫穿了整場大會。作為當前最受關注的變革性風口，投資人、產業界、學術界都對其抱有諸多期待，尤其是如何在應用層面挖掘出顛覆性的機會。AI+醫藥是被看到的機會之一。在本次大會上，美國超威半導體公司（AMD）董事會主席兼首席執行官蘇姿豐在發言中就表示，醫療保健是AI能真正影響人類結果的領域，會幫助醫生作出更好的診斷，加速疾病預防研究。她的老對手動作更快。 7月12日，英偉達宣布以私募股權的形式向AI製藥公司Recursion投資5000萬美元。其創始人兼CEO黃仁勳在公告中表示，在開發新藥和新的療法方面，生成式AI是一種革命性的工具。 Recursion正在使用英偉達的相關產品在生化領域進行開創性的工作，加速開發世界上最大的生物分子生成型AI模型，以此推動生物科技的發展並加速製藥公司的藥物發現。AI製藥在國內一直是風口之一，已經湧現出一批在技術上跑到世界前列的頭部企業。當時代的機會來臨，身處一線的AI製藥企業如何認知當前的變化，《科創板日報》邀請到騰邁醫藥聯合創始人、CEO何騎、晶泰科技首席科學官張佩宇、深勢科技戰略負責人王小佛三位產業界代表，分享他們眼中的機會和挑戰。## **“卡脖子”的不是算力是數據**對生成式AI浪潮帶來的影響，三位企業家共同的感知是“熱度”起來了。騰邁醫藥CEO何騎表示，現在整個醫藥行業還處於寒冬中，但AI製藥的賽道已經開始回溫。騰邁在今年3月份完成了3500萬美元A輪融資，當時得到了很多頭部機構的支持，現在也有不少機構表示對業務模式感興趣。晶泰科技的首席科學官張佩宇和深勢科技戰略負責人王小佛都認為，生成式AI的影響還沒有直接傳導到AI製藥上，但已經給行業帶來了正面的信號。張佩宇提到，“現在GPT的投資熱點還是圍繞大模型、數據庫、圖形計算這些，這只是開始，**未來肯定是要向醫藥、製造這些更細分的應用層遷移，這是向上生長的必然過程。**”在ChatGPT爆火出圈前，AI賦能新藥研發已經成為行業的共識。研報顯示，通過機器學習（machine learning，ML）、深度學習（deeplearning，DL）等方式賦能藥物靶點發現、化合物篩選等環節，**能夠使新藥研發的成功率從12%提高到14%，每年為全球節約化合物篩选和臨床試驗費用約550億美元。 **但另一方面，AI製藥也面臨著瓶頸。 AI製藥目前主要應用在藥物發現、先導化合物篩選等早期階段，在臨床試驗階段更多還是要依靠人來完成相關工作。同時AI製藥也受限於數據同質化的影響。通俗意義上說，AI的學習資料是人類已經創造的實驗數據，對於冷門的靶點數據，AI無法無中生有。這也意味著生成式AI最具想像空間的能力受到了限制。因此擺在AI製藥企業面前的困境和現在的大模型公司是截然不同的。張佩宇在採訪中直言，算力、算法都不是限制AI製藥企業發展的核心關卡。幾百個GPU和當前不斷迭代的算法已經足夠支持一家AI製藥公司的需求，**關鍵在於數據。 **“不論是通過AI算力優勢進行模擬計算，加速篩選優化先導物，還是基於經驗和大數據的訓練，設計全新的分子結構，都需要大量的數據作為支撐。對於AI製藥企業來說，它的核心就建立在數據生產能力上。”張佩宇表示。在何騎看來，現在AI之所以在藥物後期開發當中能發揮的作用還相對有限，主要問題就是數據匱乏，尤其是在臨床階段或者是轉化醫學上所需要的數據。這對大模型的訓練造成了很大的挑戰。數據的匱乏不止體現在量上，王小佛進一步剖析了問題的核心，“現在數據的量是不夠的，因為通過實驗產生數據的成本非常高。更麻煩的是質也無法得到完全保證，比如同樣的實驗，甲來做和乙來做，可能做出來的結果會不一樣，它本身是有很多場外因素的影響和關聯誤差存在的。**底層數據的量、質無法保證**，直接結果就是AI學習的表現和成果就大打折扣了。”在幾位AI製藥從業者看來，從ChatGPT走向DrugGPT的道路曲折且艱難，卡住脖子的不是算力而是底層數據生產能力。但同樣的，生成式AI浪潮下，AI製藥有機會給整個製藥行業帶來質變，打破創新的瓶頸，解決研發效率的根本問題。## **DrugGPT的未來還有多遠？ **首要解決的是數據生產能力的問題。晶泰的思路是**“自動化+智能化”**。張佩宇認為，藥物研發的過程是一個不斷試錯迭代的過程，其中不少環節傳統上都屬於勞動密集型，完全可以通過自動化來替代人類勞動，提高效率和精確度。現在他們做的很多工作就是把傳統工藝轉化為自動化工藝，並且以自動化的流程全程追溯高精度數據，實時反饋給AI模型。這種方式能比人類實驗收集更多、更全面真實的數據，提高人效數倍的同時，賦能人類去做更多更成功的創新探索。自動化產生的數據源源不斷地驅動智能化算法的開發和優化。自動化的效率越高，智能化算法的預測越精確、適用範圍越廣。同時，智能化還體現於把非結構化的信息轉變為結構化數據。據他介紹，現在AI可以將非結構化的文獻和專利中隱藏的合成路徑、分子結構等信息抽取出來，轉成結構化數據，提高算法的表現，再將設計的合成路徑輸出給自動化設備，進入化學合成測試、數據生產流程中。在這個過程中，AI還能起到調度規劃的作用，高效並行地調用各種各樣的工具，針對不同的應用場景完成算法預測到實驗驗證的閉環。“這是個值得期待的發展方向，走到最後，僅靠AI就能把設計和生產的閉環串聯起來，自動地完成藥物研發。”張佩宇表示。深勢則提出了AI for Science的科研新範式，簡單來說就是用AI去學習一系列事物底層運作的科學規律。王小佛表示，面對數據匱乏的問題，他們將AI引入更底層的科研領域後，讓AI利用自身強大的函數擬合和數據分析能力，去學習科學規律和原理，得出可用模型來解決實際的科研問題，特別是輔助科學家在不同的假設條件下進行大量的驗證和試錯，從而大大加速科研探索的進程。目前已經能看到在效率上的提升，王小佛提到，此前在藥物篩選過程中可能需要做很多次的高通量實驗，現在先用AI for Science的新範式去計算，算完之後再去進行小部分驗證，最近我們有試過做比過去少一個數量級的實驗，就能拿到候選藥物。這等於獲得了一個不止10倍以上的效率提升。效率的加持带来了更底层的变化。据张佩宇介绍，现在晶泰为生物医药设计的自动化数智实验室，不仅可以用于药物研发，还可以进一步拓展到同样需要实验筛选的化工、新材料方向，底层原理是相通的。但这些领域的安全性要求、验证周期和项目复杂度显著更低。这是一个不弱于制药的巨大市场，目前他们已经和一些石油化工、储能材料等新材料研发企业达成了合作。對於未來，他有相當樂觀的預期，在跨越數據生產的瓶頸之後，AI製藥有機會以量變引起質變，未來的藥物研發可能整個過程都是通過AI去指導實現，使難成藥靶點及新的成藥機制催生出新一代優質藥物，創造新的藥物管線及增量市場。在二三十年後，可以期待，**新藥研發中90%的工作都可以讓AI來更加高效地完成，**創新門檻降低的同時，藥物研發的天花板被抬高，以更少的資源、時間和失敗風險，讓更多藥物來到患者身邊。當下，何騎認為，AI對藥物研發的推動力已經到了第二曲線，Biotech公司在做創新藥研發當中，都不可避免需要在計算方面做大的投入。基於這一痛點，提供了設備和算力，還有專家支持的AI製藥企業，已經能得到不少客戶的認可。打下商業化基礎之後，企業可以以更長遠的視角，探索更多AI賦能藥物研發的路徑。