" />
合合信息啟信產(chǎn)業(yè)大腦攜手市北新區(qū)打造“一企一畫像”平臺,加速數(shù)字化轉(zhuǎn)型重慶:力爭今年智能網(wǎng)聯(lián)新能源汽車產(chǎn)量突破 100 萬輛,到 2027 年建成萬億級產(chǎn)業(yè)集群微信iOS最新版上線:iPhone用戶可在朋友圈發(fā)實(shí)況照片了蘋果有線耳機(jī)或?qū)⑼.a(chǎn)沖上熱搜!閑魚相關(guān)搜索量暴漲384%2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍(lán)河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進(jìn)化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運(yùn)行時安全解決方案,實(shí)現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?
  • 首頁 > 云計算頻道 > 大模型

    首個千億生物醫(yī)藥ChatGPT來了!清華AIR聶再清:這個行業(yè)未來的“Killer APP”

    2023年09月22日 17:19:00   來源:微信公眾號量子位

      本文來自于微信公眾號 量子位 (ID:QbitAI),作者:蕭蕭 。

      制藥行業(yè)的“專家版ChatGPT”,終于來了!

      就在這兩天,首個生物醫(yī)藥的千億參數(shù)大模型產(chǎn)品ChatDD發(fā)布,不僅制藥各階段知識“樣樣通”,還能和藥學(xué)專家進(jìn)行對話,瞬間秒懂一些行業(yè)神秘“黑話”。

    圖片

      這和AlphaFold2直接加個Chat功能還不太一樣——

      現(xiàn)階段大模型雖然能在藥物發(fā)現(xiàn)上做得不錯,但要么只涉及單個模態(tài),要么不具備直接對話能力。

      ChatDD則兼具多模態(tài)和對話雙重特點(diǎn),順便還能給醫(yī)藥界學(xué)生“解個惑”。

      做出這個產(chǎn)品背后的水木分子,是今年6月新成立的一家公司。清華大學(xué)智能產(chǎn)業(yè)研究院院長張亞勤院士指出:

      ChatDD通過人機(jī)協(xié)作對話方式有效地將專家知識與大模型知識相聯(lián)結(jié),開拓了繼傳統(tǒng)藥物研發(fā)TMDD、CADD、AIDD之后的第四代藥物研發(fā)新模式。

      所以,它究竟在什么功能上做到“劃時代”?

      我們和清華AIR教授、水木分子首席科學(xué)家聶再清聊了聊,詳細(xì)了解了ChatDD的來龍去脈。ChatDD是一個什么樣的產(chǎn)品?

      先來看看ChatDD能做哪些事兒,具體又能用在哪里。

      它的外觀和ChatGPT有點(diǎn)像,是一個網(wǎng)頁版,同樣能通過對話來實(shí)現(xiàn)各種功能。

      對話能力上,不僅英文總結(jié)不錯,中文對話也來得,直接hold住“疾病畫像”這樣的專業(yè)黑(術(shù))話(語):

    圖片

      如果有看不懂的分子,可以直接一鍵上傳相關(guān)文件,讓它來負(fù)責(zé)解讀這種分子的作用:

    圖片

      試試更復(fù)雜一點(diǎn)的任務(wù),例如計算親和力問題,大模型竟然直接“推薦”了一個工具,并快速計算出結(jié)果:

    圖片

      此外,也不用擔(dān)心問答內(nèi)容超出ChatDD訓(xùn)練數(shù)據(jù)截止日期,畢竟它還學(xué)會了自己聯(lián)網(wǎng)、或是從數(shù)據(jù)庫中查找答案。

    圖片

      總結(jié)來看,ChatDD雖然用法上像ChatGPT,但在生物醫(yī)藥這塊是“專業(yè)的”。

      無論是掌握的多模態(tài)(小分子+大分子+文本)醫(yī)藥專業(yè)知識量,還是對行業(yè)的理解程度、完成任務(wù)的能力,ChatDD都要比ChatGPT“更像個學(xué)醫(yī)藥的人”。

      與同行AI不同的是,ChatDD的“業(yè)務(wù)范圍”,涵蓋了制藥的前、中、后期三個階段。

      此前的醫(yī)藥行業(yè)AI,即使是大模型,往往也只能用于制藥的部分階段,例如前期的藥物發(fā)現(xiàn),或是中期的臨床前研究。占研發(fā)成本大部頭的后期臨床試驗,幾乎無人問津。

      而ChatDD不僅能參與藥物發(fā)現(xiàn)、立項、商業(yè)智能(BI,Business Inteligence)、臨床試驗各環(huán)節(jié),還能幫助提升成功率。

      聶再清介紹表示,ChatDD用于后期臨床試驗設(shè)計,也是大伙兒最期待的功能。

      首先,藥物在臨床試驗階段的通過率,往往并不高。

      尤其二期到三期臨床,通過率只有34%,三期到四期通過率也不高。但臨床試驗加上前中期的費(fèi)用往往又極高,一旦不通過,就是幾億美元成本“打水漂”。

      其次,藥物通過率不高的原因,(除非藥物本身不行)很大程度上是因為沒找到適合“對癥下藥”的患者。

      藥廠通常會從臨床信息數(shù)據(jù)庫中,篩選適合用藥的病人。

      假設(shè)這個藥物對數(shù)據(jù)庫中5%的患者有效,那么從這5%的患者中挑選進(jìn)行臨床試驗,肯定比剩下95%的患者有效率高。

      在綜合各方面信息做判斷這件事上,ChatDD往往比人類更適合篩選出“對癥下藥”的患者。

      聶再清特意舉了一個例子,來表明ChatDD的能力:

    圖片

      注意這里未來會是“私有化部署的合作伙伴的單細(xì)胞RNA測序數(shù)據(jù)”,現(xiàn)在因為沒有,所以我們用了水木分子收集到的公開數(shù)據(jù)計算出來的。

      這樣的ChatDD,背后功能究竟是怎么實(shí)現(xiàn)的? 醫(yī)學(xué)院博士后負(fù)責(zé)數(shù)據(jù)構(gòu)建

      ChatDD背后的底座,取名ChatDD-FM,參數(shù)量達(dá)到千億級別。

      這次推出的ChatDD-FM-100B,是全球首個千億參數(shù)多模態(tài)生物醫(yī)藥對話大模型,其在C- Eval評測中達(dá)到全部醫(yī)學(xué)4項專業(yè)第一、也是唯一平均分超過90分的模型。

      聯(lián)想到團(tuán)隊前不久發(fā)的BioMedGPT-10B,其自然語言模態(tài)的大模型同樣基于LLaMA2架構(gòu),這二者是否有什么聯(lián)系?

      聶再清表示,ChatDD-FM和BioMedGPT,在受眾和用途上都不太一樣,“有點(diǎn)像ChatGPT和GPT-3.5的區(qū)別,前者在對話和意圖對齊能力上有更大提升”。

      BioMedGPT主要用于科研領(lǐng)域,更擅長英文生物醫(yī)藥科研任務(wù),適合直接拿來作為生物醫(yī)藥領(lǐng)域的相關(guān)科研任務(wù)的基礎(chǔ)模型。

      ChatDD-FM主要給國內(nèi)醫(yī)藥行業(yè)“打輔助”,側(cè)重中文對話能力,融入了更多專家的對話模式和經(jīng)驗。

      技術(shù)上,ChatDD-FM相比BioMedGPT,主要增強(qiáng)了三大方面,模態(tài)、訓(xùn)練數(shù)據(jù)和參數(shù)量級——

      模態(tài)上,增加了蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù);訓(xùn)練上,增加了用于中文、專家對話和調(diào)用工具能力的數(shù)據(jù);參數(shù)量級上,從百億增加到千億。

      讓ChatDD-FM提升“專業(yè)度”、說話像“行內(nèi)人”的秘訣,依舊在于高質(zhì)量數(shù)據(jù)上。

      這些數(shù)據(jù)主要分為兩部分。

      第一部分,是預(yù)訓(xùn)練用的醫(yī)藥知識數(shù)據(jù),主要目的是讓ChatDD-FM提升專業(yè)素養(yǎng),幾個月內(nèi)掌握行業(yè)知識。

      由于之前業(yè)內(nèi)缺少相關(guān)(大小分子等多個模態(tài)和自然語言對齊)數(shù)據(jù)集、尤其是中文數(shù)據(jù),所以團(tuán)隊又自己收集整理了一系列訓(xùn)練數(shù)據(jù)集。

      首先,和廠商合作翻譯專業(yè)英文期刊、整理中文期刊,收集帶有中文專業(yè)名詞的大量數(shù)據(jù),降低大模型沒見過的專業(yè)詞匯比率;

      然后,找來一批醫(yī)學(xué)院博士和博士后,設(shè)計一套系統(tǒng)對這些數(shù)據(jù)進(jìn)行整理,直到它們可以被喂給大模型使用。

      聶再清強(qiáng)調(diào),這些博士不是在做數(shù)據(jù)標(biāo)注,畢竟相比有監(jiān)督學(xué)習(xí),自監(jiān)督學(xué)習(xí)更重要的是清洗、查找數(shù)據(jù)的工作:

      這些期刊數(shù)據(jù)當(dāng)然不是一個人一篇一篇地看,那絕對不行,也不是一個字一個字敲進(jìn)去,也肯定不行。

      畢竟大模型最主要的能力還是來源于自監(jiān)督學(xué)習(xí),所以更多是讓他們進(jìn)行數(shù)據(jù)清洗和查找的工作。

      當(dāng)然,醫(yī)藥界期刊總是在更新,因此這部分的工作也會持續(xù)進(jìn)行。

      第二部分,是“專家數(shù)據(jù)集”,專門用于提升ChatDD-FM的對話能力。

      ChatDD的用戶,會有不少醫(yī)藥領(lǐng)域的專業(yè)用戶,為了讓它能無縫讀懂業(yè)內(nèi)人的“專言專語”,就必須要先了解專家們平時都會怎么說話。

      團(tuán)隊為此找了一些專家,“觀察”他們平時是怎么提問的,根據(jù)這些問題整理了一套數(shù)據(jù)集,專門喂給ChatDD。

      這樣醫(yī)藥專業(yè)的用戶在使用時,不僅能像和同事聊天一樣直接提問,也能選擇“提示詞模板”直接換詞填充。

      此外,為了進(jìn)一步增強(qiáng)模型解決實(shí)際醫(yī)藥任務(wù)的能力,團(tuán)隊也接入了不少實(shí)用工具和開源算法,解決用戶遇到的問題,主要分為查詢和計算兩大類,如知識庫查詢工具、或靶點(diǎn)親和力計算工具。

      但,ChatDD-FM作為大模型,總歸繞不過幻覺這個問題。

      此前發(fā)布BioMedGPT時,聶再清就曾表示過不用害怕科研、藥物發(fā)現(xiàn)等階段的“幻覺”。現(xiàn)在發(fā)布商業(yè)版ChatDD-FM,是否還這么想?

      聶再清表示,現(xiàn)階段ChatDD-FM可以根據(jù)不同的需求,調(diào)整大模型出現(xiàn)幻覺的情況。

      例如在做商業(yè)智能的時候,就盡可能降低大模型的幻覺,做到每一句話都有來源可追溯;

      但在做藥物發(fā)現(xiàn)的時候,只要有實(shí)驗人員把關(guān),都可以去適當(dāng)提升幻覺,增加一部分模型想象力來“換換思路”,或許能試出有意思的結(jié)果。

      后期,ChatDD-FM理論上甚至能做到“一鍵更改回答出現(xiàn)幻覺的比率”。

    圖片

      “對制藥行業(yè)有劃時代意義”

      ChatDD背后的公司水木分子,目前已完成千萬級種子輪融資。

      水木分子自定義為“大模型時代的CRO公司”,即利用大模型或AI技術(shù),幫助別人更好更快地制藥。

      公司的盈利方式目前有三種,包括ToB付費(fèi)會員(按使用次數(shù)收費(fèi))、私有化部署和制藥分成。

      已經(jīng)有制藥廠商找來合作了——復(fù)星醫(yī)藥計劃對ChatDD進(jìn)行私有化部署,用于輔助藥物立項等階段。

      藥物立項,涉及大量資料查找和判斷,包括查找有無藥物相關(guān)(官能團(tuán)、分子結(jié)構(gòu)保護(hù)等)專利,還要根據(jù)大量文獻(xiàn)和實(shí)時市場信息等資料判斷是否值得立項。ChatDD能通過整合文獻(xiàn)和相關(guān)專利,生成一個完整的參考報告。

      ChatDD的出現(xiàn),聶再清認(rèn)為對于行業(yè)而言有跨時代意義:

      它真正將專家的經(jīng)驗和直覺、以及大模型的“智力涌現(xiàn)”能力融會貫通了起來。

      此前,制藥行業(yè)經(jīng)歷了三個階段,分別是TMDD(Traditional Manual Drug Design)、CADD(Computer-Aided Drug Design)和AIDD(AI Drug Design)。

      但無論是人工試驗,還是計算或AI輔助藥物研發(fā)設(shè)計,都需要大量人力去“學(xué)會如何使用”模型,尚未出現(xiàn)一個能和科研人員直接對話的系統(tǒng)。

      現(xiàn)在,ChatDD的出現(xiàn)真正改變了這一現(xiàn)狀。

      它不僅能將制藥的知識經(jīng)驗集成到大模型中,通過提示詞就能激發(fā)調(diào)用出來,還能通過學(xué)習(xí)專家對話方法掌握專業(yè)溝通能力,“相當(dāng)于把人和機(jī)器最powerful的地方做了個融合。”

    圖片

      不過,要完全實(shí)現(xiàn)ChatDD的全部潛能,真正進(jìn)入比較成熟的階段,聶再清認(rèn)為至少還有10年的黃金時代。

      一方面,對于生物醫(yī)藥行業(yè)來說,人類對于蛋白質(zhì)、細(xì)胞、小分子之類的理解也還遠(yuǎn)遠(yuǎn)不夠,在這個學(xué)科方面仍然可以做出很多成績和進(jìn)展;

      另一方面,對AI行業(yè)來說,無論是數(shù)據(jù)還是算法,也都還沒發(fā)展到足夠成熟的階段。

      數(shù)據(jù)上,目前生物醫(yī)藥領(lǐng)域內(nèi)各模態(tài)和自然語言對齊的數(shù)據(jù)還很少。

      (就像圖文一樣,雖然文字和圖像各自的數(shù)據(jù)很多,但圖文對齊如VQA的數(shù)據(jù)卻相對要少很多)

      對此依舊需要不斷收集整理出PQA(蛋白質(zhì)問答)、MQA(小分子問答)等模態(tài)的數(shù)據(jù),來讓多模態(tài)大模型的效果變得更好。

      模型上,大模型目前的效果還不是最好的,無論是單模態(tài)還是多模態(tài),都值得繼續(xù)去探索。

      所以,公司的下一步計劃,就是繼續(xù)優(yōu)化模型、增加更多模態(tài),并找到更多的場景落地需求。

      對于ChatDD最終形態(tài)的設(shè)想,聶再清表示:

      它會成為一個各模態(tài)(大小分子、蛋白質(zhì)結(jié)構(gòu)、DNA、單細(xì)胞等)和自然語言全部對齊的生物醫(yī)藥基礎(chǔ)大模型產(chǎn)品。

      他也在發(fā)布會上預(yù)言,這個產(chǎn)品會成為生物醫(yī)藥行業(yè)的大模型“Killer APP”。

      到那時候,才會真正打破醫(yī)藥界的“雙十定律”,高性價比的實(shí)現(xiàn)人機(jī)協(xié)作新藥研發(fā)。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實(shí)業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實(shí)業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。