清華團(tuán)隊(duì)竟把醫(yī)院搬進(jìn)了AI世界!首個(gè)AI醫(yī)院小鎮(zhèn)——Agent Hospital,可以完全模擬醫(yī)患看病的全流程。更重要的是,AI醫(yī)生可以自主進(jìn)化,僅用幾天的時(shí)間治療大約1萬(wàn)名患者。
斯坦福AI小鎮(zhèn)曾火遍了全網(wǎng),25個(gè)智能體生活交友,堪稱現(xiàn)實(shí)版的「西部世界」。
而現(xiàn)在,AI「醫(yī)院小鎮(zhèn)」也來(lái)了!
最近,來(lái)自清華團(tuán)隊(duì)的研究人員開(kāi)發(fā)了一個(gè)名為「Agent Hospital」的模擬醫(yī)院。
在這個(gè)虛擬世界中,所有的醫(yī)生、護(hù)士、患者都是由LLM驅(qū)動(dòng)的智能體,可以自主交互。
它們模擬了整個(gè)診病看病的過(guò)程,包括分診、掛號(hào)、咨詢、檢查、診斷、治療、隨訪等環(huán)節(jié)。
而在這項(xiàng)研究中,作者的核心目標(biāo)是,讓AI醫(yī)生學(xué)會(huì)在模擬環(huán)境中治療疾病,并且能夠?qū)崿F(xiàn)自主進(jìn)化。
由此,他們開(kāi)發(fā)了一種MedAgent-Zero系統(tǒng),能夠讓醫(yī)生智能體,不斷從成功和失敗的病例積累經(jīng)驗(yàn)。
值得一提的是,AI醫(yī)生可以在幾天內(nèi)完成對(duì)1萬(wàn)名患者的治療。
而人類醫(yī)生需要2年的時(shí)間,才能達(dá)到類似的水平。
另外,進(jìn)化后的醫(yī)生智能體,在涵蓋主要呼吸道疾病的MedQA數(shù)據(jù)集子集上,實(shí)現(xiàn)高達(dá)93.06%的最新準(zhǔn)確率。
不得不說(shuō),AI進(jìn)化在虛擬世界中默默進(jìn)化,真有淘汰人類之勢(shì)。
有網(wǎng)友表示,「AI模擬將探索人類根本沒(méi)有時(shí)間,或能力探索的道路」。
想象一下,數(shù)千家全自動(dòng)化醫(yī)院,將會(huì)拯救數(shù)百萬(wàn)人的生命。這很快就會(huì)到來(lái)。
首個(gè)AI醫(yī)院小鎮(zhèn)登場(chǎng)
其實(shí),智能體,早已成為業(yè)界看好的一個(gè)領(lǐng)域。
不論是在虛擬世界中的模擬,還是能夠解決實(shí)際任務(wù)(比如Devin)的智能體,都將給我們世界帶來(lái)巨變。
然而,這些多智能體通常用于「社會(huì)模擬」,或者「解決問(wèn)題」。
那么,是否有將這兩種能力結(jié)合起來(lái)的智能體?
也就是說(shuō),社會(huì)模擬過(guò)程能否,提升LLM智能體在特定任務(wù)的表現(xiàn)?
受此啟發(fā),研究人員開(kāi)發(fā)了一個(gè)幾乎涵蓋所有醫(yī)學(xué)領(lǐng)域的治療流程的模擬。
如同單機(jī)游戲《主題醫(yī)院》的世界
Agent Hospital中模擬的環(huán)境,主要有兩類主體:一是患者,一是醫(yī)療專業(yè)人員。
它們的角色信息,都是由GPT-3.5生成,可以無(wú)限擴(kuò)展。
比如,下圖中,35歲患者Kenneth Morgan有急性鼻炎,而他的病史是高血壓,目前的癥狀是持續(xù)嘔吐,有些腹瀉、反復(fù)發(fā)燒、腹痛、頭痛,而且頸淋巴結(jié)腫大。
再來(lái)看32歲內(nèi)科醫(yī)生Elise Martin,具備了出色的溝通能力,以及富有同理心的護(hù)理能力。
她主要的職責(zé)是,為患有各種急性病和慢性病的成年患者提供診斷、治療和預(yù)防保健服務(wù)。
ZhaoLei是一位擅長(zhǎng)解讀醫(yī)學(xué)圖像的放射科醫(yī)生,還有前臺(tái)接待員Fatoumata Diawara。
下圖中展示的是,Agent Hospital內(nèi)有各種問(wèn)診室和檢查室,因此需要一系列醫(yī)療專業(yè)智能體工作。
研究人員設(shè)計(jì)了,14名醫(yī)生和4名護(hù)士。
醫(yī)生智能體被設(shè)計(jì)來(lái)診斷疾病并制定詳細(xì)的治療計(jì)劃,而護(hù)理智能體則專注于分診,支持日常治療干預(yù)。
AI患者如何看病?
與真實(shí)世界看病的流程一樣,當(dāng)患者生病后,就會(huì)去醫(yī)院掛號(hào)就診。
在此期間,它們還會(huì)經(jīng)歷一系列階段,包括檢查、分診、會(huì)診、診斷、治療。
患者在拿到治療方案后,LLM會(huì)幫助預(yù)測(cè)患者的健康狀況變化。一旦康復(fù),它便會(huì)主動(dòng)向醫(yī)院匯報(bào)進(jìn)行隨訪。
如下是Kenneth Morgan前往醫(yī)院就診的示意圖。
首先是,分診護(hù)士Katherine Li對(duì)Morgan進(jìn)行了初步的評(píng)估,并將他分診到皮膚科就診。
隨后,Morgan在醫(yī)院柜臺(tái)進(jìn)行登記,被安排與皮膚科醫(yī)生Robert Thompson進(jìn)行會(huì)診。
在完成規(guī)定的體檢之后,AI醫(yī)生為Morgan開(kāi)出藥物治療,并敦促回家休息,同時(shí)還要監(jiān)測(cè)病情的改善情況。
AI醫(yī)生自我超進(jìn)化,無(wú)需手動(dòng)標(biāo)記數(shù)據(jù)
在模擬環(huán)境中,研究人員希望訓(xùn)練一個(gè)熟練的醫(yī)生智能體,來(lái)處理諸如診斷、治療等醫(yī)療任務(wù)。
傳統(tǒng)的方法是,將巨量的醫(yī)學(xué)數(shù)據(jù)喂給LLM/智能體,經(jīng)過(guò)預(yù)訓(xùn)練、微調(diào)、RAG之后,以構(gòu)建強(qiáng)大的醫(yī)學(xué)模型。
最新研究中,作者提出了一種新策略——在虛擬環(huán)境中模擬醫(yī)患互動(dòng),來(lái)訓(xùn)練醫(yī)生智能體。
在這個(gè)過(guò)程中,研究人員沒(méi)有使用手動(dòng)標(biāo)記數(shù)據(jù),因此最新系統(tǒng)被命名為MedAgent-Zero。
這一策略包含了兩個(gè)重要的模塊,即「病歷庫(kù)」和「經(jīng)驗(yàn)庫(kù)」。
診療成功的案例被整理,并存儲(chǔ)在病歷庫(kù)中,作為今后醫(yī)療干預(yù)的參考。
而對(duì)于治療失敗的情況,AI醫(yī)生有責(zé)任反思、分析診斷不正確的原因,總結(jié)出指導(dǎo)原則,作為后續(xù)治療過(guò)程中的警示。
簡(jiǎn)言之,MedAgent-Zero可以讓生智能體通過(guò)與患者智能體互動(dòng)。
通過(guò)積累成功案例的記錄,和從失敗案例中獲得經(jīng)驗(yàn),進(jìn)化成更優(yōu)秀的「醫(yī)生」。
整個(gè)自我進(jìn)化流程如下:
1)積累實(shí)例,總結(jié)經(jīng)驗(yàn);
2)直接向示例庫(kù)添加正確的響應(yīng);
3)總結(jié)錯(cuò)誤的經(jīng)驗(yàn),并重新測(cè)試;
4)將成功經(jīng)驗(yàn)進(jìn)一步抽象后,納入經(jīng)驗(yàn)庫(kù);
5)在推理過(guò)程中利用兩個(gè)庫(kù)檢索最相似的內(nèi)容進(jìn)行推理。
難得的是,由于訓(xùn)練成本低,效率高,醫(yī)生智能體可以輕松應(yīng)對(duì)數(shù)十種情況。
比如,智能體可以在短短幾天內(nèi)處理數(shù)萬(wàn)個(gè)病例,而現(xiàn)實(shí)世界的醫(yī)生需要幾年的時(shí)間才能完成。
診斷呼吸疾病,準(zhǔn)確率高達(dá)93.06%
接下來(lái),研究人員進(jìn)行了兩類實(shí)驗(yàn),來(lái)驗(yàn)證MedAgent-Zero策略改進(jìn)的醫(yī)生智能體,在醫(yī)院中的有效性。
一方面,在虛擬醫(yī)院內(nèi),作者們進(jìn)行了從100-10000個(gè)智能體的交互實(shí)驗(yàn)(人類醫(yī)生一周可能會(huì)治療約100名病人),涵蓋了8種不同的呼吸疾病、十幾種醫(yī)療檢查,以及每種疾病的三種不同治療方案。
通過(guò)MedAgent-Zero策略訓(xùn)練的醫(yī)生智能體,在處理模擬病人的過(guò)程中不斷自我進(jìn)化,最終在檢查、診斷和治療任務(wù)中的準(zhǔn)確率分別達(dá)到了88%、95.6%和77.6%。
隨著樣本的不斷擴(kuò)增,MedAgent-Zero的訓(xùn)練性能,在達(dá)到一定量時(shí)趨于平穩(wěn)。
在檢查、診斷、治療三個(gè)任務(wù)方面上的性能,MedAgent-Zero也隨著樣本增加,不斷波動(dòng),但整體準(zhǔn)確性呈現(xiàn)出上升趨勢(shì)。
診斷呼吸疾病,準(zhǔn)確率高達(dá)93.06%
再看如下三張圖,分別展示了不同疾病的檢查精度、診斷精確度、以及治療精度,隨著樣本的增加,也在平穩(wěn)攀升。
另一方面,研究者讓進(jìn)化后的醫(yī)生智能體,參加了對(duì)MedQA數(shù)據(jù)集子集的評(píng)估。
令人驚訝的是,即使沒(méi)有任何手動(dòng)標(biāo)注的數(shù)據(jù),醫(yī)生智能體在Agent Hospital中進(jìn)化后,也實(shí)現(xiàn)了最先進(jìn)的性能。
在經(jīng)驗(yàn)積累上,圖11、圖12和圖13分別顯示了,檢查、診斷和治療任務(wù)中,經(jīng)過(guò)驗(yàn)證經(jīng)驗(yàn)和錯(cuò)誤答案的積累。
當(dāng)訓(xùn)練樣本增加時(shí),經(jīng)驗(yàn)數(shù)和錯(cuò)誤答案數(shù)都緩慢增加。
如圖所示,經(jīng)驗(yàn)曲線低于錯(cuò)誤答案曲線,原因是智能體無(wú)法反映所有失敗的經(jīng)驗(yàn)。此外,診斷經(jīng)驗(yàn)比其他任務(wù)更容易積累。
一起來(lái)看個(gè)案例研究。
下表中說(shuō)明了,經(jīng)驗(yàn)庫(kù)、病理庫(kù)和MedAgent-Zero,在患者診療中的三個(gè)任務(wù)上的性能。
在得知病人癥狀之后,AI醫(yī)生不僅需要使用病歷庫(kù),同時(shí)還需要經(jīng)驗(yàn)庫(kù),也就是相輔相成。
若是少了其中的一方,便會(huì)導(dǎo)致診斷準(zhǔn)確性的下降。
如下,通過(guò)添加經(jīng)驗(yàn)和記錄,MedAgent-Zero針對(duì)所有3個(gè)任務(wù)都給出了正確的回答。
以上結(jié)果表明,模擬環(huán)境可以有效地幫助LLM智能體在處理特定任務(wù)時(shí)完成進(jìn)化。
MedAgent-Zero在使用GPT-3.5時(shí),比SOTA方法Medprompt高出2.78%,在使用GPT-4時(shí)比SOTA方法MedAgents高出1.39%。
這一結(jié)果驗(yàn)證了新模型有助于,在沒(méi)有任何MedQA訓(xùn)練樣本的情況下,僅使用模擬文檔和醫(yī)療文檔進(jìn)行智能體進(jìn)化,從而有效提高醫(yī)生智能體的醫(yī)療能力。
其次,基于GPT-4的MedAgent-Zero的最佳性能為93.06%,優(yōu)于MedQA數(shù)據(jù)集中的人類專家(約87%)。
第三,基于GPT-4的醫(yī)生智能體比基于GPT-3.5的任何其他方法都表現(xiàn)得更出色,這表明GPT-4在醫(yī)療領(lǐng)域更強(qiáng)大。
另外,在對(duì)MedAgent-Zero進(jìn)行的消融研究中,
同時(shí)利用「病歷庫(kù)」和「經(jīng)驗(yàn)庫(kù)」的MedAgent-Zero取得了最佳性能,表明這兩個(gè)模塊對(duì)診斷的幫助。
隨著病例的積累和經(jīng)驗(yàn)庫(kù)的擴(kuò)大,醫(yī)生智能體準(zhǔn)確率總體上越來(lái)越高。
無(wú)論是使用GPT-3.5還是 GPT-4,使用8000個(gè)病例積累的經(jīng)驗(yàn)庫(kù),其性能都高于使用2000/4000/6000個(gè)病例的性能。
不過(guò),經(jīng)驗(yàn)庫(kù)越大并不總是越好,因?yàn)檠芯空哌發(fā)現(xiàn)在2,000-4,000個(gè)案例之間有明顯的下降。
局限性
最后,研究人員還提到了這項(xiàng)研究的局限性。
- 只采用GPT-3.5作為Agent Hospital和評(píng)估的模擬器
- 由于智能體之間的交互及其演化涉及API調(diào)用,AI醫(yī)院的運(yùn)作效率受到LLM生成的限制
- 每個(gè)患者的健康記錄和檢查結(jié)果,是在沒(méi)有領(lǐng)域知識(shí)的情況下,模擬真實(shí)的電子健康記錄生成的,但仍與現(xiàn)實(shí)世界的記錄仍存在一些差異。
在未來(lái),研究者們對(duì)Agent Hospital的計(jì)劃將會(huì)包括:
第一,擴(kuò)大規(guī)模覆蓋的疾病范圍,延伸到更多的醫(yī)療科室,旨在反映真實(shí)醫(yī)院提供的全面服務(wù),以供進(jìn)一步研究。
第二,在加強(qiáng)智能體社會(huì)模擬方面,比如納入醫(yī)療專業(yè)人員的全面晉升制度、隨時(shí)間改變疾病的分布、納入病人的歷史病歷等。
第三,優(yōu)化基礎(chǔ)LLM的選擇和實(shí)施,旨在通過(guò)利用功能強(qiáng)大的開(kāi)源模型,更高效地執(zhí)行整個(gè)模擬過(guò)程。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會(huì)上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會(huì)——工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析專題論壇在沈陽(yáng)成功舉辦。