清華首個(gè)AI醫(yī)院小鎮(zhèn)來(lái)了！AI醫(yī)生自進(jìn)化擊敗人類專家，數(shù)天診完1萬(wàn)名患者

2024年05月09日 17:23:54 來(lái)源：新智元公眾號(hào)

　　清華團(tuán)隊(duì)竟把醫(yī)院搬進(jìn)了AI世界!首個(gè)AI醫(yī)院小鎮(zhèn)——Agent Hospital，可以完全模擬醫(yī)患看病的全流程。更重要的是，AI醫(yī)生可以自主進(jìn)化，僅用幾天的時(shí)間治療大約1萬(wàn)名患者。

　　斯坦福AI小鎮(zhèn)曾火遍了全網(wǎng)，25個(gè)智能體生活交友，堪稱現(xiàn)實(shí)版的「西部世界」。

　　而現(xiàn)在，AI「醫(yī)院小鎮(zhèn)」也來(lái)了!

　　最近，來(lái)自清華團(tuán)隊(duì)的研究人員開(kāi)發(fā)了一個(gè)名為「Agent Hospital」的模擬醫(yī)院。

　　在這個(gè)虛擬世界中，所有的醫(yī)生、護(hù)士、患者都是由LLM驅(qū)動(dòng)的智能體，可以自主交互。

　　它們模擬了整個(gè)診病看病的過(guò)程，包括分診、掛號(hào)、咨詢、檢查、診斷、治療、隨訪等環(huán)節(jié)。

　　而在這項(xiàng)研究中，作者的核心目標(biāo)是，讓AI醫(yī)生學(xué)會(huì)在模擬環(huán)境中治療疾病，并且能夠?qū)崿F(xiàn)自主進(jìn)化。

　　由此，他們開(kāi)發(fā)了一種MedAgent-Zero系統(tǒng)，能夠讓醫(yī)生智能體，不斷從成功和失敗的病例積累經(jīng)驗(yàn)。

　　值得一提的是，AI醫(yī)生可以在幾天內(nèi)完成對(duì)1萬(wàn)名患者的治療。

　　而人類醫(yī)生需要2年的時(shí)間，才能達(dá)到類似的水平。

　　另外，進(jìn)化后的醫(yī)生智能體，在涵蓋主要呼吸道疾病的MedQA數(shù)據(jù)集子集上，實(shí)現(xiàn)高達(dá)93.06%的最新準(zhǔn)確率。

　　不得不說(shuō)，AI進(jìn)化在虛擬世界中默默進(jìn)化，真有淘汰人類之勢(shì)。

　　有網(wǎng)友表示，「AI模擬將探索人類根本沒(méi)有時(shí)間，或能力探索的道路」。

　　想象一下，數(shù)千家全自動(dòng)化醫(yī)院，將會(huì)拯救數(shù)百萬(wàn)人的生命。這很快就會(huì)到來(lái)。

　　首個(gè)AI醫(yī)院小鎮(zhèn)登場(chǎng)

　　其實(shí)，智能體，早已成為業(yè)界看好的一個(gè)領(lǐng)域。

　　不論是在虛擬世界中的模擬，還是能夠解決實(shí)際任務(wù)(比如Devin)的智能體，都將給我們世界帶來(lái)巨變。

　　然而，這些多智能體通常用于「社會(huì)模擬」，或者「解決問(wèn)題」。

　　那么，是否有將這兩種能力結(jié)合起來(lái)的智能體?

　　也就是說(shuō)，社會(huì)模擬過(guò)程能否，提升LLM智能體在特定任務(wù)的表現(xiàn)?

　　受此啟發(fā)，研究人員開(kāi)發(fā)了一個(gè)幾乎涵蓋所有醫(yī)學(xué)領(lǐng)域的治療流程的模擬。

　　如同單機(jī)游戲《主題醫(yī)院》的世界

　　Agent Hospital中模擬的環(huán)境，主要有兩類主體:一是患者，一是醫(yī)療專業(yè)人員。

　　它們的角色信息，都是由GPT-3.5生成，可以無(wú)限擴(kuò)展。

　　比如，下圖中，35歲患者Kenneth Morgan有急性鼻炎，而他的病史是高血壓，目前的癥狀是持續(xù)嘔吐，有些腹瀉、反復(fù)發(fā)燒、腹痛、頭痛，而且頸淋巴結(jié)腫大。

　　再來(lái)看32歲內(nèi)科醫(yī)生Elise Martin，具備了出色的溝通能力，以及富有同理心的護(hù)理能力。

　　她主要的職責(zé)是，為患有各種急性病和慢性病的成年患者提供診斷、治療和預(yù)防保健服務(wù)。

　　ZhaoLei是一位擅長(zhǎng)解讀醫(yī)學(xué)圖像的放射科醫(yī)生，還有前臺(tái)接待員Fatoumata Diawara。

　　下圖中展示的是，Agent Hospital內(nèi)有各種問(wèn)診室和檢查室，因此需要一系列醫(yī)療專業(yè)智能體工作。

　　研究人員設(shè)計(jì)了，14名醫(yī)生和4名護(hù)士。

　　醫(yī)生智能體被設(shè)計(jì)來(lái)診斷疾病并制定詳細(xì)的治療計(jì)劃，而護(hù)理智能體則專注于分診，支持日常治療干預(yù)。

　　AI患者如何看病?

　　與真實(shí)世界看病的流程一樣，當(dāng)患者生病后，就會(huì)去醫(yī)院掛號(hào)就診。

　　在此期間，它們還會(huì)經(jīng)歷一系列階段，包括檢查、分診、會(huì)診、診斷、治療。

　　患者在拿到治療方案后，LLM會(huì)幫助預(yù)測(cè)患者的健康狀況變化。一旦康復(fù)，它便會(huì)主動(dòng)向醫(yī)院匯報(bào)進(jìn)行隨訪。

　　如下是Kenneth Morgan前往醫(yī)院就診的示意圖。

　　首先是，分診護(hù)士Katherine Li對(duì)Morgan進(jìn)行了初步的評(píng)估，并將他分診到皮膚科就診。

　　隨后，Morgan在醫(yī)院柜臺(tái)進(jìn)行登記，被安排與皮膚科醫(yī)生Robert Thompson進(jìn)行會(huì)診。

　　在完成規(guī)定的體檢之后，AI醫(yī)生為Morgan開(kāi)出藥物治療，并敦促回家休息，同時(shí)還要監(jiān)測(cè)病情的改善情況。

　　AI醫(yī)生自我超進(jìn)化，無(wú)需手動(dòng)標(biāo)記數(shù)據(jù)

　　在模擬環(huán)境中，研究人員希望訓(xùn)練一個(gè)熟練的醫(yī)生智能體，來(lái)處理諸如診斷、治療等醫(yī)療任務(wù)。

　　傳統(tǒng)的方法是，將巨量的醫(yī)學(xué)數(shù)據(jù)喂給LLM/智能體，經(jīng)過(guò)預(yù)訓(xùn)練、微調(diào)、RAG之后，以構(gòu)建強(qiáng)大的醫(yī)學(xué)模型。

　　最新研究中，作者提出了一種新策略——在虛擬環(huán)境中模擬醫(yī)患互動(dòng)，來(lái)訓(xùn)練醫(yī)生智能體。

　　在這個(gè)過(guò)程中，研究人員沒(méi)有使用手動(dòng)標(biāo)記數(shù)據(jù)，因此最新系統(tǒng)被命名為MedAgent-Zero。

　　這一策略包含了兩個(gè)重要的模塊，即「病歷庫(kù)」和「經(jīng)驗(yàn)庫(kù)」。

　　診療成功的案例被整理，并存儲(chǔ)在病歷庫(kù)中，作為今后醫(yī)療干預(yù)的參考。

　　而對(duì)于治療失敗的情況，AI醫(yī)生有責(zé)任反思、分析診斷不正確的原因，總結(jié)出指導(dǎo)原則，作為后續(xù)治療過(guò)程中的警示。

　　簡(jiǎn)言之，MedAgent-Zero可以讓生智能體通過(guò)與患者智能體互動(dòng)。

　　通過(guò)積累成功案例的記錄，和從失敗案例中獲得經(jīng)驗(yàn)，進(jìn)化成更優(yōu)秀的「醫(yī)生」。

　　整個(gè)自我進(jìn)化流程如下:

　　1)積累實(shí)例，總結(jié)經(jīng)驗(yàn);

　　2)直接向示例庫(kù)添加正確的響應(yīng);

　　3)總結(jié)錯(cuò)誤的經(jīng)驗(yàn)，并重新測(cè)試;

　　4)將成功經(jīng)驗(yàn)進(jìn)一步抽象后，納入經(jīng)驗(yàn)庫(kù);

　　5)在推理過(guò)程中利用兩個(gè)庫(kù)檢索最相似的內(nèi)容進(jìn)行推理。

　　難得的是，由于訓(xùn)練成本低，效率高，醫(yī)生智能體可以輕松應(yīng)對(duì)數(shù)十種情況。

　　比如，智能體可以在短短幾天內(nèi)處理數(shù)萬(wàn)個(gè)病例，而現(xiàn)實(shí)世界的醫(yī)生需要幾年的時(shí)間才能完成。

　　診斷呼吸疾病，準(zhǔn)確率高達(dá)93.06%

　　接下來(lái)，研究人員進(jìn)行了兩類實(shí)驗(yàn)，來(lái)驗(yàn)證MedAgent-Zero策略改進(jìn)的醫(yī)生智能體，在醫(yī)院中的有效性。

　　一方面，在虛擬醫(yī)院內(nèi)，作者們進(jìn)行了從100-10000個(gè)智能體的交互實(shí)驗(yàn)(人類醫(yī)生一周可能會(huì)治療約100名病人)，涵蓋了8種不同的呼吸疾病、十幾種醫(yī)療檢查，以及每種疾病的三種不同治療方案。

　　通過(guò)MedAgent-Zero策略訓(xùn)練的醫(yī)生智能體，在處理模擬病人的過(guò)程中不斷自我進(jìn)化，最終在檢查、診斷和治療任務(wù)中的準(zhǔn)確率分別達(dá)到了88%、95.6%和77.6%。

　　隨著樣本的不斷擴(kuò)增，MedAgent-Zero的訓(xùn)練性能，在達(dá)到一定量時(shí)趨于平穩(wěn)。

　　在檢查、診斷、治療三個(gè)任務(wù)方面上的性能，MedAgent-Zero也隨著樣本增加，不斷波動(dòng)，但整體準(zhǔn)確性呈現(xiàn)出上升趨勢(shì)。

　　診斷呼吸疾病，準(zhǔn)確率高達(dá)93.06%

　　再看如下三張圖，分別展示了不同疾病的檢查精度、診斷精確度、以及治療精度，隨著樣本的增加，也在平穩(wěn)攀升。

　　另一方面，研究者讓進(jìn)化后的醫(yī)生智能體，參加了對(duì)MedQA數(shù)據(jù)集子集的評(píng)估。

　　令人驚訝的是，即使沒(méi)有任何手動(dòng)標(biāo)注的數(shù)據(jù)，醫(yī)生智能體在Agent Hospital中進(jìn)化后，也實(shí)現(xiàn)了最先進(jìn)的性能。

　　在經(jīng)驗(yàn)積累上，圖11、圖12和圖13分別顯示了，檢查、診斷和治療任務(wù)中，經(jīng)過(guò)驗(yàn)證經(jīng)驗(yàn)和錯(cuò)誤答案的積累。

　　當(dāng)訓(xùn)練樣本增加時(shí)，經(jīng)驗(yàn)數(shù)和錯(cuò)誤答案數(shù)都緩慢增加。

　　如圖所示，經(jīng)驗(yàn)曲線低于錯(cuò)誤答案曲線，原因是智能體無(wú)法反映所有失敗的經(jīng)驗(yàn)。此外，診斷經(jīng)驗(yàn)比其他任務(wù)更容易積累。

　　一起來(lái)看個(gè)案例研究。

　　下表中說(shuō)明了，經(jīng)驗(yàn)庫(kù)、病理庫(kù)和MedAgent-Zero，在患者診療中的三個(gè)任務(wù)上的性能。

　　在得知病人癥狀之后，AI醫(yī)生不僅需要使用病歷庫(kù)，同時(shí)還需要經(jīng)驗(yàn)庫(kù)，也就是相輔相成。

　　若是少了其中的一方，便會(huì)導(dǎo)致診斷準(zhǔn)確性的下降。

　　如下，通過(guò)添加經(jīng)驗(yàn)和記錄，MedAgent-Zero針對(duì)所有3個(gè)任務(wù)都給出了正確的回答。

　　以上結(jié)果表明，模擬環(huán)境可以有效地幫助LLM智能體在處理特定任務(wù)時(shí)完成進(jìn)化。

　　MedAgent-Zero在使用GPT-3.5時(shí)，比SOTA方法Medprompt高出2.78%，在使用GPT-4時(shí)比SOTA方法MedAgents高出1.39%。

　　這一結(jié)果驗(yàn)證了新模型有助于，在沒(méi)有任何MedQA訓(xùn)練樣本的情況下，僅使用模擬文檔和醫(yī)療文檔進(jìn)行智能體進(jìn)化，從而有效提高醫(yī)生智能體的醫(yī)療能力。

　　其次，基于GPT-4的MedAgent-Zero的最佳性能為93.06%，優(yōu)于MedQA數(shù)據(jù)集中的人類專家(約87%)。

　　第三，基于GPT-4的醫(yī)生智能體比基于GPT-3.5的任何其他方法都表現(xiàn)得更出色，這表明GPT-4在醫(yī)療領(lǐng)域更強(qiáng)大。

　　另外，在對(duì)MedAgent-Zero進(jìn)行的消融研究中，

　　同時(shí)利用「病歷庫(kù)」和「經(jīng)驗(yàn)庫(kù)」的MedAgent-Zero取得了最佳性能，表明這兩個(gè)模塊對(duì)診斷的幫助。

　　隨著病例的積累和經(jīng)驗(yàn)庫(kù)的擴(kuò)大，醫(yī)生智能體準(zhǔn)確率總體上越來(lái)越高。

　　無(wú)論是使用GPT-3.5還是 GPT-4，使用8000個(gè)病例積累的經(jīng)驗(yàn)庫(kù)，其性能都高于使用2000/4000/6000個(gè)病例的性能。

　　不過(guò)，經(jīng)驗(yàn)庫(kù)越大并不總是越好，因?yàn)檠芯空哌€發(fā)現(xiàn)在2，000-4，000個(gè)案例之間有明顯的下降。

　　局限性

　　最后，研究人員還提到了這項(xiàng)研究的局限性。

　　- 只采用GPT-3.5作為Agent Hospital和評(píng)估的模擬器

　　- 由于智能體之間的交互及其演化涉及API調(diào)用，AI醫(yī)院的運(yùn)作效率受到LLM生成的限制

　　- 每個(gè)患者的健康記錄和檢查結(jié)果，是在沒(méi)有領(lǐng)域知識(shí)的情況下，模擬真實(shí)的電子健康記錄生成的，但仍與現(xiàn)實(shí)世界的記錄仍存在一些差異。

　　在未來(lái)，研究者們對(duì)Agent Hospital的計(jì)劃將會(huì)包括:

　　第一，擴(kuò)大規(guī)模覆蓋的疾病范圍，延伸到更多的醫(yī)療科室，旨在反映真實(shí)醫(yī)院提供的全面服務(wù)，以供進(jìn)一步研究。

　　第二，在加強(qiáng)智能體社會(huì)模擬方面，比如納入醫(yī)療專業(yè)人員的全面晉升制度、隨時(shí)間改變疾病的分布、納入病人的歷史病歷等。

　　第三，優(yōu)化基礎(chǔ)LLM的選擇和實(shí)施，旨在通過(guò)利用功能強(qiáng)大的開(kāi)源模型，更高效地執(zhí)行整個(gè)模擬過(guò)程。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。

[No. ]
分享到微信

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

2024年的Adobe MAX 2024發(fā)布會(huì)上，Adobe推出了最新版本的Adobe Creative Cloud。

游戲體驗(yàn)天花板一加Ace 5系列正式定檔12月26日

“耐玩戰(zhàn)神”真我Neo7今日開(kāi)售：2099元起，堅(jiān)持質(zhì)價(jià)比不動(dòng)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
台湾中文娱乐网

清華首個(gè)AI醫(yī)院小鎮(zhèn)來(lái)了！AI醫(yī)生自進(jìn)化擊敗人類專家，數(shù)天診完1萬(wàn)名患者

即時(shí)

BenQ DesignVue攜新品重磅亮相「創(chuàng)意界奧斯卡」Adobe Max

新聞

明火炊具市場(chǎng)：三季度健康屬性貫穿全類目

企業(yè)IT

重慶創(chuàng)新公積金應(yīng)用，“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

3C消費(fèi)

華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器，高能實(shí)力，創(chuàng)

研究

中國(guó)信通院羅松：深度解讀《工業(yè)互聯(lián)網(wǎng)標(biāo)識(shí)解析體系

專題

清華首個(gè)AI醫(yī)院小鎮(zhèn)來(lái)了！AI醫(yī)生自進(jìn)化擊敗人類專家，數(shù)天診完1萬(wàn)名患者

擴(kuò)展閱讀

清華首個(gè)AI醫(yī)院小鎮(zhèn)來(lái)了！AI醫(yī)生自進(jìn)化擊敗人類專家，數(shù)天診完1萬(wàn)名患者