下單前先比價(jià)不花冤枉錢 同款圖書京東價(jià)低于抖音6折日媒感慨中國(guó)電動(dòng)汽車/智駕遙遙領(lǐng)先:本田、日產(chǎn)、三菱合并也沒(méi)戲消委會(huì)吹風(fēng)機(jī)品質(zhì)檢測(cè)結(jié)果揭曉 徠芬獨(dú)占鰲頭 共話新質(zhì)營(yíng)銷力,2024梅花數(shù)據(jù)峰會(huì)圓滿落幕索尼影像專業(yè)服務(wù) PRO Support 升級(jí),成為會(huì)員至少需注冊(cè) 2 臺(tái) α 全畫幅相機(jī)、3 支 G 大師鏡頭消息稱vivo加碼電池軍備競(jìng)賽:6500mAh 旗艦機(jī)+7500mAh中端機(jī)寶馬M8雙門轎跑車明年年初將停產(chǎn),后續(xù)無(wú)2026款車型比亞迪:2025 款漢家族車型城市領(lǐng)航智駕功能開(kāi)啟內(nèi)測(cè)雷神預(yù)告2025年首次出席CES 將發(fā)布三款不同技術(shù)原理智能眼鏡realme真我全球首發(fā)聯(lián)發(fā)科天璣 8400 耐玩戰(zhàn)神共創(chuàng)計(jì)劃iQOO Z9 Turbo長(zhǎng)續(xù)航版手機(jī)被曝電池加大到6400mAh,搭驍龍 8s Gen 3處理器普及放緩 銷量大跌:曝保時(shí)捷將重新評(píng)估電動(dòng)汽車計(jì)劃來(lái)京東參與榮耀Magic7 RSR 保時(shí)捷設(shè)計(jì)預(yù)售 享365天只換不修國(guó)補(bǔ)期間電視迎來(lái)?yè)Q機(jī)潮,最暢銷MiniLED品牌花落誰(shuí)家?美團(tuán)旗下微信社群團(tuán)購(gòu)業(yè)務(wù)“團(tuán)買買”宣布年底停運(yùn)消息稱微軟正與第三方廠商洽談,試圖合作推出Xbox游戲掌機(jī)設(shè)備在海外,要再造一個(gè)京東物流?消息稱蘋果正為AirPods開(kāi)發(fā)多項(xiàng)健康功能,包括心率監(jiān)測(cè)和溫度感應(yīng)一加 Ace 5系列將搭載全新游戲助手:大幅提升游戲體驗(yàn)東芝全部業(yè)務(wù)實(shí)現(xiàn)盈利,退市裁員重組后終于賺錢
  • 首頁(yè) > 云計(jì)算頻道 > 大模型

    清華首個(gè)AI醫(yī)院小鎮(zhèn)來(lái)了!AI醫(yī)生自進(jìn)化擊敗人類專家,數(shù)天診完1萬(wàn)名患者

    2024年05月09日 17:23:54   來(lái)源:新智元公眾號(hào)

      清華團(tuán)隊(duì)竟把醫(yī)院搬進(jìn)了AI世界!首個(gè)AI醫(yī)院小鎮(zhèn)——Agent Hospital,可以完全模擬醫(yī)患看病的全流程。更重要的是,AI醫(yī)生可以自主進(jìn)化,僅用幾天的時(shí)間治療大約1萬(wàn)名患者。

      斯坦福AI小鎮(zhèn)曾火遍了全網(wǎng),25個(gè)智能體生活交友,堪稱現(xiàn)實(shí)版的「西部世界」。

      而現(xiàn)在,AI「醫(yī)院小鎮(zhèn)」也來(lái)了!

      最近,來(lái)自清華團(tuán)隊(duì)的研究人員開(kāi)發(fā)了一個(gè)名為「Agent Hospital」的模擬醫(yī)院。

      在這個(gè)虛擬世界中,所有的醫(yī)生、護(hù)士、患者都是由LLM驅(qū)動(dòng)的智能體,可以自主交互。

      它們模擬了整個(gè)診病看病的過(guò)程,包括分診、掛號(hào)、咨詢、檢查、診斷、治療、隨訪等環(huán)節(jié)。

      而在這項(xiàng)研究中,作者的核心目標(biāo)是,讓AI醫(yī)生學(xué)會(huì)在模擬環(huán)境中治療疾病,并且能夠?qū)崿F(xiàn)自主進(jìn)化。

      由此,他們開(kāi)發(fā)了一種MedAgent-Zero系統(tǒng),能夠讓醫(yī)生智能體,不斷從成功和失敗的病例積累經(jīng)驗(yàn)。

      值得一提的是,AI醫(yī)生可以在幾天內(nèi)完成對(duì)1萬(wàn)名患者的治療。

      而人類醫(yī)生需要2年的時(shí)間,才能達(dá)到類似的水平。

      另外,進(jìn)化后的醫(yī)生智能體,在涵蓋主要呼吸道疾病的MedQA數(shù)據(jù)集子集上,實(shí)現(xiàn)高達(dá)93.06%的最新準(zhǔn)確率。

      不得不說(shuō),AI進(jìn)化在虛擬世界中默默進(jìn)化,真有淘汰人類之勢(shì)。

      有網(wǎng)友表示,「AI模擬將探索人類根本沒(méi)有時(shí)間,或能力探索的道路」。

      想象一下,數(shù)千家全自動(dòng)化醫(yī)院,將會(huì)拯救數(shù)百萬(wàn)人的生命。這很快就會(huì)到來(lái)。

      首個(gè)AI醫(yī)院小鎮(zhèn)登場(chǎng)

      其實(shí),智能體,早已成為業(yè)界看好的一個(gè)領(lǐng)域。

      不論是在虛擬世界中的模擬,還是能夠解決實(shí)際任務(wù)(比如Devin)的智能體,都將給我們世界帶來(lái)巨變。

      然而,這些多智能體通常用于「社會(huì)模擬」,或者「解決問(wèn)題」。

      那么,是否有將這兩種能力結(jié)合起來(lái)的智能體?

      也就是說(shuō),社會(huì)模擬過(guò)程能否,提升LLM智能體在特定任務(wù)的表現(xiàn)?

      受此啟發(fā),研究人員開(kāi)發(fā)了一個(gè)幾乎涵蓋所有醫(yī)學(xué)領(lǐng)域的治療流程的模擬。

      如同單機(jī)游戲《主題醫(yī)院》的世界

      Agent Hospital中模擬的環(huán)境,主要有兩類主體:一是患者,一是醫(yī)療專業(yè)人員。

      它們的角色信息,都是由GPT-3.5生成,可以無(wú)限擴(kuò)展。

      比如,下圖中,35歲患者Kenneth Morgan有急性鼻炎,而他的病史是高血壓,目前的癥狀是持續(xù)嘔吐,有些腹瀉、反復(fù)發(fā)燒、腹痛、頭痛,而且頸淋巴結(jié)腫大。

      再來(lái)看32歲內(nèi)科醫(yī)生Elise Martin,具備了出色的溝通能力,以及富有同理心的護(hù)理能力。

      她主要的職責(zé)是,為患有各種急性病和慢性病的成年患者提供診斷、治療和預(yù)防保健服務(wù)。

      ZhaoLei是一位擅長(zhǎng)解讀醫(yī)學(xué)圖像的放射科醫(yī)生,還有前臺(tái)接待員Fatoumata Diawara。

      下圖中展示的是,Agent Hospital內(nèi)有各種問(wèn)診室和檢查室,因此需要一系列醫(yī)療專業(yè)智能體工作。

      研究人員設(shè)計(jì)了,14名醫(yī)生和4名護(hù)士。

      醫(yī)生智能體被設(shè)計(jì)來(lái)診斷疾病并制定詳細(xì)的治療計(jì)劃,而護(hù)理智能體則專注于分診,支持日常治療干預(yù)。

      AI患者如何看病?

      與真實(shí)世界看病的流程一樣,當(dāng)患者生病后,就會(huì)去醫(yī)院掛號(hào)就診。

      在此期間,它們還會(huì)經(jīng)歷一系列階段,包括檢查、分診、會(huì)診、診斷、治療。

      患者在拿到治療方案后,LLM會(huì)幫助預(yù)測(cè)患者的健康狀況變化。一旦康復(fù),它便會(huì)主動(dòng)向醫(yī)院匯報(bào)進(jìn)行隨訪。

      如下是Kenneth Morgan前往醫(yī)院就診的示意圖。

      首先是,分診護(hù)士Katherine Li對(duì)Morgan進(jìn)行了初步的評(píng)估,并將他分診到皮膚科就診。

      隨后,Morgan在醫(yī)院柜臺(tái)進(jìn)行登記,被安排與皮膚科醫(yī)生Robert Thompson進(jìn)行會(huì)診。

      在完成規(guī)定的體檢之后,AI醫(yī)生為Morgan開(kāi)出藥物治療,并敦促回家休息,同時(shí)還要監(jiān)測(cè)病情的改善情況。

      AI醫(yī)生自我超進(jìn)化,無(wú)需手動(dòng)標(biāo)記數(shù)據(jù)

      在模擬環(huán)境中,研究人員希望訓(xùn)練一個(gè)熟練的醫(yī)生智能體,來(lái)處理諸如診斷、治療等醫(yī)療任務(wù)。

      傳統(tǒng)的方法是,將巨量的醫(yī)學(xué)數(shù)據(jù)喂給LLM/智能體,經(jīng)過(guò)預(yù)訓(xùn)練、微調(diào)、RAG之后,以構(gòu)建強(qiáng)大的醫(yī)學(xué)模型。

      最新研究中,作者提出了一種新策略——在虛擬環(huán)境中模擬醫(yī)患互動(dòng),來(lái)訓(xùn)練醫(yī)生智能體。

      在這個(gè)過(guò)程中,研究人員沒(méi)有使用手動(dòng)標(biāo)記數(shù)據(jù),因此最新系統(tǒng)被命名為MedAgent-Zero。

      這一策略包含了兩個(gè)重要的模塊,即「病歷庫(kù)」和「經(jīng)驗(yàn)庫(kù)」。

      診療成功的案例被整理,并存儲(chǔ)在病歷庫(kù)中,作為今后醫(yī)療干預(yù)的參考。

      而對(duì)于治療失敗的情況,AI醫(yī)生有責(zé)任反思、分析診斷不正確的原因,總結(jié)出指導(dǎo)原則,作為后續(xù)治療過(guò)程中的警示。

      簡(jiǎn)言之,MedAgent-Zero可以讓生智能體通過(guò)與患者智能體互動(dòng)。

      通過(guò)積累成功案例的記錄,和從失敗案例中獲得經(jīng)驗(yàn),進(jìn)化成更優(yōu)秀的「醫(yī)生」。

      整個(gè)自我進(jìn)化流程如下:

      1)積累實(shí)例,總結(jié)經(jīng)驗(yàn);

      2)直接向示例庫(kù)添加正確的響應(yīng);

      3)總結(jié)錯(cuò)誤的經(jīng)驗(yàn),并重新測(cè)試;

      4)將成功經(jīng)驗(yàn)進(jìn)一步抽象后,納入經(jīng)驗(yàn)庫(kù);

      5)在推理過(guò)程中利用兩個(gè)庫(kù)檢索最相似的內(nèi)容進(jìn)行推理。

      難得的是,由于訓(xùn)練成本低,效率高,醫(yī)生智能體可以輕松應(yīng)對(duì)數(shù)十種情況。

      比如,智能體可以在短短幾天內(nèi)處理數(shù)萬(wàn)個(gè)病例,而現(xiàn)實(shí)世界的醫(yī)生需要幾年的時(shí)間才能完成。

      診斷呼吸疾病,準(zhǔn)確率高達(dá)93.06%

      接下來(lái),研究人員進(jìn)行了兩類實(shí)驗(yàn),來(lái)驗(yàn)證MedAgent-Zero策略改進(jìn)的醫(yī)生智能體,在醫(yī)院中的有效性。

      一方面,在虛擬醫(yī)院內(nèi),作者們進(jìn)行了從100-10000個(gè)智能體的交互實(shí)驗(yàn)(人類醫(yī)生一周可能會(huì)治療約100名病人),涵蓋了8種不同的呼吸疾病、十幾種醫(yī)療檢查,以及每種疾病的三種不同治療方案。

      通過(guò)MedAgent-Zero策略訓(xùn)練的醫(yī)生智能體,在處理模擬病人的過(guò)程中不斷自我進(jìn)化,最終在檢查、診斷和治療任務(wù)中的準(zhǔn)確率分別達(dá)到了88%、95.6%和77.6%。

      隨著樣本的不斷擴(kuò)增,MedAgent-Zero的訓(xùn)練性能,在達(dá)到一定量時(shí)趨于平穩(wěn)。

      在檢查、診斷、治療三個(gè)任務(wù)方面上的性能,MedAgent-Zero也隨著樣本增加,不斷波動(dòng),但整體準(zhǔn)確性呈現(xiàn)出上升趨勢(shì)。

      診斷呼吸疾病,準(zhǔn)確率高達(dá)93.06%

      再看如下三張圖,分別展示了不同疾病的檢查精度、診斷精確度、以及治療精度,隨著樣本的增加,也在平穩(wěn)攀升。

      另一方面,研究者讓進(jìn)化后的醫(yī)生智能體,參加了對(duì)MedQA數(shù)據(jù)集子集的評(píng)估。

      令人驚訝的是,即使沒(méi)有任何手動(dòng)標(biāo)注的數(shù)據(jù),醫(yī)生智能體在Agent Hospital中進(jìn)化后,也實(shí)現(xiàn)了最先進(jìn)的性能。

      在經(jīng)驗(yàn)積累上,圖11、圖12和圖13分別顯示了,檢查、診斷和治療任務(wù)中,經(jīng)過(guò)驗(yàn)證經(jīng)驗(yàn)和錯(cuò)誤答案的積累。

      當(dāng)訓(xùn)練樣本增加時(shí),經(jīng)驗(yàn)數(shù)和錯(cuò)誤答案數(shù)都緩慢增加。

      如圖所示,經(jīng)驗(yàn)曲線低于錯(cuò)誤答案曲線,原因是智能體無(wú)法反映所有失敗的經(jīng)驗(yàn)。此外,診斷經(jīng)驗(yàn)比其他任務(wù)更容易積累。

      一起來(lái)看個(gè)案例研究。

      下表中說(shuō)明了,經(jīng)驗(yàn)庫(kù)、病理庫(kù)和MedAgent-Zero,在患者診療中的三個(gè)任務(wù)上的性能。

      在得知病人癥狀之后,AI醫(yī)生不僅需要使用病歷庫(kù),同時(shí)還需要經(jīng)驗(yàn)庫(kù),也就是相輔相成。

      若是少了其中的一方,便會(huì)導(dǎo)致診斷準(zhǔn)確性的下降。

      如下,通過(guò)添加經(jīng)驗(yàn)和記錄,MedAgent-Zero針對(duì)所有3個(gè)任務(wù)都給出了正確的回答。

      以上結(jié)果表明,模擬環(huán)境可以有效地幫助LLM智能體在處理特定任務(wù)時(shí)完成進(jìn)化。

      MedAgent-Zero在使用GPT-3.5時(shí),比SOTA方法Medprompt高出2.78%,在使用GPT-4時(shí)比SOTA方法MedAgents高出1.39%。

      這一結(jié)果驗(yàn)證了新模型有助于,在沒(méi)有任何MedQA訓(xùn)練樣本的情況下,僅使用模擬文檔和醫(yī)療文檔進(jìn)行智能體進(jìn)化,從而有效提高醫(yī)生智能體的醫(yī)療能力。

      其次,基于GPT-4的MedAgent-Zero的最佳性能為93.06%,優(yōu)于MedQA數(shù)據(jù)集中的人類專家(約87%)。

      第三,基于GPT-4的醫(yī)生智能體比基于GPT-3.5的任何其他方法都表現(xiàn)得更出色,這表明GPT-4在醫(yī)療領(lǐng)域更強(qiáng)大。

      另外,在對(duì)MedAgent-Zero進(jìn)行的消融研究中,

      同時(shí)利用「病歷庫(kù)」和「經(jīng)驗(yàn)庫(kù)」的MedAgent-Zero取得了最佳性能,表明這兩個(gè)模塊對(duì)診斷的幫助。

      隨著病例的積累和經(jīng)驗(yàn)庫(kù)的擴(kuò)大,醫(yī)生智能體準(zhǔn)確率總體上越來(lái)越高。

      無(wú)論是使用GPT-3.5還是 GPT-4,使用8000個(gè)病例積累的經(jīng)驗(yàn)庫(kù),其性能都高于使用2000/4000/6000個(gè)病例的性能。

      不過(guò),經(jīng)驗(yàn)庫(kù)越大并不總是越好,因?yàn)檠芯空哌發(fā)現(xiàn)在2,000-4,000個(gè)案例之間有明顯的下降。

      局限性

      最后,研究人員還提到了這項(xiàng)研究的局限性。

      - 只采用GPT-3.5作為Agent Hospital和評(píng)估的模擬器

      - 由于智能體之間的交互及其演化涉及API調(diào)用,AI醫(yī)院的運(yùn)作效率受到LLM生成的限制

      - 每個(gè)患者的健康記錄和檢查結(jié)果,是在沒(méi)有領(lǐng)域知識(shí)的情況下,模擬真實(shí)的電子健康記錄生成的,但仍與現(xiàn)實(shí)世界的記錄仍存在一些差異。

      在未來(lái),研究者們對(duì)Agent Hospital的計(jì)劃將會(huì)包括:

      第一,擴(kuò)大規(guī)模覆蓋的疾病范圍,延伸到更多的醫(yī)療科室,旨在反映真實(shí)醫(yī)院提供的全面服務(wù),以供進(jìn)一步研究。

      第二,在加強(qiáng)智能體社會(huì)模擬方面,比如納入醫(yī)療專業(yè)人員的全面晉升制度、隨時(shí)間改變疾病的分布、納入病人的歷史病歷等。

      第三,優(yōu)化基礎(chǔ)LLM的選擇和實(shí)施,旨在通過(guò)利用功能強(qiáng)大的開(kāi)源模型,更高效地執(zhí)行整個(gè)模擬過(guò)程。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。

    即時(shí)

    新聞

    明火炊具市場(chǎng):三季度健康屬性貫穿全類目

    奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開(kāi)“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費(fèi)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,高能實(shí)力,創(chuàng)

    華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來(lái)實(shí)質(zhì)性的幫助,雙十一期間低至2799元,性價(jià)比很高,簡(jiǎn)直是創(chuàng)作者們的首選。