上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學(xué)!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴(kuò)展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應(yīng)用:檢測屏幕指紋殘留,提高手機(jī)安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機(jī)器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機(jī)器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標(biāo)網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團(tuán)隊煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄iPhone16多款機(jī)型破發(fā):最高比官網(wǎng)便宜600元劉積仁不愛“湊熱鬧”,但東軟集團(tuán)喜歡“追風(fēng)口”快手電商新增近800個“0元開店”類目,推出多項新商入駐權(quán)益年內(nèi)狂攬五項第一,“字節(jié)系大模型”何以后發(fā)先至?
  • 首頁 > 云計算頻道 > 大模型

    清華首個AI醫(yī)院小鎮(zhèn)來了!AI醫(yī)生自進(jìn)化擊敗人類專家,數(shù)天診完1萬名患者

    2024年05月09日 17:23:54   來源:新智元公眾號

      清華團(tuán)隊竟把醫(yī)院搬進(jìn)了AI世界!首個AI醫(yī)院小鎮(zhèn)——Agent Hospital,可以完全模擬醫(yī)患看病的全流程。更重要的是,AI醫(yī)生可以自主進(jìn)化,僅用幾天的時間治療大約1萬名患者。

      斯坦福AI小鎮(zhèn)曾火遍了全網(wǎng),25個智能體生活交友,堪稱現(xiàn)實版的「西部世界」。

      而現(xiàn)在,AI「醫(yī)院小鎮(zhèn)」也來了!

      最近,來自清華團(tuán)隊的研究人員開發(fā)了一個名為「Agent Hospital」的模擬醫(yī)院。

      在這個虛擬世界中,所有的醫(yī)生、護(hù)士、患者都是由LLM驅(qū)動的智能體,可以自主交互。

      它們模擬了整個診病看病的過程,包括分診、掛號、咨詢、檢查、診斷、治療、隨訪等環(huán)節(jié)。

      而在這項研究中,作者的核心目標(biāo)是,讓AI醫(yī)生學(xué)會在模擬環(huán)境中治療疾病,并且能夠?qū)崿F(xiàn)自主進(jìn)化。

      由此,他們開發(fā)了一種MedAgent-Zero系統(tǒng),能夠讓醫(yī)生智能體,不斷從成功和失敗的病例積累經(jīng)驗。

      值得一提的是,AI醫(yī)生可以在幾天內(nèi)完成對1萬名患者的治療。

      而人類醫(yī)生需要2年的時間,才能達(dá)到類似的水平。

      另外,進(jìn)化后的醫(yī)生智能體,在涵蓋主要呼吸道疾病的MedQA數(shù)據(jù)集子集上,實現(xiàn)高達(dá)93.06%的最新準(zhǔn)確率。

      不得不說,AI進(jìn)化在虛擬世界中默默進(jìn)化,真有淘汰人類之勢。

      有網(wǎng)友表示,「AI模擬將探索人類根本沒有時間,或能力探索的道路」。

      想象一下,數(shù)千家全自動化醫(yī)院,將會拯救數(shù)百萬人的生命。這很快就會到來。

      首個AI醫(yī)院小鎮(zhèn)登場

      其實,智能體,早已成為業(yè)界看好的一個領(lǐng)域。

      不論是在虛擬世界中的模擬,還是能夠解決實際任務(wù)(比如Devin)的智能體,都將給我們世界帶來巨變。

      然而,這些多智能體通常用于「社會模擬」,或者「解決問題」。

      那么,是否有將這兩種能力結(jié)合起來的智能體?

      也就是說,社會模擬過程能否,提升LLM智能體在特定任務(wù)的表現(xiàn)?

      受此啟發(fā),研究人員開發(fā)了一個幾乎涵蓋所有醫(yī)學(xué)領(lǐng)域的治療流程的模擬。

      如同單機(jī)游戲《主題醫(yī)院》的世界

      Agent Hospital中模擬的環(huán)境,主要有兩類主體:一是患者,一是醫(yī)療專業(yè)人員。

      它們的角色信息,都是由GPT-3.5生成,可以無限擴(kuò)展。

      比如,下圖中,35歲患者Kenneth Morgan有急性鼻炎,而他的病史是高血壓,目前的癥狀是持續(xù)嘔吐,有些腹瀉、反復(fù)發(fā)燒、腹痛、頭痛,而且頸淋巴結(jié)腫大。

      再來看32歲內(nèi)科醫(yī)生Elise Martin,具備了出色的溝通能力,以及富有同理心的護(hù)理能力。

      她主要的職責(zé)是,為患有各種急性病和慢性病的成年患者提供診斷、治療和預(yù)防保健服務(wù)。

      ZhaoLei是一位擅長解讀醫(yī)學(xué)圖像的放射科醫(yī)生,還有前臺接待員Fatoumata Diawara。

      下圖中展示的是,Agent Hospital內(nèi)有各種問診室和檢查室,因此需要一系列醫(yī)療專業(yè)智能體工作。

      研究人員設(shè)計了,14名醫(yī)生和4名護(hù)士。

      醫(yī)生智能體被設(shè)計來診斷疾病并制定詳細(xì)的治療計劃,而護(hù)理智能體則專注于分診,支持日常治療干預(yù)。

      AI患者如何看病?

      與真實世界看病的流程一樣,當(dāng)患者生病后,就會去醫(yī)院掛號就診。

      在此期間,它們還會經(jīng)歷一系列階段,包括檢查、分診、會診、診斷、治療。

      患者在拿到治療方案后,LLM會幫助預(yù)測患者的健康狀況變化。一旦康復(fù),它便會主動向醫(yī)院匯報進(jìn)行隨訪。

      如下是Kenneth Morgan前往醫(yī)院就診的示意圖。

      首先是,分診護(hù)士Katherine Li對Morgan進(jìn)行了初步的評估,并將他分診到皮膚科就診。

      隨后,Morgan在醫(yī)院柜臺進(jìn)行登記,被安排與皮膚科醫(yī)生Robert Thompson進(jìn)行會診。

      在完成規(guī)定的體檢之后,AI醫(yī)生為Morgan開出藥物治療,并敦促回家休息,同時還要監(jiān)測病情的改善情況。

      AI醫(yī)生自我超進(jìn)化,無需手動標(biāo)記數(shù)據(jù)

      在模擬環(huán)境中,研究人員希望訓(xùn)練一個熟練的醫(yī)生智能體,來處理諸如診斷、治療等醫(yī)療任務(wù)。

      傳統(tǒng)的方法是,將巨量的醫(yī)學(xué)數(shù)據(jù)喂給LLM/智能體,經(jīng)過預(yù)訓(xùn)練、微調(diào)、RAG之后,以構(gòu)建強(qiáng)大的醫(yī)學(xué)模型。

      最新研究中,作者提出了一種新策略——在虛擬環(huán)境中模擬醫(yī)患互動,來訓(xùn)練醫(yī)生智能體。

      在這個過程中,研究人員沒有使用手動標(biāo)記數(shù)據(jù),因此最新系統(tǒng)被命名為MedAgent-Zero。

      這一策略包含了兩個重要的模塊,即「病歷庫」和「經(jīng)驗庫」。

      診療成功的案例被整理,并存儲在病歷庫中,作為今后醫(yī)療干預(yù)的參考。

      而對于治療失敗的情況,AI醫(yī)生有責(zé)任反思、分析診斷不正確的原因,總結(jié)出指導(dǎo)原則,作為后續(xù)治療過程中的警示。

      簡言之,MedAgent-Zero可以讓生智能體通過與患者智能體互動。

      通過積累成功案例的記錄,和從失敗案例中獲得經(jīng)驗,進(jìn)化成更優(yōu)秀的「醫(yī)生」。

      整個自我進(jìn)化流程如下:

      1)積累實例,總結(jié)經(jīng)驗;

      2)直接向示例庫添加正確的響應(yīng);

      3)總結(jié)錯誤的經(jīng)驗,并重新測試;

      4)將成功經(jīng)驗進(jìn)一步抽象后,納入經(jīng)驗庫;

      5)在推理過程中利用兩個庫檢索最相似的內(nèi)容進(jìn)行推理。

      難得的是,由于訓(xùn)練成本低,效率高,醫(yī)生智能體可以輕松應(yīng)對數(shù)十種情況。

      比如,智能體可以在短短幾天內(nèi)處理數(shù)萬個病例,而現(xiàn)實世界的醫(yī)生需要幾年的時間才能完成。

      診斷呼吸疾病,準(zhǔn)確率高達(dá)93.06%

      接下來,研究人員進(jìn)行了兩類實驗,來驗證MedAgent-Zero策略改進(jìn)的醫(yī)生智能體,在醫(yī)院中的有效性。

      一方面,在虛擬醫(yī)院內(nèi),作者們進(jìn)行了從100-10000個智能體的交互實驗(人類醫(yī)生一周可能會治療約100名病人),涵蓋了8種不同的呼吸疾病、十幾種醫(yī)療檢查,以及每種疾病的三種不同治療方案。

      通過MedAgent-Zero策略訓(xùn)練的醫(yī)生智能體,在處理模擬病人的過程中不斷自我進(jìn)化,最終在檢查、診斷和治療任務(wù)中的準(zhǔn)確率分別達(dá)到了88%、95.6%和77.6%。

      隨著樣本的不斷擴(kuò)增,MedAgent-Zero的訓(xùn)練性能,在達(dá)到一定量時趨于平穩(wěn)。

      在檢查、診斷、治療三個任務(wù)方面上的性能,MedAgent-Zero也隨著樣本增加,不斷波動,但整體準(zhǔn)確性呈現(xiàn)出上升趨勢。

      診斷呼吸疾病,準(zhǔn)確率高達(dá)93.06%

      再看如下三張圖,分別展示了不同疾病的檢查精度、診斷精確度、以及治療精度,隨著樣本的增加,也在平穩(wěn)攀升。

      另一方面,研究者讓進(jìn)化后的醫(yī)生智能體,參加了對MedQA數(shù)據(jù)集子集的評估。

      令人驚訝的是,即使沒有任何手動標(biāo)注的數(shù)據(jù),醫(yī)生智能體在Agent Hospital中進(jìn)化后,也實現(xiàn)了最先進(jìn)的性能。

      在經(jīng)驗積累上,圖11、圖12和圖13分別顯示了,檢查、診斷和治療任務(wù)中,經(jīng)過驗證經(jīng)驗和錯誤答案的積累。

      當(dāng)訓(xùn)練樣本增加時,經(jīng)驗數(shù)和錯誤答案數(shù)都緩慢增加。

      如圖所示,經(jīng)驗曲線低于錯誤答案曲線,原因是智能體無法反映所有失敗的經(jīng)驗。此外,診斷經(jīng)驗比其他任務(wù)更容易積累。

      一起來看個案例研究。

      下表中說明了,經(jīng)驗庫、病理庫和MedAgent-Zero,在患者診療中的三個任務(wù)上的性能。

      在得知病人癥狀之后,AI醫(yī)生不僅需要使用病歷庫,同時還需要經(jīng)驗庫,也就是相輔相成。

      若是少了其中的一方,便會導(dǎo)致診斷準(zhǔn)確性的下降。

      如下,通過添加經(jīng)驗和記錄,MedAgent-Zero針對所有3個任務(wù)都給出了正確的回答。

      以上結(jié)果表明,模擬環(huán)境可以有效地幫助LLM智能體在處理特定任務(wù)時完成進(jìn)化。

      MedAgent-Zero在使用GPT-3.5時,比SOTA方法Medprompt高出2.78%,在使用GPT-4時比SOTA方法MedAgents高出1.39%。

      這一結(jié)果驗證了新模型有助于,在沒有任何MedQA訓(xùn)練樣本的情況下,僅使用模擬文檔和醫(yī)療文檔進(jìn)行智能體進(jìn)化,從而有效提高醫(yī)生智能體的醫(yī)療能力。

      其次,基于GPT-4的MedAgent-Zero的最佳性能為93.06%,優(yōu)于MedQA數(shù)據(jù)集中的人類專家(約87%)。

      第三,基于GPT-4的醫(yī)生智能體比基于GPT-3.5的任何其他方法都表現(xiàn)得更出色,這表明GPT-4在醫(yī)療領(lǐng)域更強(qiáng)大。

      另外,在對MedAgent-Zero進(jìn)行的消融研究中,

      同時利用「病歷庫」和「經(jīng)驗庫」的MedAgent-Zero取得了最佳性能,表明這兩個模塊對診斷的幫助。

      隨著病例的積累和經(jīng)驗庫的擴(kuò)大,醫(yī)生智能體準(zhǔn)確率總體上越來越高。

      無論是使用GPT-3.5還是 GPT-4,使用8000個病例積累的經(jīng)驗庫,其性能都高于使用2000/4000/6000個病例的性能。

      不過,經(jīng)驗庫越大并不總是越好,因為研究者還發(fā)現(xiàn)在2,000-4,000個案例之間有明顯的下降。

      局限性

      最后,研究人員還提到了這項研究的局限性。

      - 只采用GPT-3.5作為Agent Hospital和評估的模擬器

      - 由于智能體之間的交互及其演化涉及API調(diào)用,AI醫(yī)院的運作效率受到LLM生成的限制

      - 每個患者的健康記錄和檢查結(jié)果,是在沒有領(lǐng)域知識的情況下,模擬真實的電子健康記錄生成的,但仍與現(xiàn)實世界的記錄仍存在一些差異。

      在未來,研究者們對Agent Hospital的計劃將會包括:

      第一,擴(kuò)大規(guī)模覆蓋的疾病范圍,延伸到更多的醫(yī)療科室,旨在反映真實醫(yī)院提供的全面服務(wù),以供進(jìn)一步研究。

      第二,在加強(qiáng)智能體社會模擬方面,比如納入醫(yī)療專業(yè)人員的全面晉升制度、隨時間改變疾病的分布、納入病人的歷史病歷等。

      第三,優(yōu)化基礎(chǔ)LLM的選擇和實施,旨在通過利用功能強(qiáng)大的開源模型,更高效地執(zhí)行整個模擬過程。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應(yīng)用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。