AI挑戰(zhàn)醫(yī)療專業(yè)考試:GPT-4在日本物理治療師考試中表現(xiàn)亮眼

2024年09月02日 11:19:50 來源：AIbase基地

　　最新發(fā)表在《Cureus》雜志上的一項同行評審研究顯示，OpenAI的GPT-4語言模型在未經(jīng)任何額外訓練的情況下，成功通過了日本國家物理治療考試。

　　研究人員向GPT-4輸入了1，000個問題，涵蓋記憶、理解、應用、分析和評估等方面。結(jié)果顯示，GPT-4總體上正確回答了73.4%的問題，通過了所有五個測試部分。然而，研究也揭示了AI在某些領(lǐng)域的局限性。

　　GPT-4在一般問題上表現(xiàn)出色，正確率達80.1%，但在實際問題上僅為46.6%。同樣，它在處理純文本問題(80.5%正確)方面遠優(yōu)于帶有圖片和表格的問題(35.4%正確)。這一發(fā)現(xiàn)與先前關(guān)于GPT-4視覺理解局限性的研究結(jié)果一致。

　　值得注意的是，問題難度和文本長度對GPT-4的性能影響不大。盡管該模型主要使用英語數(shù)據(jù)訓練，但在處理日語輸入時也表現(xiàn)良好。

　　研究人員指出，雖然這項研究展示了GPT-4在臨床康復和醫(yī)學教育方面的潛力，但仍需謹慎看待。他們強調(diào)，GPT-4并不能正確回答所有問題，未來還需要評估新版本以及該模型在書面和推理測試中的能力。

　　此外，研究人員提出，像GPT-4v這樣的多模態(tài)模型可能在視覺理解方面帶來進一步的改進。目前，谷歌的Med-PaLM2、Med-Gemini等專業(yè)醫(yī)療AI模型，以及Meta基于Llama3的醫(yī)療模型都在積極開發(fā)中，旨在在醫(yī)療任務(wù)中超越通用模型。

　　然而，專家們認為，醫(yī)療AI模型要廣泛應用于實踐可能還需要很長時間。當前模型的誤差空間在醫(yī)療環(huán)境中仍然過大，需要在推理能力上取得顯著進步，才能安全地將這些模型整合到日常醫(yī)療實踐中。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風險自擔。

[No. ]
分享到微信