穿越重重迷霧,OpenAI模型參數(shù)終被揭開!一份來自微軟華盛頓大學醫(yī)療論文,意外曝光了GPT-4、GPT-4o、o1系列模型參數(shù)。讓所有人震驚不已的是,GPT-4o mini僅8B。
誰能想到,微軟在一篇醫(yī)學領域的論文里,竟然把OpenAI模型的參數(shù)全「曝光」了!
GPT-4參數(shù)約1.76萬億
GPT-4o參數(shù)約2000億
GPT-4o mini參數(shù)約80億
o1-preview參數(shù)約3000億
o1-mini參數(shù)約1000億
Claude 3.5 Sonnet參數(shù)約1750億
研究人員:參數(shù)均為估算值
讓所有人難以置信的是,GPT-4o系列的參數(shù)如此少,mini版甚至只有8B。
有網友猜測,4o mini是一個大約有40B參數(shù)的MoE模型,其中激活參數(shù)為8B。
因為,他發(fā)現(xiàn)4o mini明顯比8B模型學到了更多的知識,同時間運行速度很快。
此外,由于GPT-4o是MoE架構,所以OpenAI可能在mini版本上使用了相同的架構。
另有網友驚訝地表示,Claude 3.5 Sonnet參數(shù)竟等同于GPT-3 davinci。
這篇來自微軟、華盛頓大學團隊的論文中,發(fā)布了一個具有里程碑意義的評估基準——MEDEC1,專為臨床筆記醫(yī)療錯誤檢測和糾正而設計。
這項基準涵蓋了五種類型的錯誤,包括診斷、管理、治療、藥物治療和致病因子。
MEDEC的數(shù)據(jù)來源,收集了來自3家美國醫(yī)院系統(tǒng)的488篇臨床筆記,總計3,848篇臨床文本。
值得一提的是,這些數(shù)據(jù)此前從未被任何LLM接觸過,能夠確保評估真實性可靠性。目前,該數(shù)據(jù)集已被用于MEDIQA-CORR共享任務,以評估17個參與系統(tǒng)的表現(xiàn)。
得到數(shù)據(jù)集MEDEC后,研究團隊對當前最先進的模型,包括o1-preview、GPT-4、Claude 3.5 Sonnet、Gemini 2.0 Flash等,在醫(yī)療錯誤檢測和糾正任務中進行了全面測試。
同時,他們也邀請了兩位專業(yè)醫(yī)生進行相同的錯誤檢測任務,最終將AI與人類醫(yī)生結果進行PK。
結果發(fā)現(xiàn),最新LLM在醫(yī)療錯誤檢測和糾正方面表現(xiàn)不俗,但與人類醫(yī)生相比,AI還是有著明顯的差距。
這也從側面印證了,MEDEC是一個具有充分挑戰(zhàn)性的評估基準。
論文講了什么?
來自美國醫(yī)療機構的一項調查研究顯示,每5位閱讀臨床筆記的患者中,就有一位報告發(fā)現(xiàn)了錯誤。
其中40%的患者認為這些錯誤是嚴重的,最常見的錯誤類別與當前或過去的診斷相關。
與此同時,如今越來越多的醫(yī)學文檔任務(比如,臨床筆記生成)均是由LLM去完成。
然而,將LLM用于醫(yī)學文檔任務的主要挑戰(zhàn)之一,容易產生「幻覺」,輸出一些虛構內容或錯誤信息,直接影響了臨床決策。
畢竟,醫(yī)療無小事,一字之差可能關乎生死。
為了降低這些風險,并確保LLM在醫(yī)學內容生成中的安全性,嚴格的驗證方法至關重要。這種驗證需要相關的基準來評估是否可以通過驗證模型實現(xiàn)完全自動化。
在驗證過程中,一個關鍵任務是,檢測和糾正臨床文本中的醫(yī)學錯誤。
站在人類醫(yī)生的角度來考慮,識別和糾正這些錯誤不僅需要醫(yī)學專業(yè)知識和領域背景,有時還需要具備豐富的經驗。
而此前,大多數(shù)關于(常識性)錯誤檢測的研究都集中在通用領域。
為此,微軟華盛頓大學團隊引入了全新數(shù)據(jù)集——MEDEC,并對不同的領先的LLM(比如,Claude 3.5 Sonnet、o1-preview和Gemini 2.0 Flash)進行了實驗。
作者稱,「據(jù)我們所知,這是首個公開可用的臨床筆記中自動錯誤檢測和糾正的基準和研究」。
MEDEC數(shù)據(jù)集
MEDEC數(shù)據(jù)集一共包含了3,848篇來自不同醫(yī)學專業(yè)領域的臨床文本的新數(shù)據(jù)集,標注任務由8位醫(yī)學標注員完成。
如前所述,該數(shù)據(jù)集涵蓋了五種類型的錯誤,具體包括:
診斷(Diagnosis):提供的診斷不準確
管理(Management):提供的管理下一步措施不準確
藥物治療(Pharmacotherapy):推薦的藥物治療不準確
治療(Treatment):推薦的治療方案不準確
致病因子(Causal Organism):指出的致病生物或致病病原體不準確
(注:這些錯誤類型是在分析醫(yī)學委員會考試中最常見的問題類型后選定的。)
上圖1展示了,MEDEC數(shù)據(jù)集中的示例。每篇臨床文本要么是正確的,要么包含一個通過以下兩種方法之一創(chuàng)建的錯誤:方法#1(MS)和方法#2(UW)。
數(shù)據(jù)創(chuàng)建方法#1(MS)
在此方法中,作者利用了MedQA集合中的醫(yī)學委員會考試題目。
4位具有醫(yī)學背景的標注員參考這些考試中的醫(yī)學敘述和多項選擇題,在核對原始問題和答案后,將錯誤答案注入場景文本中,并排除包含錯誤或信息模糊的問答對。
醫(yī)學標注員遵循以下準則:
使用醫(yī)學敘述多項選擇題,將錯誤答案注入場景文本中,并創(chuàng)建兩個版本,分別將錯誤注入文本的中間或末尾。
使用醫(yī)學敘述多項選擇題,將正確答案注入場景文本中,以生成正確版本,如圖2所示(包含正確答案的生成文本)。
手動檢查自動生成的文本是否忠實于原始場景及其包含的答案。
最終,研究人員從兩個不同的場景(錯誤注入文本中間或末尾)中,隨機為每篇筆記選擇一個正確版本和一個錯誤版本,構建了最終數(shù)據(jù)集。
數(shù)據(jù)創(chuàng)建方法#2(UW)
這里,作者使用了華盛頓大學(UW)三家醫(yī)院系統(tǒng)(Harborview Medical Center、UW Medical Center 和 Seattle Cancer Care Alliance)從2009年-2021年間的真實臨床筆記數(shù)據(jù)庫。
研究人員從中17,453條診斷支持記錄中,隨機選取了488條,這些記錄總結了患者的病情并提供了治療依據(jù)。
4名醫(yī)學生組成的團隊手動向其中244條記錄中引入了錯誤。
在初始階段,每條記錄都標注了若干候選實體,這些實體由QuickUMLS 4識別為統(tǒng)一醫(yī)學語言系統(tǒng)(UMLS)的概念。
標注員可以從這些候選實體中選擇一個簡潔的醫(yī)學實體,或者創(chuàng)建一個新的文本片段(span)。隨后,該片段被標記為五種錯誤類型之一。
接著,標注員用類似但不同的概念替換該片段,錯誤版本由標注員自行設計或通過基于SNOMED和LLM的方法生成。這種方法向標注員建議替代概念,但不依賴輸入文本。醫(yī)學標注員手動確定最終注入文本中的概念或錯誤。
在此過程中,每個錯誤片段必須與臨床筆記中的至少兩個其他部分相矛盾,同時標注員需為每個引入的錯誤提供合理的解釋。
作者使用了Philter5工具對注入錯誤后的臨床筆記進行自動去標識化處理。
隨后,每條筆記由2名標注員獨立審查以確保去標識化的準確性。對于任何分歧,由第3名標注員進行裁定。
下表1展示了訓練集、驗證集和測試集的劃分情況。其中,MS訓練集包含2,189篇臨床文本,MS驗證集包含574篇臨床文本,UW驗證集包含160篇臨床文本。
MEDEC測試集由MS集合的597篇臨床文本和UW數(shù)據(jù)集的328篇臨床文本組成。測試集中,51.3%的筆記包含錯誤,而48.7%的筆記是正確的。
下圖3展示了數(shù)據(jù)集中錯誤類型的分布情況(診斷、管理、治療、藥物治療和致病因子)。
醫(yī)療錯誤檢測與糾正方法
為了評估模型在醫(yī)療錯誤檢測與糾正任務中的表現(xiàn),作者將該過程劃分為三個子任務:
子任務 A:預測錯誤標志(0:如果文本沒有錯誤;1:如果文本包含錯誤)
子任務 B:提取包含錯誤的句子,用于已標記錯誤的文本(-1:如果文本沒有錯誤;句子ID:如果文本包含錯誤)
子任務 C:為包含錯誤的標記文本生成修正后的句子(NA:如果文本沒有錯誤;生成的句子/修正內容:如果文本有錯誤)
為了進行比較,他們基于LLM構建了解決方案,使用了兩種不同的提示詞來生成所需的輸出,以評估模型在這三個子任務中的表現(xiàn):
提示詞#1:
以下是關于一名患者的醫(yī)療敘述。你是一名熟練的醫(yī)生,正在審閱這些臨床文本。文本要么是正確的,要么包含一個錯誤。文本中每行是一句話。每行以句子ID開頭,后跟一個豎線符號,然后是需要檢查的句子。檢查文本中的每一句話。如果文本正確,則返回以下輸出:CORRECT。如果文本中存在與治療、管理、病因或診斷相關的醫(yī)療錯誤,則返回包含錯誤的句子ID,后跟一個空格,然后是修正后的句子。發(fā)現(xiàn)并糾正錯誤需要用到醫(yī)學知識與推理能力。
提示詞#2:與第一個提示詞類似,但包含一個從訓練集中隨機選取的輸入和輸出示例:
以下是一個示例。
0 一名35歲的女性向她的醫(yī)生訴說手部疼痛和僵硬。1 她說,疼痛始于6周前,在她克服了一次輕微的上呼吸道感染幾天后開始。(……) 9 雙手的雙側X線顯示左手第五掌指關節(jié)周圍輕微的關節(jié)周圍骨質減少。10 給予甲氨蝶呤。
在這個示例中,錯誤出現(xiàn)在句子編號10:「給予甲氨蝶呤」。修正為:「給予潑尼松」。輸出為:10 1 Prednisone is given。示例結束。
實驗與結果
語言模型
研究人員對幾種近期的語言模型進行了實驗:
Phi-3-7B:具有70億參數(shù)的小語言模型(SLM)。
Claude 3.5 Sonnet(2024-10-22):Claude 3.5系列的最新模型(≈1750億參數(shù)),在多個編碼、視覺和推理任務中展現(xiàn)出了SOTA的性能。
Gemini 2.0 Flash:最新/最先進的Gemini模型。其他谷歌模型(如專為醫(yī)療設計的Med-PaLM,5400億參數(shù))尚未公開。
ChatGPT(≈1750億參數(shù))和GPT-4(≈1.76萬億參數(shù)),是「高智能」模型。
GPT-4o(≈2000億參數(shù)),提供「GPT-4級別的智能但速度更快」,以及專注于特定任務的小模型GPT-4o-mini(gpt-4o-2024-05-13)(≈80億參數(shù))。
最新的o1-mini(o1-mini-2024-09-12)(≈1000億參數(shù))和o1-preview(o1-preview-2024-09-12)(≈3000億參數(shù)),具備「全新AI能力」,可處理復雜推理任務。
值得注意的是,大多數(shù)模型的參數(shù)量為估算值,主要用來幫助理解模型性能。少數(shù)模型(如Phi-3和Claude)需要進行少量自動后處理來修正格式問題。
結果
下表2展示了,由醫(yī)療醫(yī)生手動標注的結果以及使用上述兩個提示詞的多個最新LLM的結果。
在錯誤標志(error flag)檢測方面,Claude 3.5 Sonnet以70.16%的準確率優(yōu)于其他方法,在錯誤句子檢測中更是達到了65.62%的準確率。
o1-mini在錯誤標志檢測中,拿下了第二高的準確率69.08%。
在錯誤糾正方面,o1-preview以0.698的綜合評分(Aggregate Score)獲得了最佳表現(xiàn),遠超第二名GPT-4 [P#2] 的0.639。
下表3展示了,在每個數(shù)據(jù)集(MEDEC-MS和MEDEC-UW)上的錯誤檢測準確率和錯誤糾正評分。其中,MS子集對Claude 3.5 Sonnet和醫(yī)生#2來說更具挑戰(zhàn)性,而UW子集對o1-preview和醫(yī)生#1來說更具挑戰(zhàn)性。
結果表明,與醫(yī)生的評分相比,最新的LLM在錯誤檢測和糾正方面表現(xiàn)良好,但在這些任務中仍然不及人類醫(yī)生。
這可能是因為,此類錯誤檢測和糾正任務在網絡和醫(yī)學教科書中相對罕見,也就是,LLM在預訓練中遇到相關數(shù)據(jù)的可能性較低。
這一點可以從o1-preview的結果中看出,該模型在基于公開臨床文本構建的MS子集上的錯誤和句子檢測中分別取得了73%和69%的準確率,而在私有的UW集合上僅取得了58%和48%的準確率。
另一個因素是,任務需要分析和糾正現(xiàn)有的非LLM生成的文本,這可能比從0開始起草新答案的難度更高。
下表4展示的則是,每種錯誤類型(診斷、管理、治療、藥物治療和病因微生物)的錯誤檢測召回率和錯誤糾正評分。
可以看到,o1-preview在錯誤標志和句子檢測中,召回率顯著高于Claude 3.5 Sonnet和兩位醫(yī)生。但在結合準確率結果(見表2)之后發(fā)現(xiàn),醫(yī)生在準確率上表現(xiàn)更佳。
這些結果表明,模型在精確度方面存在顯著問題,并且與醫(yī)生相比,AI在在許多情況下都過度預測了錯誤的存在(即產生了幻覺)。
另外,結果還顯示,分類性能與錯誤糾正生成性能之間存在排名差異。
例如,在所有模型中,Claude 3.5 Sonnet在錯誤標志和句子檢測的準確率上排名第一,但在糾正生成評分中排名最后(見表 2)。
此外,o1-preview在所有LLM中的錯誤檢測準確率排名第四,但在糾正生成中排名第一且遙遙領先。同樣的模式也可以在兩位醫(yī)療醫(yī)生之間觀察到。
上述現(xiàn)象,可以通過糾正生成任務的難度來解釋,同時也可能反映了當前SOTA的文本生成評估指標在捕捉醫(yī)學文本中的同義詞和相似性方面的局限性。
表5展示了參考文本、醫(yī)生標注以及由Claude 3.5 Sonnet和GPT模型自動生成的糾正示例。
例如,第二個示例的參考糾正表明患者被診斷為Bruton無丙種球蛋白血癥,而LLM提供的正確答案提到了X-連鎖無丙種球蛋白血癥(該罕見遺傳疾病的同義詞)。
此外,一些LLM(如Claude)提供了更長的答案/糾正,并附上了更多解釋。類似的現(xiàn)象也出現(xiàn)在醫(yī)生的標注中,其中醫(yī)生#1提供的修正比醫(yī)生#2更長,而兩位醫(yī)生在某些示例/案例中存在不同意見,這反映了由不同醫(yī)生/專家撰寫的臨床筆記在風格和內容上的差異。
關于醫(yī)療錯誤檢測和糾正的相關研究下一步,還需要在提示詞中引入更多示例并進行示例優(yōu)化。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。