OpenAI公布大模型新訓(xùn)練方法：阻止ChatGPT“一本正經(jīng)地胡說八道”

2023年06月01日 14:39:36 鄭卓來源：新浪科技

　　北京時間6月1日早間消息，據(jù)報道，當(dāng)?shù)貢r間周三，OpenAI公司通過論文介紹了一種全新的方法，來訓(xùn)練生成式人工智能語言模型。

　　OpenAI這一研究成果來得很是時候，最近，隨著生成式人工智能技術(shù)流行，以及美國2024年總統(tǒng)大選初步啟動，人工智能“胡說八道”的問題引發(fā)了史無前例的關(guān)注和討論。

　　去年，OpenAI公司推出了人工智能對話撰稿工具ChatGPT，背后依托于GPT3和GPT4語言模型。ChatGPT的優(yōu)秀表現(xiàn)在全世界掀起了生成式人工智能的一股風(fēng)暴，兩個月之內(nèi)，相關(guān)服務(wù)的月度活躍用戶超過了一億人，用戶增長速度創(chuàng)造了新的世界紀(jì)錄。

　　OpenAI背后的大股東之一是微軟，微軟已經(jīng)累計對該公司投資130億美元。目前，OpenAI的市值大約為290億美元。

　　人工智能“胡說八道”，術(shù)語上也被稱為“AI幻覺”。面對用戶的提問，ChatGPT以及谷歌的Bard等工具會杜撰出一些虛假信息，看上去像是權(quán)威正確的答案。

　　比如，今年2月谷歌針對Bard工具推出了一個演示視頻，視頻中Bard有關(guān)美國韋伯太空望遠(yuǎn)鏡的描述就存在錯誤。此外，美國紐約的幾位律師最近使用ChatGPT撰寫法律文件，ChatGPT描述了完全虛構(gòu)的案例，這些律師將面臨處罰。

　　OpenAI公司的研究人員表示，即使是最先進(jìn)的人工智能模型也會杜撰虛假信息，尤其是在拿不準(zhǔn)的時候，它們往往傾向于編造事實。

　　研究人員表示，在要求多步驟推理的領(lǐng)域，人工智能胡編的后果尤為嚴(yán)重，因為一個單一的邏輯錯誤會導(dǎo)致整個解決方案“翻車”。

　　OpenAI準(zhǔn)備采用新戰(zhàn)略，防止人工智能胡編。比如在過去，一旦提供一個正確的最終答案，模型會獲得某種鼓勵，但是以后，在每一個單一的邏輯推理環(huán)節(jié)如果表現(xiàn)正確，就將獲得鼓勵反饋。這種模式也被稱之為“過程監(jiān)督”(以往的模式術(shù)語“結(jié)果監(jiān)督”)。

　　研究人員表示，“過程監(jiān)督”模式有助于產(chǎn)生更加清晰合理的回答，它將會鼓勵生成式人工智能能夠像人類一樣，在推理思考中做到“環(huán)環(huán)相扣”。

　　OpenAI公司“隨機生成數(shù)學(xué)”研究專家卡爾·柯比(Karl Cobbe)表示，發(fā)現(xiàn)并且減少人工智能模型的邏輯錯誤，也就是“AI幻覺”，是構(gòu)建“通用人工智能”的關(guān)鍵一步。另外，“過程監(jiān)督”模式并非OpenAI公司發(fā)明，但是該公司正在加以推廣普及。

　　柯比表示，新方法的目的，是解決人工智能胡編問題，從而讓語言模型能夠解決更加復(fù)雜的推理難題。

　　這位專家介紹，OpenAI已經(jīng)發(fā)布了一個研究使用的數(shù)據(jù)集，包括80萬條人工標(biāo)簽，可用上述新模式訓(xùn)練語言模型。

　　不過，美國電子隱私信息中心的資深律師本·魏特斯(Ben Winters)對這種新的訓(xùn)練模式表示質(zhì)疑，他希望親自查看OpenAI的完整數(shù)據(jù)集，以及相關(guān)的例子。

　　魏特斯表示，目前生成式人工智能還處于野蠻生長時代，OpenAI的新模式還無法實質(zhì)性緩解AI胡編亂造錯誤答案的問題。

　　這位律師表示，最重要的是，OpenAI是否會將一些研究論文成果部署到實際產(chǎn)品中，如果沒有這樣的計劃，這將會引發(fā)社會質(zhì)疑，即他們到底要向公眾發(fā)布怎樣的最終產(chǎn)品。

　　美國布朗大學(xué)的學(xué)者維克塔(Suresh Venkatasubramanian)表示，目前還不清楚OpenAI的研究論文是否經(jīng)過了同行評議，他認(rèn)為這一研究還僅僅停留在“初步觀察”階段。

　　維克塔表示，在做出某種確定性結(jié)論之前，研究論文還需要在學(xué)術(shù)圈子內(nèi)進(jìn)行更多傳播。他認(rèn)為，如今，人工智能領(lǐng)域每天都會有很多研究成果，但是“大型語言模型”在工作時存在不穩(wěn)定性，因此在某種條件、背景或者模式下的運行結(jié)果，可能無法應(yīng)用于另外一種條件、背景或模式。

　　維克塔認(rèn)為，在人工智能胡編的問題中，包括了語言模型胡編一些他人引言或者參考信息。OpenAI的新論文并沒有證據(jù)能解決這一問題。

　　OpenAI專家柯比表示，未來將會在學(xué)術(shù)會議上把論文交給其他人，進(jìn)行同行評議。對于何時將會把研究成果和“過程監(jiān)督”整合到ChatGPT等最終產(chǎn)品中，OpenAI尚未發(fā)表官方評論。

　　美國人工智能研究專家薩拉·邁爾斯·韋斯特(Sarah Myers West)表示，人工智能公司開始解決虛假答案問題，這是一個好消息，但OpenAI目前的論文還停留在“公司內(nèi)部研究”的階段，還需要攻克更多難關(guān)。

　　韋斯特表示,在論文中，OpenAI發(fā)布一個“人類級反饋”的小規(guī)模數(shù)據(jù)集，但是并沒有訓(xùn)練GPT4模型所用數(shù)據(jù)的更多介紹。雖然生成式人工智能已經(jīng)開始改變普通人的工作生活，但是距離“負(fù)責(zé)任的人工智能應(yīng)用”，還存在相當(dāng)多的技術(shù)挑戰(zhàn)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信