大語言模型(LLM)固有的復(fù)雜性使得控制或引導(dǎo)其輸出成為一個相當(dāng)大的技術(shù)挑戰(zhàn)。2023年12月,美國安全與新興技術(shù)中心(CSET)發(fā)布報告《控制大語言模型的輸出:初級指南》(Controlling Large Language Model Outputs:A Primer),介紹了LLM潛在的有害輸出以及目前開發(fā)者用于控制LLM輸出的主要技術(shù)?梢钥闯觯琇LM可控性目前尚無完美解。在實踐中,LLM輸出控制的各種技術(shù)需要相互結(jié)合使用,才能最大限度地發(fā)揮其作用。
為什么要控制大語言模型的輸出?
語言模型本質(zhì)上是復(fù)雜的概率計算機器。它們建立語言token(單詞、短語、單詞的組成部分,甚至標(biāo)點符號和語法符號)之間的關(guān)系,并計算每個token在響應(yīng)給定提示詞時的出現(xiàn)概率。模型反復(fù)選擇最有可能出現(xiàn)的token,直到輸出完成。這意味著語言模型對事實性或真實性并無基本理解,也并非從任何單一來源檢索信息。它們更像是“即興創(chuàng)作機器”:擅長復(fù)制模式,但沒有內(nèi)置方法來驗證其輸出是否有用、正確或有害。
以下三類潛在的有害輸出,是LLM輸出控制的主要原因:
1. 不準(zhǔn)確信息(incorrect information)
一些普通用戶不了解模型的局限性并且不恰當(dāng)?shù)匾茫J為它們提供了事實信息(AI研究人員稱之為“過度依賴”)。例如,依賴模型獲取健康信息的用戶如果得到錯誤建議,可能會將自己置于危險之中;依賴模型獲取政治信息的用戶如果收到錯誤信息,可能會毫無理由地對候選人失去信任。隨著人們越來越頻繁地使用LLM,與過度依賴相關(guān)的風(fēng)險可能會越來越大。
2.偏見或有毒輸出(biased or toxic outputs)
并非明顯虛假的內(nèi)容才會造成傷害。當(dāng)LLM產(chǎn)生有偏見(例如關(guān)于種族、性別、宗教或其他類別)或有害的文本時,就會引發(fā)一系列問題。有研究已經(jīng)測試并發(fā)現(xiàn)了與政治意識形態(tài)、宗教、性別等有關(guān)的偏見證據(jù)。另一項研究將LLM中的偏見追溯到訓(xùn)練數(shù)據(jù),并指出基于某些關(guān)鍵詞從訓(xùn)練數(shù)據(jù)中排除的內(nèi)容會不成比例地刪除關(guān)于各種少數(shù)群體成員的文本。
3.惡意使用(outputs resulting from malicious use)
不良行為者有可能故意使用LLM進行“惡意使用”。最壞情況之一是不良行為者利用LLM學(xué)習(xí)如何制造炸彈或生物武器,不同類型的惡意行為還包括使用LLM來促進黑客攻擊、詐騙或生成虛假信息文章等等。
控制大語言模型的輸出的四種技術(shù)
LLM的開發(fā)分為預(yù)訓(xùn)練、微調(diào)、部署三個階段,相關(guān)的語言模型控制技術(shù)可運用于不同階段以引導(dǎo)其輸出。
1. 編輯預(yù)訓(xùn)練數(shù)據(jù)(Editing Pre-training Data)
語言模型的預(yù)測能力來自于其訓(xùn)練文本中的相關(guān)性,因此對LLM的一個常見誤解是通過操縱或編輯其訓(xùn)練數(shù)據(jù),可以輕易地引導(dǎo)其輸出。然而,現(xiàn)實世界中的預(yù)訓(xùn)練要復(fù)雜得多。考慮到這些模型的預(yù)訓(xùn)練數(shù)據(jù)量之大,要預(yù)測訓(xùn)練數(shù)據(jù)的變化將如何影響其性能或輸出某些類型內(nèi)容的傾向是極其困難的。
雖然訓(xùn)練數(shù)據(jù)操縱在理論上是控制模型行為的強大機制,但它并非預(yù)防許多類型有害輸出的靈丹妙藥,尤其是當(dāng)意義和危害依賴于上下文的時候。盡管內(nèi)容過濾器和數(shù)據(jù)源等因素最終會對完全訓(xùn)練模型的行為產(chǎn)生重大影響,但研究人員尚未完全理解應(yīng)該如何操縱數(shù)據(jù),才能在對模型產(chǎn)生有意義影響的同時,最大限度地減少性能損失。在經(jīng)過精心策劃的數(shù)據(jù)集上預(yù)先訓(xùn)練較小的、專業(yè)化的語言模型,可能更容易在數(shù)據(jù)過濾或增強方面取得成功,但LLM開發(fā)者可能還需要依靠其他方法來引導(dǎo)他們的模型。
2. 監(jiān)督式微調(diào)(Supervised Fine-Tuning)
模型經(jīng)過預(yù)訓(xùn)練后,開發(fā)者可以通過在專門的數(shù)據(jù)集上進一步訓(xùn)練來繼續(xù)調(diào)整其行為。這一過程被稱為監(jiān)督式微調(diào),是修改語言模型最常見方法之一,通常是為了提高模型在特定領(lǐng)域的性能。模型接觸到與特定主題相關(guān)的高質(zhì)量數(shù)據(jù)越多,就越能以對人類用戶有用的方式預(yù)測其輸出中的下一個token。
在合適的上下文中,如果有合適的數(shù)據(jù),監(jiān)督式微調(diào)會非常強大,并且是將模型針對特定領(lǐng)域或用例進行特定調(diào)整的最佳方法之一。(這里的“監(jiān)督”指的是模型被提供了標(biāo)注數(shù)據(jù),因此無需執(zhí)行對數(shù)據(jù)中的模式和關(guān)聯(lián)性進行學(xué)習(xí)的前提步驟。)然而,有效的監(jiān)督式微調(diào)取決于對專業(yè)和高質(zhì)量數(shù)據(jù)集的訪問,而這些數(shù)據(jù)集并非在所有領(lǐng)域都可獲得,或者無法準(zhǔn)確地捕捉研究人員試圖控制的行為。因此,研究人員希望開發(fā)出不依賴專業(yè)數(shù)據(jù),或者能夠以更靈活方式引導(dǎo)LLM行為的替代技術(shù)。
3. 人類反饋強化學(xué)習(xí)(RLHF)及符合“憲法”的AI(Reinforcement Learning with Human Feedback and Constitutional AI)
人類反饋強化學(xué)習(xí)(RLHF)是一種借助不同的機器學(xué)習(xí)模型(稱為“獎勵模型”)對LLM進行微調(diào)的技術(shù)。該模型在原始LLM的一些文本輸出上進行訓(xùn)練,人類標(biāo)注者根據(jù)一些準(zhǔn)則或偏好對這些文本輸出進行排序。前文所提監(jiān)督式微調(diào)通常用于創(chuàng)建專門的模型,不一定涉及基于任何“對”或“錯”的感覺來指導(dǎo)模型;與其不同,RLHF的核心原則是人類偏好應(yīng)在LLM的行為中發(fā)揮作用。“人類反饋”是RLHF的核心組成部分,也是其最大的局限性。只要RLHF需要人力,那么LLM創(chuàng)建者在其模型獲得多少人類反饋方面自然會面臨限制,因為這些措施的時間和成本都非常高。此外,設(shè)計不當(dāng)?shù)姆答佭^程可能會導(dǎo)致模型學(xué)會如何采取行動以最大限度地獲得積極反饋,但實際上卻可能無法轉(zhuǎn)化為符合人類用戶偏好的輸出類型。
符合“憲法”的AI(Constitutional AI,或譯“憲法”AI)是AI公司Anthropic開發(fā)的一種訓(xùn)練方法,旨在盡可能少地使用人類指導(dǎo)來引導(dǎo)LLM的行為。與RLHF不同,“憲法”AI不依靠人類標(biāo)簽或注釋來編碼人類偏好;相反地,研究人員提供了一系列指導(dǎo)規(guī)則或原則,因此被稱為“憲法”,實質(zhì)上通過另一個模型來評估并修訂其輸出。盡管“憲法”AI有望成為RLHF的替代品,其依靠人工生成的標(biāo)簽要少得多,但RLHF似乎仍然是在微調(diào)階段指導(dǎo)和引導(dǎo)LLM的行業(yè)標(biāo)準(zhǔn)。
4. 提示詞和輸出控制(Prompt and Output Controls)
即使經(jīng)過預(yù)訓(xùn)練和多輪微調(diào),LLM仍可能輸出非期望文本。在將模型整合到面向消費者的產(chǎn)品之前,開發(fā)者可以選擇在輸出前或輸出后階段使用其他技術(shù)來控制模型。這些技術(shù)通常也被稱為“輸入過濾器”(應(yīng)用于輸出前階段)和“輸出過濾器”(應(yīng)用于輸出后階段),通常分為三個步驟:檢測、標(biāo)記和編輯。
在LLM接收到用戶輸入之前,開發(fā)者可以對提示詞進行篩選,評估它們是否可能引發(fā)有害文本,并向用戶顯示警告或拒絕信息。這可以產(chǎn)生類似于模型本身拒絕回答某些類型提示詞的效果。
一旦LLM對提示詞做出了響應(yīng),但在向用戶顯示輸出之前,開發(fā)者可以進行額外的檢查和過濾。與監(jiān)督式微調(diào)一樣,這些技術(shù)依靠人類標(biāo)記的數(shù)據(jù)。微調(diào)階段之后的模型控制通常還與監(jiān)控或用戶舉報相結(jié)合,通常這涉及自動內(nèi)容檢測或過濾、人工內(nèi)容審核和用戶舉報的組合。最后,如果有害或非期望輸出通過了所有現(xiàn)有控制,許多LLM界面包含用戶反饋機制,使用戶可以直接標(biāo)記單個輸出。開發(fā)者難以捕捉到每一個可能導(dǎo)致有害輸出的提示詞或用例,因此需要依靠用戶對模型性能提供反饋。
思考與啟示
2023年8月起施行的《生成式人工智能服務(wù)管理暫行辦法》,除了禁止生成違法違規(guī)內(nèi)容,還要求在模型生成和優(yōu)化等過程中,采取有效措施防止產(chǎn)生民族、信仰、國別、地域、性別、年齡、職業(yè)、健康等歧視;并且要采取有效措施,提高生成內(nèi)容的準(zhǔn)確性和可靠性。這些都說明了輸出控制的重要性。
1. LLM可控性尚無完美解
可控性是LLM 的重點研究方向之一,但目前學(xué)術(shù)界并無完美解,正如CSET報告所言,“即使是最前沿的控制措施也不能保證LLM永遠不產(chǎn)生非期望輸出”。盡管開發(fā)者盡了最大努力,非期望輸出仍會時有發(fā)生。任何以特定方式控制模型的嘗試,都可能產(chǎn)生意想不到的后果。在實踐中,LLM輸出控制的各種技術(shù)需要相互結(jié)合使用,才能最大限度地發(fā)揮其作用。
2. 多方協(xié)同推動各環(huán)節(jié)逐步逼近
一是監(jiān)管部門和產(chǎn)業(yè)界多方協(xié)同,遵循包容審慎原則,共同建立可信可控的大模型監(jiān)管體系。二是從內(nèi)容和邏輯的準(zhǔn)確性、價值觀的一致性、決策過程的透明度和可解釋性、輸出內(nèi)容的安全合規(guī)性等多個維度提升LLM輸出結(jié)果的可控性。三是構(gòu)建評測標(biāo)準(zhǔn)生態(tài),推動建立LLM評測體系,以科學(xué)有效的評測工具和評測方法,高效評估LLM的生成內(nèi)容質(zhì)量。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風(fēng)險自擔(dān)。
2024年的Adobe MAX 2024發(fā)布會上,Adobe推出了最新版本的Adobe Creative Cloud。
奧維云網(wǎng)(AVC)推總數(shù)據(jù)顯示,2024年1-9月明火炊具線上零售額94.2億元,同比增加3.1%,其中抖音渠道表現(xiàn)優(yōu)異,同比有14%的漲幅,傳統(tǒng)電商略有下滑,同比降低2.3%。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
華碩ProArt創(chuàng)藝27 Pro PA279CRV顯示器,憑借其優(yōu)秀的性能配置和精準(zhǔn)的色彩呈現(xiàn)能力,為您的創(chuàng)作工作帶來實質(zhì)性的幫助,雙十一期間低至2799元,性價比很高,簡直是創(chuàng)作者們的首選。
9月14日,2024全球工業(yè)互聯(lián)網(wǎng)大會——工業(yè)互聯(lián)網(wǎng)標(biāo)識解析專題論壇在沈陽成功舉辦。