大語言模型的輸出控制

2024年03月11日 15:02:29 宋杰來源：天翼智庫

　　大語言模型(LLM)固有的復(fù)雜性使得控制或引導(dǎo)其輸出成為一個相當(dāng)大的技術(shù)挑戰(zhàn)。2023年12月，美國安全與新興技術(shù)中心(CSET)發(fā)布報告《控制大語言模型的輸出：初級指南》(Controlling Large Language Model Outputs：A Primer)，介紹了LLM潛在的有害輸出以及目前開發(fā)者用于控制LLM輸出的主要技術(shù)�？梢钥闯觯琇LM可控性目前尚無完美解。在實踐中，LLM輸出控制的各種技術(shù)需要相互結(jié)合使用，才能最大限度地發(fā)揮其作用。

　　為什么要控制大語言模型的輸出？

　　語言模型本質(zhì)上是復(fù)雜的概率計算機器。它們建立語言token(單詞、短語、單詞的組成部分，甚至標(biāo)點符號和語法符號)之間的關(guān)系，并計算每個token在響應(yīng)給定提示詞時的出現(xiàn)概率。模型反復(fù)選擇最有可能出現(xiàn)的token，直到輸出完成。這意味著語言模型對事實性或真實性并無基本理解，也并非從任何單一來源檢索信息。它們更像是“即興創(chuàng)作機器”：擅長復(fù)制模式，但沒有內(nèi)置方法來驗證其輸出是否有用、正確或有害。

　　以下三類潛在的有害輸出，是LLM輸出控制的主要原因：

　　1. 不準(zhǔn)確信息（incorrect information）

　　一些普通用戶不了解模型的局限性并且不恰當(dāng)?shù)匾茫J為它們提供了事實信息(AI研究人員稱之為“過度依賴”)。例如，依賴模型獲取健康信息的用戶如果得到錯誤建議，可能會將自己置于危險之中;依賴模型獲取政治信息的用戶如果收到錯誤信息，可能會毫無理由地對候選人失去信任。隨著人們越來越頻繁地使用LLM，與過度依賴相關(guān)的風(fēng)險可能會越來越大。

　　2.偏見或有毒輸出（biased or toxic outputs）

　　并非明顯虛假的內(nèi)容才會造成傷害。當(dāng)LLM產(chǎn)生有偏見(例如關(guān)于種族、性別、宗教或其他類別)或有害的文本時，就會引發(fā)一系列問題。有研究已經(jīng)測試并發(fā)現(xiàn)了與政治意識形態(tài)、宗教、性別等有關(guān)的偏見證據(jù)。另一項研究將LLM中的偏見追溯到訓(xùn)練數(shù)據(jù)，并指出基于某些關(guān)鍵詞從訓(xùn)練數(shù)據(jù)中排除的內(nèi)容會不成比例地刪除關(guān)于各種少數(shù)群體成員的文本。

　　3.惡意使用（outputs resulting from malicious use）

　　不良行為者有可能故意使用LLM進行“惡意使用”。最壞情況之一是不良行為者利用LLM學(xué)習(xí)如何制造炸彈或生物武器，不同類型的惡意行為還包括使用LLM來促進黑客攻擊、詐騙或生成虛假信息文章等等。

　　控制大語言模型的輸出的四種技術(shù)

　　LLM的開發(fā)分為預(yù)訓(xùn)練、微調(diào)、部署三個階段，相關(guān)的語言模型控制技術(shù)可運用于不同階段以引導(dǎo)其輸出。

　　1. 編輯預(yù)訓(xùn)練數(shù)據(jù)（Editing Pre-training Data）

　　語言模型的預(yù)測能力來自于其訓(xùn)練文本中的相關(guān)性，因此對LLM的一個常見誤解是通過操縱或編輯其訓(xùn)練數(shù)據(jù)，可以輕易地引導(dǎo)其輸出。然而，現(xiàn)實世界中的預(yù)訓(xùn)練要復(fù)雜得多。考慮到這些模型的預(yù)訓(xùn)練數(shù)據(jù)量之大，要預(yù)測訓(xùn)練數(shù)據(jù)的變化將如何影響其性能或輸出某些類型內(nèi)容的傾向是極其困難的。

　　雖然訓(xùn)練數(shù)據(jù)操縱在理論上是控制模型行為的強大機制，但它并非預(yù)防許多類型有害輸出的靈丹妙藥，尤其是當(dāng)意義和危害依賴于上下文的時候。盡管內(nèi)容過濾器和數(shù)據(jù)源等因素最終會對完全訓(xùn)練模型的行為產(chǎn)生重大影響，但研究人員尚未完全理解應(yīng)該如何操縱數(shù)據(jù)，才能在對模型產(chǎn)生有意義影響的同時，最大限度地減少性能損失。在經(jīng)過精心策劃的數(shù)據(jù)集上預(yù)先訓(xùn)練較小的、專業(yè)化的語言模型，可能更容易在數(shù)據(jù)過濾或增強方面取得成功，但LLM開發(fā)者可能還需要依靠其他方法來引導(dǎo)他們的模型。

　　2. 監(jiān)督式微調(diào)（Supervised Fine-Tuning）

　　模型經(jīng)過預(yù)訓(xùn)練后，開發(fā)者可以通過在專門的數(shù)據(jù)集上進一步訓(xùn)練來繼續(xù)調(diào)整其行為。這一過程被稱為監(jiān)督式微調(diào)，是修改語言模型最常見方法之一，通常是為了提高模型在特定領(lǐng)域的性能。模型接觸到與特定主題相關(guān)的高質(zhì)量數(shù)據(jù)越多，就越能以對人類用戶有用的方式預(yù)測其輸出中的下一個token。

　　在合適的上下文中，如果有合適的數(shù)據(jù)，監(jiān)督式微調(diào)會非常強大，并且是將模型針對特定領(lǐng)域或用例進行特定調(diào)整的最佳方法之一。(這里的“監(jiān)督”指的是模型被提供了標(biāo)注數(shù)據(jù)，因此無需執(zhí)行對數(shù)據(jù)中的模式和關(guān)聯(lián)性進行學(xué)習(xí)的前提步驟。)然而，有效的監(jiān)督式微調(diào)取決于對專業(yè)和高質(zhì)量數(shù)據(jù)集的訪問，而這些數(shù)據(jù)集并非在所有領(lǐng)域都可獲得，或者無法準(zhǔn)確地捕捉研究人員試圖控制的行為。因此，研究人員希望開發(fā)出不依賴專業(yè)數(shù)據(jù)，或者能夠以更靈活方式引導(dǎo)LLM行為的替代技術(shù)。

　　3. 人類反饋強化學(xué)習(xí)（RLHF）及符合“憲法”的AI（Reinforcement Learning with Human Feedback and Constitutional AI）

　　人類反饋強化學(xué)習(xí)(RLHF)是一種借助不同的機器學(xué)習(xí)模型(稱為“獎勵模型”)對LLM進行微調(diào)的技術(shù)。該模型在原始LLM的一些文本輸出上進行訓(xùn)練，人類標(biāo)注者根據(jù)一些準(zhǔn)則或偏好對這些文本輸出進行排序。前文所提監(jiān)督式微調(diào)通常用于創(chuàng)建專門的模型，不一定涉及基于任何“對”或“錯”的感覺來指導(dǎo)模型;與其不同，RLHF的核心原則是人類偏好應(yīng)在LLM的行為中發(fā)揮作用。“人類反饋”是RLHF的核心組成部分，也是其最大的局限性。只要RLHF需要人力，那么LLM創(chuàng)建者在其模型獲得多少人類反饋方面自然會面臨限制，因為這些措施的時間和成本都非常高。此外，設(shè)計不當(dāng)?shù)姆答佭^程可能會導(dǎo)致模型學(xué)會如何采取行動以最大限度地獲得積極反饋，但實際上卻可能無法轉(zhuǎn)化為符合人類用戶偏好的輸出類型。

　　符合“憲法”的AI(Constitutional AI，或譯“憲法”AI)是AI公司Anthropic開發(fā)的一種訓(xùn)練方法，旨在盡可能少地使用人類指導(dǎo)來引導(dǎo)LLM的行為。與RLHF不同，“憲法”AI不依靠人類標(biāo)簽或注釋來編碼人類偏好;相反地，研究人員提供了一系列指導(dǎo)規(guī)則或原則，因此被稱為“憲法”，實質(zhì)上通過另一個模型來評估并修訂其輸出。盡管“憲法”AI有望成為RLHF的替代品，其依靠人工生成的標(biāo)簽要少得多，但RLHF似乎仍然是在微調(diào)階段指導(dǎo)和引導(dǎo)LLM的行業(yè)標(biāo)準(zhǔn)。

　　4. 提示詞和輸出控制（Prompt and Output Controls）

　　即使經(jīng)過預(yù)訓(xùn)練和多輪微調(diào)，LLM仍可能輸出非期望文本。在將模型整合到面向消費者的產(chǎn)品之前，開發(fā)者可以選擇在輸出前或輸出后階段使用其他技術(shù)來控制模型。這些技術(shù)通常也被稱為“輸入過濾器”(應(yīng)用于輸出前階段)和“輸出過濾器”(應(yīng)用于輸出后階段)，通常分為三個步驟：檢測、標(biāo)記和編輯。

　　在LLM接收到用戶輸入之前，開發(fā)者可以對提示詞進行篩選，評估它們是否可能引發(fā)有害文本，并向用戶顯示警告或拒絕信息。這可以產(chǎn)生類似于模型本身拒絕回答某些類型提示詞的效果。

　　一旦LLM對提示詞做出了響應(yīng)，但在向用戶顯示輸出之前，開發(fā)者可以進行額外的檢查和過濾。與監(jiān)督式微調(diào)一樣，這些技術(shù)依靠人類標(biāo)記的數(shù)據(jù)。微調(diào)階段之后的模型控制通常還與監(jiān)控或用戶舉報相結(jié)合，通常這涉及自動內(nèi)容檢測或過濾、人工內(nèi)容審核和用戶舉報的組合。最后，如果有害或非期望輸出通過了所有現(xiàn)有控制，許多LLM界面包含用戶反饋機制，使用戶可以直接標(biāo)記單個輸出。開發(fā)者難以捕捉到每一個可能導(dǎo)致有害輸出的提示詞或用例，因此需要依靠用戶對模型性能提供反饋。

　　思考與啟示

　　2023年8月起施行的《生成式人工智能服務(wù)管理暫行辦法》，除了禁止生成違法違規(guī)內(nèi)容，還要求在模型生成和優(yōu)化等過程中，采取有效措施防止產(chǎn)生民族、信仰、國別、地域、性別、年齡、職業(yè)、健康等歧視;并且要采取有效措施，提高生成內(nèi)容的準(zhǔn)確性和可靠性。這些都說明了輸出控制的重要性。

　　1. LLM可控性尚無完美解

　　可控性是LLM 的重點研究方向之一，但目前學(xué)術(shù)界并無完美解，正如CSET報告所言，“即使是最前沿的控制措施也不能保證LLM永遠不產(chǎn)生非期望輸出”。盡管開發(fā)者盡了最大努力，非期望輸出仍會時有發(fā)生。任何以特定方式控制模型的嘗試，都可能產(chǎn)生意想不到的后果。在實踐中，LLM輸出控制的各種技術(shù)需要相互結(jié)合使用，才能最大限度地發(fā)揮其作用。

　　2. 多方協(xié)同推動各環(huán)節(jié)逐步逼近

　　一是監(jiān)管部門和產(chǎn)業(yè)界多方協(xié)同，遵循包容審慎原則，共同建立可信可控的大模型監(jiān)管體系。二是從內(nèi)容和邏輯的準(zhǔn)確性、價值觀的一致性、決策過程的透明度和可解釋性、輸出內(nèi)容的安全合規(guī)性等多個維度提升LLM輸出結(jié)果的可控性。三是構(gòu)建評測標(biāo)準(zhǔn)生態(tài)，推動建立LLM評測體系，以科學(xué)有效的評測工具和評測方法，高效評估LLM的生成內(nèi)容質(zhì)量。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信