2024 vivo開發(fā)者大會官宣:OriginOS 5/自研藍河系統(tǒng)2降臨真·AI程序員來了,阿里云「通義靈碼」全面進化,全流程開發(fā)僅用幾分鐘東方甄選烤腸全網(wǎng)銷量及銷售額領(lǐng)先鴻蒙PC要來了 界面很漂亮!余承東:目前華為PC將是最后一批搭載Windows上半年中國AR/VR出貨23.3萬臺,同比下滑了 29.1%IDC:2024 上半年中國 AR / VR 頭顯出貨 23.3 萬臺,同比下滑 29.1%英特爾AI加速器Gaudi3下周發(fā)布,挑戰(zhàn)NVIDIA統(tǒng)治地位!大屏技術(shù)邂逅千年色彩美學!海信激光電視成為電影《只此青綠》官方合作伙伴OpenAI將最新AI模型o1擴展到企業(yè)和教育領(lǐng)域三星新專利探索AR技術(shù)新應用:檢測屏幕指紋殘留,提高手機安全性猛瑪傳奇C1:直播圖傳技術(shù)的革新者JFrog推出首個運行時安全解決方案,實現(xiàn)從代碼到云的全面軟件完整性和可追溯性亞馬遜推出一大波生成式 AI 工具,購物體驗全面升級機器人公司1X推出世界模型Apple Intelligence測試版現(xiàn)已開放革命性AI對話系統(tǒng)Moshi問世:機器也能說人話了?阿里國際推出最新多模態(tài)大模型 Ovis,看菜品就能提供烹飪步驟華為發(fā)布智聯(lián)集成行業(yè)解決方案,助力客戶打造行業(yè)領(lǐng)先的目標網(wǎng)絡(luò)AI 3D生成天花板再拉升!清華團隊煉成3D Scaling Law正在逐步覆蓋!騰訊提醒勿為實況圖重裝微信:以免丟失微信聊天記錄
  • 首頁 > 云計算頻道 > 大模型

    大語言模型的輸出控制

    2024年03月11日 15:02:29   來源:天翼智庫

      大語言模型(LLM)固有的復雜性使得控制或引導其輸出成為一個相當大的技術(shù)挑戰(zhàn)。2023年12月,美國安全與新興技術(shù)中心(CSET)發(fā)布報告《控制大語言模型的輸出:初級指南》(Controlling Large Language Model Outputs:A Primer),介紹了LLM潛在的有害輸出以及目前開發(fā)者用于控制LLM輸出的主要技術(shù)。可以看出,LLM可控性目前尚無完美解。在實踐中,LLM輸出控制的各種技術(shù)需要相互結(jié)合使用,才能最大限度地發(fā)揮其作用。

      為什么要控制大語言模型的輸出?

      語言模型本質(zhì)上是復雜的概率計算機器。它們建立語言token(單詞、短語、單詞的組成部分,甚至標點符號和語法符號)之間的關(guān)系,并計算每個token在響應給定提示詞時的出現(xiàn)概率。模型反復選擇最有可能出現(xiàn)的token,直到輸出完成。這意味著語言模型對事實性或真實性并無基本理解,也并非從任何單一來源檢索信息。它們更像是“即興創(chuàng)作機器”:擅長復制模式,但沒有內(nèi)置方法來驗證其輸出是否有用、正確或有害。

      以下三類潛在的有害輸出,是LLM輸出控制的主要原因:

      1. 不準確信息(incorrect information)

      一些普通用戶不了解模型的局限性并且不恰當?shù)匾,認為它們提供了事實信息(AI研究人員稱之為“過度依賴”)。例如,依賴模型獲取健康信息的用戶如果得到錯誤建議,可能會將自己置于危險之中;依賴模型獲取政治信息的用戶如果收到錯誤信息,可能會毫無理由地對候選人失去信任。隨著人們越來越頻繁地使用LLM,與過度依賴相關(guān)的風險可能會越來越大。

      2.偏見或有毒輸出(biased or toxic outputs)

      并非明顯虛假的內(nèi)容才會造成傷害。當LLM產(chǎn)生有偏見(例如關(guān)于種族、性別、宗教或其他類別)或有害的文本時,就會引發(fā)一系列問題。有研究已經(jīng)測試并發(fā)現(xiàn)了與政治意識形態(tài)、宗教、性別等有關(guān)的偏見證據(jù)。另一項研究將LLM中的偏見追溯到訓練數(shù)據(jù),并指出基于某些關(guān)鍵詞從訓練數(shù)據(jù)中排除的內(nèi)容會不成比例地刪除關(guān)于各種少數(shù)群體成員的文本。

      3.惡意使用(outputs resulting from malicious use)

      不良行為者有可能故意使用LLM進行“惡意使用”。最壞情況之一是不良行為者利用LLM學習如何制造炸彈或生物武器,不同類型的惡意行為還包括使用LLM來促進黑客攻擊、詐騙或生成虛假信息文章等等。

      控制大語言模型的輸出的四種技術(shù)

      LLM的開發(fā)分為預訓練、微調(diào)、部署三個階段,相關(guān)的語言模型控制技術(shù)可運用于不同階段以引導其輸出。

      1. 編輯預訓練數(shù)據(jù)(Editing Pre-training Data)

      語言模型的預測能力來自于其訓練文本中的相關(guān)性,因此對LLM的一個常見誤解是通過操縱或編輯其訓練數(shù)據(jù),可以輕易地引導其輸出。然而,現(xiàn)實世界中的預訓練要復雜得多?紤]到這些模型的預訓練數(shù)據(jù)量之大,要預測訓練數(shù)據(jù)的變化將如何影響其性能或輸出某些類型內(nèi)容的傾向是極其困難的。

      雖然訓練數(shù)據(jù)操縱在理論上是控制模型行為的強大機制,但它并非預防許多類型有害輸出的靈丹妙藥,尤其是當意義和危害依賴于上下文的時候。盡管內(nèi)容過濾器和數(shù)據(jù)源等因素最終會對完全訓練模型的行為產(chǎn)生重大影響,但研究人員尚未完全理解應該如何操縱數(shù)據(jù),才能在對模型產(chǎn)生有意義影響的同時,最大限度地減少性能損失。在經(jīng)過精心策劃的數(shù)據(jù)集上預先訓練較小的、專業(yè)化的語言模型,可能更容易在數(shù)據(jù)過濾或增強方面取得成功,但LLM開發(fā)者可能還需要依靠其他方法來引導他們的模型。

      2. 監(jiān)督式微調(diào)(Supervised Fine-Tuning)

      模型經(jīng)過預訓練后,開發(fā)者可以通過在專門的數(shù)據(jù)集上進一步訓練來繼續(xù)調(diào)整其行為。這一過程被稱為監(jiān)督式微調(diào),是修改語言模型最常見方法之一,通常是為了提高模型在特定領(lǐng)域的性能。模型接觸到與特定主題相關(guān)的高質(zhì)量數(shù)據(jù)越多,就越能以對人類用戶有用的方式預測其輸出中的下一個token。

      在合適的上下文中,如果有合適的數(shù)據(jù),監(jiān)督式微調(diào)會非常強大,并且是將模型針對特定領(lǐng)域或用例進行特定調(diào)整的最佳方法之一。(這里的“監(jiān)督”指的是模型被提供了標注數(shù)據(jù),因此無需執(zhí)行對數(shù)據(jù)中的模式和關(guān)聯(lián)性進行學習的前提步驟。)然而,有效的監(jiān)督式微調(diào)取決于對專業(yè)和高質(zhì)量數(shù)據(jù)集的訪問,而這些數(shù)據(jù)集并非在所有領(lǐng)域都可獲得,或者無法準確地捕捉研究人員試圖控制的行為。因此,研究人員希望開發(fā)出不依賴專業(yè)數(shù)據(jù),或者能夠以更靈活方式引導LLM行為的替代技術(shù)。

      3. 人類反饋強化學習(RLHF)及符合“憲法”的AI(Reinforcement Learning with Human Feedback and Constitutional AI)

      人類反饋強化學習(RLHF)是一種借助不同的機器學習模型(稱為“獎勵模型”)對LLM進行微調(diào)的技術(shù)。該模型在原始LLM的一些文本輸出上進行訓練,人類標注者根據(jù)一些準則或偏好對這些文本輸出進行排序。前文所提監(jiān)督式微調(diào)通常用于創(chuàng)建專門的模型,不一定涉及基于任何“對”或“錯”的感覺來指導模型;與其不同,RLHF的核心原則是人類偏好應在LLM的行為中發(fā)揮作用。“人類反饋”是RLHF的核心組成部分,也是其最大的局限性。只要RLHF需要人力,那么LLM創(chuàng)建者在其模型獲得多少人類反饋方面自然會面臨限制,因為這些措施的時間和成本都非常高。此外,設(shè)計不當?shù)姆答佭^程可能會導致模型學會如何采取行動以最大限度地獲得積極反饋,但實際上卻可能無法轉(zhuǎn)化為符合人類用戶偏好的輸出類型。

      符合“憲法”的AI(Constitutional AI,或譯“憲法”AI)是AI公司Anthropic開發(fā)的一種訓練方法,旨在盡可能少地使用人類指導來引導LLM的行為。與RLHF不同,“憲法”AI不依靠人類標簽或注釋來編碼人類偏好;相反地,研究人員提供了一系列指導規(guī)則或原則,因此被稱為“憲法”,實質(zhì)上通過另一個模型來評估并修訂其輸出。盡管“憲法”AI有望成為RLHF的替代品,其依靠人工生成的標簽要少得多,但RLHF似乎仍然是在微調(diào)階段指導和引導LLM的行業(yè)標準。

      4. 提示詞和輸出控制(Prompt and Output Controls)

      即使經(jīng)過預訓練和多輪微調(diào),LLM仍可能輸出非期望文本。在將模型整合到面向消費者的產(chǎn)品之前,開發(fā)者可以選擇在輸出前或輸出后階段使用其他技術(shù)來控制模型。這些技術(shù)通常也被稱為“輸入過濾器”(應用于輸出前階段)和“輸出過濾器”(應用于輸出后階段),通常分為三個步驟:檢測、標記和編輯。

      在LLM接收到用戶輸入之前,開發(fā)者可以對提示詞進行篩選,評估它們是否可能引發(fā)有害文本,并向用戶顯示警告或拒絕信息。這可以產(chǎn)生類似于模型本身拒絕回答某些類型提示詞的效果。

      一旦LLM對提示詞做出了響應,但在向用戶顯示輸出之前,開發(fā)者可以進行額外的檢查和過濾。與監(jiān)督式微調(diào)一樣,這些技術(shù)依靠人類標記的數(shù)據(jù)。微調(diào)階段之后的模型控制通常還與監(jiān)控或用戶舉報相結(jié)合,通常這涉及自動內(nèi)容檢測或過濾、人工內(nèi)容審核和用戶舉報的組合。最后,如果有害或非期望輸出通過了所有現(xiàn)有控制,許多LLM界面包含用戶反饋機制,使用戶可以直接標記單個輸出。開發(fā)者難以捕捉到每一個可能導致有害輸出的提示詞或用例,因此需要依靠用戶對模型性能提供反饋。

      思考與啟示

      2023年8月起施行的《生成式人工智能服務(wù)管理暫行辦法》,除了禁止生成違法違規(guī)內(nèi)容,還要求在模型生成和優(yōu)化等過程中,采取有效措施防止產(chǎn)生民族、信仰、國別、地域、性別、年齡、職業(yè)、健康等歧視;并且要采取有效措施,提高生成內(nèi)容的準確性和可靠性。這些都說明了輸出控制的重要性。

      1. LLM可控性尚無完美解

      可控性是LLM 的重點研究方向之一,但目前學術(shù)界并無完美解,正如CSET報告所言,“即使是最前沿的控制措施也不能保證LLM永遠不產(chǎn)生非期望輸出”。盡管開發(fā)者盡了最大努力,非期望輸出仍會時有發(fā)生。任何以特定方式控制模型的嘗試,都可能產(chǎn)生意想不到的后果。在實踐中,LLM輸出控制的各種技術(shù)需要相互結(jié)合使用,才能最大限度地發(fā)揮其作用。

      2. 多方協(xié)同推動各環(huán)節(jié)逐步逼近

      一是監(jiān)管部門和產(chǎn)業(yè)界多方協(xié)同,遵循包容審慎原則,共同建立可信可控的大模型監(jiān)管體系。二是從內(nèi)容和邏輯的準確性、價值觀的一致性、決策過程的透明度和可解釋性、輸出內(nèi)容的安全合規(guī)性等多個維度提升LLM輸出結(jié)果的可控性。三是構(gòu)建評測標準生態(tài),推動建立LLM評測體系,以科學有效的評測工具和評測方法,高效評估LLM的生成內(nèi)容質(zhì)量。

      文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。

    即時

    TCL實業(yè)榮獲IFA2024多項大獎,展示全球科技創(chuàng)新力量

    近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計及應用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設(shè)計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。

    新聞

    敢闖技術(shù)無人區(qū) TCL實業(yè)斬獲多項AWE 2024艾普蘭獎

    近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。

    企業(yè)IT

    重慶創(chuàng)新公積金應用,“區(qū)塊鏈+政務(wù)服務(wù)”顯成效

    “以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。

    3C消費

    “純臻4K 視界煥新”——愛普生4K 3LCD 激光工程投影

    2024年3月12日,由愛普生舉辦的主題為“純臻4K 視界煥新”新品發(fā)布會在上海盛大舉行。

    研究

    2024全球開發(fā)者先鋒大會即將開幕

    由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。