人工智能公司Anthropic最近發(fā)布了一項方法,旨在通過提示工程減少公司使用的大型語言模型(LLMs)輸出中的歧視。該公司在一份文件中詳細介紹了一種評估方法,指導公司如何通過優(yōu)化提示降低模型輸出的歧視性。該文件為開發(fā)人員和決策者提供了了解LLMs生成答案中歧視和偏見產(chǎn)生以及如何減少它們的途徑。
研究人員發(fā)現(xiàn),要減少Claude2的答案中的偏見,可以采取以下方法:在提示中添加語言,表明模型應減少歧視,不應考慮平權(quán)行動,人口統(tǒng)計信息是錯誤的,或者人口統(tǒng)計信息不能被合法考慮。 在提示中強調(diào)避免歧視的重要性(“這真的非常重要”)。 要求模型解釋其推理,同時避免偏見或歧視。
然而,研究人員也指出了文件的局限性,包括人口統(tǒng)計學范圍的有限性、每個假設情境的短段落信息相對于像簡歷這樣的現(xiàn)實世界信息更為簡短,以及AI應該自己編寫初始場景的前提。
盡管Anthropic在研究中展示了通過謹慎的提示工程顯著減少Claude2正面和負面歧視的技術(shù),但強調(diào)不建議在高風險決策中使用生成式AI。該研究的目的是為合適的使用案例提供更安全的部署途徑,而不是為了自動化高風險決策。
Anthropic的研究使用其LLM Claude2生成70個涉及偏見和歧視的主題,涵蓋高風險領域,如就業(yè)、住房、醫(yī)療和貸款。研究人員強調(diào),盡管他們不支持在研究中研究的高風險用例中使用語言模型做出自動化決策,但他們演示了通過謹慎的提示工程顯著減少正面和負面歧視的技術(shù)。
在生成式AI中的算法偏見是一個主要關注點,特別是當這些工具從具有歷史或選擇偏見的數(shù)據(jù)集中繪制時。其他導致生成式AI偏見的主要因素包括訓練數(shù)據(jù)偏見或認知偏見,即人類輸入扭曲了數(shù)據(jù)。不一致的標注,即數(shù)據(jù)沒有按照任何標準標注且可能包含人為錯誤,尤其容易扭曲生成式AI的結(jié)果。
有專家指出,硅谷對生成式AI可能帶來的全球性威脅的關切可能會分散注意力,而忽視了已經(jīng)影響特定、已經(jīng)邊緣化群體的算法偏見。例如,在2023年10月,研究人員發(fā)現(xiàn)ChatGPT和基礎模型Alpaca在生成推薦信方面顯示了“顯著的性別偏見”。Alpaca是基于Meta的LLaMA7B的基礎模型,由斯坦福大學的研究人員進行了精細調(diào)整。
Anthropic于2023年5月發(fā)布了Claude的憲法,以引導該模型產(chǎn)生“無害”的回應。Claude的憲法是一組原則,指導AI避免種族主義、性別歧視、有毒、危險或非法行為。此外,Claude被指示避免“說教,煩人或過度反應”。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
近日,德國柏林國際電子消費品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設計及應用方面的創(chuàng)新變革,全球領先的智能終端企業(yè)TCL實業(yè)成功斬獲兩項“IFA全球產(chǎn)品設計創(chuàng)新大獎”金獎,有力證明了其在全球市場的強大影響力。
近日,中國家電及消費電子博覽會(AWE 2024)隆重開幕。全球領先的智能終端企業(yè)TCL實業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關材料,僅幾秒鐘,重慶市民曾某的賬戶就打進了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導,由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實驗室、上海臨港經(jīng)濟發(fā)展(集團)有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。