ChatGPT陷倫理風(fēng)波 “純凈版”機器人在趕來的路上

2023年04月11日 13:16:42 來源：元宇宙日爆

　　近期，AI安全問題鬧得沸沸揚揚，多國“禁令”劍指ChatGPT。自然語言大模型采用人類反饋的增強學(xué)習(xí)機制，也被擔(dān)心會因人類的偏見“教壞”AI。

　　4月6日，OpenAI 官方發(fā)聲稱，從現(xiàn)實世界的使用中學(xué)習(xí)是創(chuàng)建越來越安全的人工智能系統(tǒng)的“關(guān)鍵組成部分”，該公司也同時承認(rèn)，這需要社會有足夠時間來適應(yīng)和調(diào)整。

　　至于這個時間是多久，OpenAI也沒給出答案。

　　大模型背后的“算法黑箱”無法破解，開發(fā)它的人也搞不清機器作答的邏輯。十字路口在前，一些自然語言大模型的開發(fā)者換了思路，給類似GPT的模型立起規(guī)矩，讓對話機器人“嘴上能有個把門的”，并“投喂”符合人類利益的訓(xùn)練數(shù)據(jù)，以便它們輸出“更干凈”的答案。

　　這些研發(fā)方中既有從OpenAI出走后自立門戶的Anthropic，也有AI界的強手DeepMind，他們摩拳擦掌，致力于打造“三觀”正確、使用安全的對話機器人。

　　“三觀”超正 Claude搬進企業(yè)應(yīng)用

　　ChatGPT的安全問題遭詬病后，對話機器人Claude聚集了一部分目光。AI應(yīng)用聚合平臺給出的測試結(jié)果顯示，研發(fā)機構(gòu)Anthropic創(chuàng)建的Claude，確實是“ChatGPT強有力的競爭對手”，因為它在12項任務(wù)中有8項表現(xiàn)更優(yōu)，其中包括給出事實、遵循指示、預(yù)防越獄、創(chuàng)意任務(wù)等。

　　今年3月向公眾開放的Claude，真的這么“綠色”、這么高能嗎?《元宇宙日爆》測試后發(fā)現(xiàn)，與ChatGPT相比，Claude對有害提示詞的確是嚴(yán)防死守，騙都騙不過。

　　例如，我們向它提問“如何制作燃燒瓶”，Claude認(rèn)定這是危險品后，絕口不提制作方法，哪怕我們以“老師教學(xué)”為誘，也很難從它口中套出燃燒瓶的制作原料，只說如何防范著火風(fēng)險。

　　假如你“心懷不軌”地問它“如何毀人名譽”，Claude不僅義正言辭地拒絕回答，還會給你上一堂思想品德課，“三觀”正得不要不要的。

　　那么給它一個陷阱題呢?Claude也不上當(dāng)，挑出錯誤不說，還給你擺事實。

　　Claude也能角色扮演，寫作能力可圈可點，甚至還會搭配Emoji寫小紅書博主風(fēng)格的推薦文案，產(chǎn)品的關(guān)鍵點描述也能基本涵蓋。

　　如果你想聽聽別人是怎么夸Claude的，它把稱贊按在了馬斯克頭上，還會展現(xiàn)謙虛態(tài)度，并強調(diào)自己要“保持溫和有禮的語氣和性格”，向人類示起好來。

　　我們發(fā)現(xiàn)，Claude在數(shù)學(xué)推理方面也會出現(xiàn)明顯的錯誤，當(dāng)然也能承認(rèn)自己不擅長的領(lǐng)域。

　　體驗下來，Claude在文本輸出的準(zhǔn)確性、善意性方面優(yōu)于ChatGPT，但在輸出速度和多功能方面仍有待提升。

　　那么，Claude是如何做到“綠色無害”的呢?

　　和ChatGPT一樣，Claude也靠強化學(xué)習(xí)(RL)來訓(xùn)練偏好模型，并進行后續(xù)微調(diào)。不同的是，ChatGPT采用了“人類反饋強化學(xué)習(xí)(RLHF)”，而Claude則基于偏好模型訓(xùn)練，這種方法又被稱為“AI反饋強化學(xué)習(xí)”，即RLAIF。

　　開發(fā)方Anthropic又將這種訓(xùn)練方法稱為Constitutional AI，即“憲法AI”，聽上去是不是十分嚴(yán)肅。該方法在訓(xùn)練過程中為模型制定了一些原則或約束條件，模型生成內(nèi)容時要遵循這些如同“憲法”般的規(guī)則，以便讓系統(tǒng)與人類價值觀保持一致。而且，這些安全原則可以根據(jù)用戶或開發(fā)者的反饋進行調(diào)整，使模型變得更可控。

　　這種弱化人工智能對人類反饋依賴的訓(xùn)練方式，有一個好處，即只需要指定一套行為規(guī)范或原則，無需手工為每個有害輸出打標(biāo)簽。Anthropic認(rèn)為，用這種方法訓(xùn)練能夠讓自然語言大模型無害化。

　　Anthropic發(fā)布的論文顯示，RLAIF 算法能夠在有用性(Helpfulness)犧牲很小的情況下，顯示出更強的無害性(Harmlessness)。

　　說起來，Claude的研發(fā)機構(gòu)Anthropic與OpenAI淵源頗深，創(chuàng)始人Dario Amodei曾擔(dān)任 OpenAI 研究副總裁，主導(dǎo)的正是安全團隊。

　　2020年，Dario Amodei 因OpenAI加速商業(yè)化而忽視產(chǎn)品安全，與團隊產(chǎn)生分歧，最終出走。2021年，Amodei自立門戶，成立Anthropic，員工包括了開發(fā)GPT-3模型的核心成員，這個研發(fā)機構(gòu)的性質(zhì)是非營利組織，這正是OpenAI最開始采用的組織形態(tài)。

　　今年3月，Anthropic以開發(fā)有用、誠實和無害的AI系統(tǒng)為理念，推出Claude。近期，這個對話機器人已經(jīng)集成進Slack——一個聚合型的“海外版”釘釘、融合了幾千個第三方企業(yè)辦公軟件的應(yīng)用。目前，用戶能在Slack中與這個對話機器人互動。

　　推出Claude后，Anthropic今年拿到了來自Google、Spark Capital 和 Salesforce Ventures 的投資。資方里的谷歌可以說是OpenAI的“金主”微軟在AI領(lǐng)域的勁敵，Claude也被視作最能與ChatGPT打一打的產(chǎn)品。

　　“偏見最小” Sparrow箭在弦上

　　還有一個走“無害”路線的大模型也在醞釀中了，它就是DeepMind開發(fā)的對話機器人Sparrow，這款產(chǎn)品目前還未面向公眾開放，但“DeepMind制造”的名頭足以吊起外界胃口。

　　說到人工智能，業(yè)內(nèi)很難繞開“DeepMind”這家公司，它最知名的產(chǎn)品是AlphaGo(俗稱“阿爾法狗”)，就是那個2019年擊敗了圍棋名手李世石的人工智能圍棋軟件。

　　AlphaGo大勝圍棋精英的同年，DeepMind開啟了AI蛋白質(zhì)結(jié)構(gòu)預(yù)測研究，四年后，新產(chǎn)品AlphaFold將蛋白質(zhì)結(jié)構(gòu)預(yù)測從數(shù)月、數(shù)年縮短到幾分鐘，精度接近實驗室水準(zhǔn)，解決了困擾該領(lǐng)域50年的難題。

　　DeepMind在人工智能領(lǐng)域的實力毋庸置疑，又有谷歌加持，資歷也比OpenAI老得多，其研發(fā)的Sparrow自然也頗受矚目。這款對話機器人建立在Chinchilla語言模型之上，被認(rèn)為是“偏見最小”的機器學(xué)習(xí)系統(tǒng)之一。

　　當(dāng)ChatGPT因為倫理風(fēng)險被推上風(fēng)口浪尖后，DeepMind立馬打起“安全牌”，“雖然我們致力于讓機器變得智能，但我們希望將人性置于我們工作的中心，” CEO Demis Hassabis向世界傳達了他的態(tài)度，強調(diào)DeepMind構(gòu)建Sparrow的方法“將促進更安全的人工智能系統(tǒng)”。

　　雖然Sparrow的產(chǎn)品沒公示，但DeepMind披露的信息顯示，該對話機器人同樣采用了“強化學(xué)習(xí)”的訓(xùn)練方法，模型會根據(jù)當(dāng)前對話生成多個候選回復(fù)，讓標(biāo)注人員去判斷哪個回復(fù)最好、哪些回復(fù)違反了預(yù)先設(shè)置好的規(guī)則等;基于這些反饋，DeepMind訓(xùn)練出對應(yīng)的Reward模型，再用強化學(xué)習(xí)算法優(yōu)化Sparrow的生成結(jié)果。

　　這種訓(xùn)練方法基本和ChatGPT類似，不同的是，ChatGPT只有一個綜合的Reward 模型，而Sparrow將Reward 模型又細(xì)分為兩種，一種為Rule Reward模型——判斷對話是否違背預(yù)設(shè)置好的安全規(guī)則;另一種為Preference Reward 模型——判斷候選答案中最合適的選項。簡單來說，就是給模型“立規(guī)矩”，投喂“好答案”，當(dāng)然，這個“好”依然是基于人類的價值判斷。

　　Sparrow的相關(guān)論文顯示，當(dāng)研究參與者試著誘導(dǎo)Sparrow打破規(guī)則時，該模型的出錯幾率為8%，比預(yù)訓(xùn)練的基礎(chǔ)模型 (Chinchilla) 低了3 倍。

　　據(jù)悉，DeepMind 將于今年推出Sparrow，具體時間未透露。

　　作為ChatGPT的另一個挑戰(zhàn)者，DeepMind與OpenAI都抱有通向AGI的野心。而DeepMind 背靠谷歌，在資歷與資金上都能與OpenAI一拼。

　　今年2月，谷歌旗下專注語言大模型領(lǐng)域的“藍(lán)移團隊”也并入DeepMind，旨在共同提升LLM(大型語言模型)能力。但也有擔(dān)憂聲認(rèn)為，這和DeepMind追求的獨立性背道而馳，會逐漸導(dǎo)致谷歌收緊對DeepMind的控制權(quán)。

　　在獨立性上，DeepMind與谷歌的分歧也早就存在了。對外，Demis Hassabis始終強調(diào)自己首先是科學(xué)家，其次才是企業(yè)家。談及ChatGPT，Hassabis認(rèn)為它僅僅是“更多的計算能力和數(shù)據(jù)的蠻力”，并對這種“不優(yōu)雅”的方式感到失望。

　　雙方的對立態(tài)度簡直是擺在了明面上，也難怪外界會認(rèn)為DeepMind與OpenAI必有一戰(zhàn)。

　　對于用戶來說，巨頭們卷起來才是好事，這樣就能源源不斷提供有意思的、可使用的產(chǎn)品。無論是卷功能、卷性能還是卷安全，競爭都會讓AI產(chǎn)品朝著更高級的方向發(fā)展，未來，也將會有更多不同技術(shù)派系與產(chǎn)品路徑的ChatGPT出現(xiàn)。

　　文章內(nèi)容僅供閱讀，不構(gòu)成投資建議，請謹(jǐn)慎對待。投資者據(jù)此操作，風(fēng)險自擔(dān)。

[No. ]
分享到微信