谷歌DeepMind的研究團(tuán)隊(duì)發(fā)布了一項(xiàng)新研究,介紹了一種名為“Search-Augmented Factuality Evaluator (SAFE)”的人工智能系統(tǒng)。該系統(tǒng)利用大型語(yǔ)言模型將生成的文本分解成個(gè)別事實(shí),并利用谷歌搜索結(jié)果來(lái)確定每個(gè)聲明的準(zhǔn)確性。研究發(fā)現(xiàn),SAFE在評(píng)估大型語(yǔ)言模型生成的信息準(zhǔn)確性方面優(yōu)于人工事實(shí)檢查員。
與人工標(biāo)注員的對(duì)比顯示,SAFE的評(píng)估結(jié)果與人工評(píng)級(jí)的一致率達(dá)到了72%。更值得注意的是,在100個(gè)SAFE與人工評(píng)級(jí)者之間存在分歧的樣本中,SAFE的判斷在76%的情況下被證明是正確的。然而,研究中“超人類”表現(xiàn)的說法引發(fā)了爭(zhēng)議,一些專家質(zhì)疑這里的“超人類”到底是什么意思。他們認(rèn)為,需要更多透明度和人類基準(zhǔn)來(lái)評(píng)估SAFE的真實(shí)效果,而不僅僅是依賴于眾包工人。
SAFE的應(yīng)用成本約為人工事實(shí)檢查的20倍,這意味著它可以大大降低事實(shí)核查的成本。研究團(tuán)隊(duì)還使用SAFE評(píng)估了13個(gè)頂級(jí)語(yǔ)言模型的事實(shí)準(zhǔn)確性,并發(fā)現(xiàn)較大型的模型通常產(chǎn)生較少的錯(cuò)誤。盡管最佳模型的表現(xiàn)仍然存在一定數(shù)量的錯(cuò)誤,但自動(dòng)事實(shí)檢查工具如SAFE可能在減少這些風(fēng)險(xiǎn)方面發(fā)揮關(guān)鍵作用。
雖然SAFE的代碼和LongFact數(shù)據(jù)集已在GitHub上開源,但研究人員指出,仍需要更多關(guān)于研究中使用的人類基準(zhǔn)的透明度。正因如此,技術(shù)巨頭們競(jìng)相開發(fā)越來(lái)越強(qiáng)大的語(yǔ)言模型,自動(dòng)核查這些系統(tǒng)輸出的信息的能力可能變得至關(guān)重要。SAFE等工具代表著建立新的信任和責(zé)任層面的重要一步。
然而,關(guān)鍵是這類重要技術(shù)的發(fā)展必須在開放的環(huán)境中進(jìn)行,并獲得來(lái)自廣泛利益相關(guān)者的意見。嚴(yán)格、透明地與人類專家進(jìn)行基準(zhǔn)測(cè)試將是衡量真正進(jìn)步的關(guān)鍵所在。只有這樣,我們才能評(píng)估自動(dòng)事實(shí)檢查對(duì)打擊錯(cuò)誤信息的實(shí)際影響。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請(qǐng)謹(jǐn)慎對(duì)待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
近日,德國(guó)柏林國(guó)際電子消費(fèi)品展覽會(huì)(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎(jiǎng)”金獎(jiǎng),有力證明了其在全球市場(chǎng)的強(qiáng)大影響力。
近日,中國(guó)家電及消費(fèi)電子博覽會(huì)(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無(wú)人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎(jiǎng)。
“以前都要去窗口辦,一套流程下來(lái)都要半個(gè)月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會(huì)組委會(huì)、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會(huì)共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會(huì)聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會(huì)主辦的“2024全球開發(fā)者先鋒大會(huì)”,將于2024年3月23日至24日舉辦。