中國科學(xué)院、北大、中國科技大學(xué)、滑鐵盧大學(xué)、01.ai等10家機(jī)構(gòu)聯(lián)合推出了,專用于中文的高質(zhì)量指令調(diào)優(yōu)數(shù)據(jù)集——COIG-CQIA。
在大模型領(lǐng)域英語一直是訓(xùn)練數(shù)據(jù)最重要的語言,但由于中英文的結(jié)構(gòu)和文化差異,直接將英文數(shù)據(jù)集翻譯成中文并不理想。所以,為了填補(bǔ)高質(zhì)量中文數(shù)據(jù)集的空白,研究人員開發(fā)出了COIG-CQIA數(shù)據(jù)集。
COIG-CQIA幾乎抓取了中文互聯(lián)網(wǎng)的論壇、網(wǎng)站、百度貼吧、問答社區(qū)等高質(zhì)量數(shù)據(jù)集。用COIG-CQIA對Yi-6B、Yi-34B進(jìn)行指令調(diào)優(yōu),再用GPT4在BELLE-EVAL上評估在各種數(shù)據(jù)集上訓(xùn)練的大模型性能。
有趣的一幕出現(xiàn)了,“弱智貼吧”的數(shù)據(jù)質(zhì)量,居然大幅度超過知乎、豆瓣、是否等知名知識社區(qū),還真是大智若愚啊~
為了驗(yàn)證“弱智貼吧”的數(shù)據(jù)質(zhì)量,「AIGC開放社區(qū)」特意去實(shí)地考察了一下,果然名不虛傳有將近300萬的“病友”,找?guī)讉典型問答給大家鑒賞一下。
變形金剛買保險(xiǎn),是買車險(xiǎn)還是人險(xiǎn)?
雷公電母放的是,直流電還是交流電?
禿頭的人洗頭,用洗頭膏還是洗面奶?
如果豬腎虛,那它的腰子還補(bǔ)嗎?
吃止痛藥去打架,算開掛嗎?
鞋子買好了,怎么才能在冰箱里溜冰?
用這樣的數(shù)據(jù)去微調(diào)中文大模型,那還不得穩(wěn)超GPT-4立刻覺醒成為“病友”啊~
COIG-CQIA數(shù)據(jù)集介紹
研究人員從中文互聯(lián)網(wǎng)精心挑選了涵蓋通識百科、STEM、人文領(lǐng)域的22個高質(zhì)量數(shù)據(jù)源,包括問答社區(qū)、百科網(wǎng)站、內(nèi)容創(chuàng)作平臺、考試題庫等種類。
社交媒體、論壇數(shù)據(jù)方面,研究人員從知乎、小紅書、豆瓣、是否等熱門中文社區(qū)精心甄選了高質(zhì)量問答和長文本內(nèi)容。
針對不同社區(qū)的特點(diǎn),分別采取了篩選高贊回答、評分過濾、人工審核等方式,確保所保留的數(shù)據(jù)貼合真實(shí)場景。
通識百科方面,從百科、維基解答等知名中文百科網(wǎng)站收集了廣泛的概念解釋和指導(dǎo)性文章,內(nèi)容涉及自然科學(xué)、人文社科等多個領(lǐng)域。再通過解析HTML并設(shè)計(jì)多種提示模板,將原始數(shù)據(jù)得以轉(zhuǎn)化為高質(zhì)量的指令-輸出對。
專業(yè)知識部分則從金融、電子、醫(yī)學(xué)、農(nóng)業(yè)等專業(yè)垂直網(wǎng)站采集了結(jié)構(gòu)化數(shù)據(jù),然后按照人工設(shè)計(jì)的提示模板構(gòu)造出專業(yè)性指令-輸出對。
此外,國內(nèi)中學(xué)生、研究生的歷年入學(xué)考試真題也被COIG-CQIA納入在數(shù)據(jù)集中,可顯著提升模型的邏輯推理和知識綜合能力。
在完成數(shù)據(jù)收集和分類整理后,研究人員對每一類數(shù)據(jù)進(jìn)行深度清洗、重構(gòu)和人工審查,以確保數(shù)據(jù)質(zhì)量、多樣性和對真實(shí)人機(jī)交互的貼合度。
包括格式規(guī)范、答案審查、無關(guān)內(nèi)容刪除等。最終,精心構(gòu)建了一個包含48,375條指令-輸出對的高質(zhì)量中文指令微調(diào)數(shù)據(jù)集。
為了測試數(shù)據(jù)集性能,用COIG-CQIA對Yi系列、Qwen-72B等國內(nèi)知名模型進(jìn)行了微調(diào),結(jié)果顯示,COIG-CQIA比現(xiàn)有開源中文數(shù)據(jù)集對大模型的幫助更好。
什么是指令微調(diào)
指令微調(diào)是一種在大模型上進(jìn)行微調(diào)的方法,通過提供指令和輸出來指導(dǎo)模型更準(zhǔn)確地完成內(nèi)容輸出。
指令微調(diào)通過構(gòu)建專業(yè)的指令格式的實(shí)例,通常包含任務(wù)描述、輸入和輸出等,然后以有監(jiān)督的方式對大型語言模型進(jìn)行精細(xì)化微調(diào)。
簡單來說,指令微調(diào)像是一種“媽媽教孩子”的方法,按照特定格式幫助大模型更好地學(xué)習(xí)、輸出擬人化內(nèi)容。
需要注意的是,指令微調(diào)和數(shù)據(jù)預(yù)訓(xùn)練是兩回事。預(yù)訓(xùn)練是大模型在大規(guī)模無監(jiān)督數(shù)據(jù)上進(jìn)行的基礎(chǔ)數(shù)據(jù)訓(xùn)練,其目的只是讓大模型學(xué)習(xí)通用知識,不會針對任何特定領(lǐng)域進(jìn)行數(shù)據(jù)微調(diào)。
所以,高質(zhì)量的指令微調(diào)數(shù)據(jù)集對于大模型的擬人化輸出、內(nèi)容的精準(zhǔn)性非常重要。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹(jǐn)慎對待。投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
近日,德國柏林國際電子消費(fèi)品展覽會(IFA2024)隆重舉辦。憑借在核心技術(shù)、產(chǎn)品設(shè)計(jì)及應(yīng)用方面的創(chuàng)新變革,全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)成功斬獲兩項(xiàng)“IFA全球產(chǎn)品設(shè)計(jì)創(chuàng)新大獎”金獎,有力證明了其在全球市場的強(qiáng)大影響力。
近日,中國家電及消費(fèi)電子博覽會(AWE 2024)隆重開幕。全球領(lǐng)先的智能終端企業(yè)TCL實(shí)業(yè)攜多款創(chuàng)新技術(shù)和新品亮相,以敢為精神勇闖技術(shù)無人區(qū),斬獲四項(xiàng)AWE 2024艾普蘭大獎。
“以前都要去窗口辦,一套流程下來都要半個月了,現(xiàn)在方便多了!”打開“重慶公積金”微信小程序,按照提示流程提交相關(guān)材料,僅幾秒鐘,重慶市民曾某的賬戶就打進(jìn)了21600元。
由世界人工智能大會組委會、上海市經(jīng)信委、徐匯區(qū)政府、臨港新片區(qū)管委會共同指導(dǎo),由上海市人工智能行業(yè)協(xié)會聯(lián)合上海人工智能實(shí)驗(yàn)室、上海臨港經(jīng)濟(jì)發(fā)展(集團(tuán))有限公司、開放原子開源基金會主辦的“2024全球開發(fā)者先鋒大會”,將于2024年3月23日至24日舉辦。